文字与计算学术研讨会

今天跟着老师去了趟第四届全国文字与计算学术研讨会,NSCC 2014。今天是第一天,明天还有一天,和GDG Beijing的活动重了,可惜啊。不过还是决定先去GDG,中午再去这个会议了。今天的会议就是以下的议题或者说报告吧。

文档分析技术研究现状与趋势
刘成林

Text Detection and Rectification Using Low-Rank Models
林宙辰

家族字库自动生成技术
闻申生

方正字库新探索
张建国

简繁汉字转换研究
史晓东

汉字硬笔书写特征编码方案与应用
李艺

计算机文本无关笔记鉴别研究
王言伟

以下都是一个门外汉听完这些的一些想法。刘成林老师是中科院研究所的,做了很多年的文字识别了,所以他讲的文档分析主要就是讲文字的识别~给我印象最深的就是他给出的一组数据,文字识别率的对比,在不同环境下不同公司或者研究院的文字识别率对比,之前几组数据都是很高的识别率基本上都是90+%以上的,唯有一组在多数公司识别率都在70%以下时,Google的PhotoOCR识别率高达90%以上,我当时也没听清楚具体是那种模式或者那种环境下的识别率。这老师倒是讲了文字识别的很多方法,可惜啊,没听懂,好多术语,MRF,HMM,ANN,MSER,也就业内人士知道了哇,各种缩写我砸咋知道啥意思!
photo ocr google
第二个分享的是林老师,不愧是一个搞数学出身的,讲对变形图片的还原处理上来就是大段大段的数学推理,图片变换就是说在移动设备上斜着拍摄的招牌或者文本,通过这种算法可以还原到到正确的方向,之后再进行识别。没听下去放弃了,满眼的公式。林老师开场的时候就提到了两个产品化的东西,一个是Google Goggles, 一个是Word Lens。 其实他们做的事情都是这样的。
再下来就是闻申生讲的家族字库的生成,他是汉仪公司的,所以就是介绍公司的一款旗黑字库自动化生成的方案。他演示的字库是黑体,设计师设计好正常字体,最细字体,最粗字体,之后使用自动化的算法生成剩下的不同粗细的字体,不同宽度的字体,不同高度的字体。他提到变粗的字体要考虑笔画的交接,设计师重新设计,然后需要修改模型参数然后重新生成一套。他讲的还有两个英文单词multi-polation ,他自己造的词,就是在差值中加入更多参数,还有一个hinting,貌似说让笔画变宽至少一个像素宽。好吧我承认我记得得就这些了。最后说说字库,这东西还是挺值得玩味的,中文字库短缺其实一直是一个问题,大陆版权的问题,很少有公司愿意做一套字库出来,因为这东西很容易被拷贝,如果版权意识没有,做出来的东西赚不到钱那就没人做了。
再下来就是方正字库,方正做字库时间长了,不过也没讲什么基本上就是产品介绍,云端调用的字库,写字先生App,第一个Google已经做了,只是少有中文,不过我不觉得方正能做的比Google更好,虽然展示的Demo沿用了很多的字体,少有用户啦。第二个写汉字能够通过笔势的快慢渲染出粗细不同的风格,下载使用之后发现他们提供了铅笔,钢笔,毛笔三种笔体,当然写出来的风格也不一样的,有老师问到用户量多少—-反正不少—-草草回应。貌似还讲了些渲染有关的东西,也没好好听啦。
再次就是史老师的简繁汉字的转换,史老师来自厦大,和台湾有着深度的合作,当然史老师给出了很多简繁汉字转换的问题,编码的问题啦,大陆和台湾再汉字使用习惯和字形上的变化, 字库的不同等等问题,然后他们团队比其他开发团队先进的地方在能够转换词语,标点,还有一些使用的习惯,比如我记忆最深的“臺灣”和“台灣”,写法都可以。史老师再报告中提出的问题,异体字词典,台湾教育部制定,并发布在网上,他说了一句话—-这让大陆的汉语言研究者汗颜—-我和这位老师有着相同的感受。他还通过数据“了”的使用,展现了台湾用语更趋向于古汉语,了很少的使用,而大陆就不一样了,及其频繁。最后成果在

这位老师实干,分享数据,思想自由,佩服之至。
之后就是汉字硬笔编码,李老师,无数遍强调自己师范教师,让我不记得也不行了。他们做的事情就是评价汉字工整性,通过对汉字字型,笔划等等进行编码,有一套编码方案,只是到最后也没讲编码方案的实施,他倒是介绍说从12年起就开始陆续申请专利,到年底准备申请12个以上的专利,最后但别人问起成果时,反正到最后也没看到啦。李老师在介绍的时候提到了他们的面向对象,小盆友练习汉字书写,但关键的问题在于他们制定了一套工整性的标准,我不禁问:难道汉字只有你们制定的一套才算是工整性,假设真的小盆友使用这个练习汉字,最后导致的结果就是我们中华民族再也不会出现书法艺术家了,因为大家写的字就是那么样的。
最后一个时清华的博士后,讲的是通过笔迹的识别找出资料库中与此笔迹相同的图片。当然同样也设计N多的算法,很多很多的内容识别,特征提取,另我钦佩的倒是这位博士后是学过书法的,所以在之后的提问环节中倒是说道了我刚刚疑惑的事情,就是没办法制定一套汉字写得是否好看的标准,因为有些东西是艺术品,不是制定简单规则就能够划定的。
好吧,我很回忆起得也就这些了。Over。

Edit:关于PhotoOCR下到一篇论文,应该很容易能找到,就不贴地址了。

Related Articles

0 评论 :

发表评论

Quote Of The Day