文字与计算学术研讨会

今天跟着老师去了趟第四届全国文字与计算学术研讨会,NSCC 2014。今天是第一天,明天还有一天,和GDG Beijing的活动重了,可惜啊。不过还是决定先去GDG,中午再去这个会议了。今天的会议就是以下的议题或者说报告吧。

文档分析技术研究现状与趋势
刘成林

Text Detection and Rectification Using Low-Rank Models
林宙辰

家族字库自动生成技术
闻申生

方正字库新探索
张建国

简繁汉字转换研究
史晓东

汉字硬笔书写特征编码方案与应用
李艺

计算机文本无关笔记鉴别研究
王言伟

以下都是一个门外汉听完这些的一些想法。刘成林老师是中科院研究所的,做了很多年的文字识别了,所以他讲的文档分析主要就是讲文字的识别~给我印象最深的就是他给出的一组数据,文字识别率的对比,在不同环境下不同公司或者研究院的文字识别率对比,之前几组数据都是很高的识别率基本上都是90+%以上的,唯有一组在多数公司识别率都在70%以下时,Google的PhotoOCR识别率高达90%以上,我当时也没听清楚具体是那种模式或者那种环境下的识别率。这老师倒是讲了文字识别的很多方法,可惜啊,没听懂,好多术语,MRF,HMM,ANN,MSER,也就业内人士知道了哇,各种缩写我砸咋知道啥意思!
photo ocr google
第二个分享的是林老师,不愧是一个搞数学出身的,讲对变形图片的还原处理上来就是大段大段的数学推理,图片变换就是说在移动设备上斜着拍摄的招牌或者文本,通过这种算法可以还原到到正确的方向,之后再进行识别。没听下去放弃了,满眼的公式。林老师开场的时候就提到了两个产品化的东西,一个是Google Goggles, 一个是Word Lens。 其实他们做的事情都是这样的。
再下来就是闻申生讲的家族字库的生成,他是汉仪公司的,所以就是介绍公司的一款旗黑字库自动化生成的方案。他演示的字库是黑体,设计师设计好正常字体,最细字体,最粗字体,之后使用自动化的算法生成剩下的不同粗细的字体,不同宽度的字体,不同高度的字体。他提到变粗的字体要考虑笔画的交接,设计师重新设计,然后需要修改模型参数然后重新生成一套。他讲的还有两个英文单词multi-polation ,他自己造的词,就是在差值中加入更多参数,还有一个hinting,貌似说让笔画变宽至少一个像素宽。好吧我承认我记得得就这些了。最后说说字库,这东西还是挺值得玩味的,中文字库短缺其实一直是一个问题,大陆版权的问题,很少有公司愿意做一套字库出来,因为这东西很容易被拷贝,如果版权意识没有,做出来的东西赚不到钱那就没人做了。
再下来就是方正字库,方正做字库时间长了,不过也没讲什么基本上就是产品介绍,云端调用的字库,写字先生App,第一个Google已经做了,只是少有中文,不过我不觉得方正能做的比Google更好,虽然展示的Demo沿用了很多的字体,少有用户啦。第二个写汉字能够通过笔势的快慢渲染出粗细不同的风格,下载使用之后发现他们提供了铅笔,钢笔,毛笔三种笔体,当然写出来的风格也不一样的,有老师问到用户量多少—-反正不少—-草草回应。貌似还讲了些渲染有关的东西,也没好好听啦。
再次就是史老师的简繁汉字的转换,史老师来自厦大,和台湾有着深度的合作,当然史老师给出了很多简繁汉字转换的问题,编码的问题啦,大陆和台湾再汉字使用习惯和字形上的变化, 字库的不同等等问题,然后他们团队比其他开发团队先进的地方在能够转换词语,标点,还有一些使用的习惯,比如我记忆最深的“臺灣”和“台灣”,写法都可以。史老师再报告中提出的问题,异体字词典,台湾教育部制定,并发布在网上,他说了一句话—-这让大陆的汉语言研究者汗颜—-我和这位老师有着相同的感受。他还通过数据“了”的使用,展现了台湾用语更趋向于古汉语,了很少的使用,而大陆就不一样了,及其频繁。最后成果在

这位老师实干,分享数据,思想自由,佩服之至。
之后就是汉字硬笔编码,李老师,无数遍强调自己师范教师,让我不记得也不行了。他们做的事情就是评价汉字工整性,通过对汉字字型,笔划等等进行编码,有一套编码方案,只是到最后也没讲编码方案的实施,他倒是介绍说从12年起就开始陆续申请专利,到年底准备申请12个以上的专利,最后但别人问起成果时,反正到最后也没看到啦。李老师在介绍的时候提到了他们的面向对象,小盆友练习汉字书写,但关键的问题在于他们制定了一套工整性的标准,我不禁问:难道汉字只有你们制定的一套才算是工整性,假设真的小盆友使用这个练习汉字,最后导致的结果就是我们中华民族再也不会出现书法艺术家了,因为大家写的字就是那么样的。
最后一个时清华的博士后,讲的是通过笔迹的识别找出资料库中与此笔迹相同的图片。当然同样也设计N多的算法,很多很多的内容识别,特征提取,另我钦佩的倒是这位博士后是学过书法的,所以在之后的提问环节中倒是说道了我刚刚疑惑的事情,就是没办法制定一套汉字写得是否好看的标准,因为有些东西是艺术品,不是制定简单规则就能够划定的。
好吧,我很回忆起得也就这些了。Over。

Edit:关于PhotoOCR下到一篇论文,应该很容易能找到,就不贴地址了。

Google推出inbox的一点思考

前一天就看到Rumor说Google有一款inbox产品要发布,没想到今天一早就看到+Sundar Pichai 发了一Po 说发布这个产品了。第一时间申请了邀请码,可是到目前为止也没见邀请码的踪影,也就只能从一些介绍,截图,视频中看到一些端倪,也由此写下一些想法。
inbox with nexus 6

改变

Gmail发布已有10年,这十年时间Gmail改变了人们使用邮箱的习惯,而这十年变化的东西太多了,邮箱这一概念早被人说是应该淘汰的东西,时至今日邮箱却依然还是日常生活,工作交流中很重要的一个环节,可是邮箱亟需要变革,不仅是作为用户而言,并且是邮箱服务提供商应该需要思考的问题,越来越多的垃圾邮件,越来越多的不必要的邮件出现在用户的收件箱。而今天Gmail团队给自己的服务一个evolution,虽然Gmail已经在不久前启用了分类服务,能够帮助过滤一些无用的邮件,但可能Gmail团队觉得还不够,他们要以一种智能的方式帮助用户收发邮件—-他们在官方博客上这样说:designed to focus on what really matters. 用户只需要关注他们真正需要关注的。改变总是好的,无论这个改变是好是坏,改变意味着不满足与现有的状态,期望以一种理想的状态而活着。所以无论这个服务是否会像waze失败,最后总会有收获
inbox web design 图片来自verge

UI设计、功能变革

那就来看看这个服务让人耳目一新的功能,首先让人眼前一亮的就是UI的设计,无论是Web还是移动端,简直就是Material Design的推广,靓丽的颜色配合着无比流畅的动画,首先让使用者的体验就很爽朗。其次就是博客中宣传的:Bundles,Highlights,Reminders, Assists, and Snooze,这三个功能构成inbox的主体,虽然Bundles就是Gmail中的不同Tab分类,Highlights应该也就是Gmail中的星,Reminders,Assists,and Snooze也就是Gmail中的工作表,可是inbox给使用者的感受是不一样的,让我想到的第一个词语就是GTD,getting things done. 这个词我第一次接触是在本科上的一门校外选修课上老师讲的。邮箱的作用难道不是这个吗?原来我们转了大大的一圈又回到了邮箱最原始的作用,帮助工作生活交流,Gmail原来一种时间乱糟糟的顺序给我们安排,而inbox是以一种事情重要程度,get more import things done first.

背后算法

说到inbox这里,就不免让我想起Google Now,想起Andrew Ng的机器学习,Google Now是Google推出的个人助手,机器学习是一门公开课,我们这学期也在学,inbox能够提供这样的一种服务,Google要在背后做的运算是及其大的,如果要做的更加智能要做的或许更多,一封邮件重要与否,一封邮件对于某一个个人重要与否,都需要背后很强大的算法计算得出。而同样你得提供更多的数据,所谓的给予的多,收获的更多。当然这只是我片面的想象,背后的数据谁也不知道,除非你去问Google的employee们。

inbox展望

inbox作为Gmail的一个革新,无论如何我都是期待的。目前我还没用过还不知道真正的使用体验也就不好说什么了。只是Google各种产品的混乱逻辑也我也弄不清楚了,虽然Gmail一直有工作表这样的功能,但却把GTD的功能做的很烂,虽然之前的keep也有GTD类似的功能,却放在类似记事本一样的笔记类应用中。当然那些产品加上那些功能也不是多此一举,却一时间让人无法选择。我原本以为所谓的inbox应该是所有服务的一个inbox,当然Gmail是最最最重要的一个inbox,而Google+的通知呢?在Web上无处不在的通知难道不应该出现在inbox中?Blogger的评论呢?YouTube制作者的评论呢?或许那死了的Reader还有那个你关注的博客又更新了一篇文章呢?我原本以为的inbox是那样的,最后的结果是我真的想多了。
但转念一想,或许不久Google Now能够给我们提供吧,期待未来。

《心花路放》影评

这部电影最近很火嘛,听评论说十一黄金周狂卷十亿票房,这样一部电影不看就跟不上时代了。看完才发现这是一个失恋之后一路治愈的故事。倒是很喜欢导演叙事的手法,两条线索,一条讲黄渤和徐峥一路上发生的事,一条讲袁泉到大理游玩,最后两条线索合二为一。这样一部电影放到连故事都讲不好的国内确实能够吸引足够多的观众,因为至少它讲好了一个故事,至少提供了足够多的搞笑因素。所以我会给它7~8分,也就是豆瓣的推荐四星。
心花路放
近些年徐峥这个名字一直在耳边响,同样的还有黄渤,虽然对黄渤印象并不如徐峥那么熟悉,但是看一些评论已经把黄渤,徐峥,宁浩并称三剑客了。在我的眼里近两年的电影也就只有徐峥导演的几部能够看一看乐一乐了。回到电影上来,这部片子我觉得最适合失恋的人看了,看徐峥饰演的郝义如何劝导失恋离婚的耿浩(黄渤),看耿浩怎么能走出这样一段艰苦的旅程。这两年突然”公路片“这样的影片火了,让公路片一直出现在各种宣传和评论中,我不明白为啥突然会惹这么多关注,也不明白为啥这两年突然这么多人愿意拍摄公路片。同样如果说电影是讲开车一路上发生的故事这样一类电影就是公路片,那这片肯定也是公路片了。两基友一路从北京开车,一路遇上了不少人,不少各种类型的女人,最初应该天平山那位阿凡达美女,再次是发廊的杀马特少女,再到酒店宾馆的妓女,哦哦对了还有路上遇到开着名车的白富美,俩基友不同的性格就体现出来,徐峥说好了是为好友疗伤,实际上是为了自己找艳遇~而黄渤唯有念念不忘的”康小雨“。
开着名车的白富美
这部片子可能要让洱海火起来了,就像后会无期让那个小岛火了一样。虽然洱海之前就是旅游胜地,不过之后可能会让更多的情侣去那边。这样的电影文化真是的,洱海还是那个洱海,一部电影就能让它变得不一样吗?变得可能就是前去游览的游客的心镜了。
说完这些,我就像说些我没看明白或者说导演没有导明白的事情了。或许是因为篇幅有限,很多背景没有交待,比如那位阿凡达美女,她遇到了什么事让她伤心,为啥仅凭着徐峥几句话就对他如此信任。又比如”康小雨“,我们知道的故事仅仅是说她在洱海那段,有些莫名,虽然这些事很小对整个故事影响不大,可是看完最后在细细地想想就觉得不是那么回事,或许这就是电影吧,那是艺术。
黄渤和袁泉的爱情故事只有洱海定情,后之后离婚,中间缺席了很大的一段,原因我想就应该是导演想要告诉我们的,不知道是否还有人记得袁泉最后说的那句话,”过日子也不仅仅是过日子吧”,黄渤为了“过日子”而放弃了唱歌,而他不知正是因为歌声才让他得到“康小雨”的爱慕,我甚至猜想,他们的离婚或许是因为黄渤背离了自己的梦想,而只是甘心的当一个二手音箱店的老板,在片尾,黄渤又重新拾起了自己的歌唱事业,我想着黄渤离爱情也不远了……

《Lucy》影评

豆瓣有这样一部电影《Lucy》评分只有6.6分,6.6分在豆瓣中应该不是很高的分,但是看导演—-吕克贝松,看演员表—-斯佳丽约翰逊,摩根弗里曼,都是重磅级人物。同学之前看过介绍了剧情觉得还不错,今天就看了一下。看完我给了三分,当然如果给的是10分制我会给7分—-还行。
lucy movie
看完电影给我的感觉就是演员太棒了—-尤其是斯佳丽约翰逊,其次是特效太爽了。看到豆瓣上上映有IMAX版,我想那视觉感受肯定更爽。其实这部电影讲的故事很简单,就是讲斯佳丽饰演的普通人莫名的被卷入一场“毒品”走私,而在走私过程中无意吸收了些“毒品”,谁知道这个毒品是CPH4—-孕妇在怀孕期分泌的一种提供婴儿生长的物质—-斯佳丽因此拥有了”超能力“,大脑从10%到100%开发。不知道有没有人注意到斯佳丽约翰逊从莫名其妙的卷入这场毒品走私案到之后拥有超能力一路的变化。从开始被“黑社会”抓住,看到满地死人时候的惊恐,到被困监狱的平静,到逃出监狱在医院和母亲通电话时候的感动。短短几十分钟表演就能看出斯佳丽的演技,可是看到豆瓣下的影评说斯佳丽面瘫,这种评价真是不知道观影的人是没看懂还是什么。在斯佳丽大脑不断开发过程中,摒弃了七情六欲,因此在电影的后半段才会出现面无表情的状态。
作为一部科幻电影,讲述大脑的开发,由摩根弗里曼饰演的博士虽然戏份并不是很多,但是在很长的篇幅中是在做演讲,这个经常饰演上帝的演员,经常出现在科普视频中做主持人的演员演起学者来就是那么的惟妙惟肖。在博士演讲中,出现大量的剪辑,这些剪辑拼凑成一副完整的人类文化的画卷,历史,经济,文化,艺术,物理,化学等等等等各个领域。同样在斯佳丽大脑开发过程中出现的各种特效也同样令人印象深刻,记得最清楚的就是在飞机上,斯佳丽身上的细胞脱离身体还有最后进化到100%的时候斯佳丽操控时间。做到如此特效已经不负一部科幻电影了。
在最后有人说是啥啥电影+啥啥电影的混合品,我并不觉得,真的看电影不必要这么累,找那么多的BUG,找那么多不符合物理时间的问题,真的只要看得舒服就够了,如果你真的需要争辩那些物理定律,我不妨引用豆瓣ExMethodology的评价:

我觉得一般来说豆瓣给分都是文艺片高科幻片低。归结原因不过是因为一帮自以为绝顶聪明的大哥们为了显示自己的智商足以找到电影中科学错误而给出低分以提升自己逼格的行为过多而导致的。我看电影没各位大哥多,甚至文艺片我都几乎不花钱去电影院看,我也肯定大部分豆瓣评分都是很准确的。但是这次我真的觉得Lucy不止这个分数,当然我知道分数不高的原因。我个人觉得电影之所以是电影本来就因为它可以用来展示导演的想象力,什么都是真的那是录像不是电影。看这种电影在于感受如果非要纠结那里面的科学可就真的输了。看绿巨人还要想博士变大了密度好像没变那么就违背质量守恒定律;看钢铁侠还得骂电影扯淡因为人根本不能承受那么大的加速度;看x战警万磁王把竞技场举起来了还要想万磁王给竞技场施加的推力那么反作用力应该把万磁王推到地里活埋了;看超人还要想一个人能输以大功率输出高能量难道体内不是生物能而是核能?这样看电影你们不累吗?秀那些高中小孩都懂的科学不羞吗?这么个思路来看你们大神是不是哆啦A梦也无法直视了。看海贼的时候路飞的拳头吹气质量变大是不是也看不了了。这样的人你们还看啥电影啊,把高中书拿出来看五三比电影有意思多了吧!所以在这我顶楼主,不是因为你给电影解释的好,这无关紧要,我只是觉得看完了我觉得爽,这就是好电影。 —-引用自:http://movie.douban.com/review/6806223/

Send Your Name to Mars

有趣的活动,NASA发起的,虽然也不大明白,貌似是说登记个名字,NASA发送到火星去~凑个热闹吧。

rime输入法

rimeime是中州韻輸入法引擎 | Rime Input Method Engine,项目网址如下
https://code.google.com/p/rimeime/ 。按照官网给出的定义:Rime不是一种输入法。是从各种常见键盘输入法中提炼出来的抽象的输入算法框架。英文Rime涵盖了大多数输入法的共性,所以在不同设定下,Rime可化身为不同的输入法用来打字。Rime是跨平台的输入法软件,Rime输入方案可通用于以下发行版:

  • 【中州韻】 ibus-rime → Linux
  • 【小狼毫】 Weasel → Windows
  • 【鼠鬚管】 Squirrel → Mac OS X

很多东西看官方的wiki就能看明白,今天折腾Rime输入法主要是在Windows下,解决了几个问题。

词库

之前一直使用Google拼音输入法,Google拼音输入法能够导出一套用户长期积累的词库。我利用“深蓝词库转换“工具将Google拼音输入法导出的词库,大概7万多条转成Rime词库格式。然后开始菜单调出,小狼毫用户词典管理,选中luna_pinying,点击“导入文本码表”导入词库。瞬间就可以从Google拼音输入法转移到Rime输入法。导入文本码表只是针对Google拼音输入法中由用户积累的词汇。一般只建议将最为关键,带有词频信息的词库使用“导入文本码表”的方法导入到Rime输入法。
关于词库,Rime输入法的词库有两部分组成。以下摘自贴吧:

  • 一部分是由系统文本词库(一般以xxx.dict.yaml结尾)通过「重新部署/deploy」生成的固态词典(一般以xxx.table.bin结尾),这部份词库因为在输入过程是固定不変的,所以存在用大量的词彚,也不允许用戸来直接删除。

  • 另一部分就是记录我们用戸输入习惯的用戸词典(一般以xxx.userdb.kct)结尾。这部份词库的词彚,正常情况下是由用戸输入的时候随时生成的;其词彚可以动态调整,数量理论上来说不会特别多,也允许用戸自行删除(shift+delete)。

佛振同学在设计用户词典时,没有考虑到有导入大词库的需求,就按照估计用戸可能积累起来的词彚量,把容量设置为「十万」规模以提升存储效率,超过这个量性能则会下降。

佛振同学设计「【小狼毫】用戸词典管理」的初衷和真正目的,在於譲大家将自己従其他输入法中积累出来的用戸词彚,可以顺利地迁移到rime中。而不是譲你把其他输入法整个系统词库都搬进来。如今,「【小狼毫】用戸词典管理」这个功能和界面,已经被众多的小白同学稀里糊涂地滥用了。

如何正确的导入词库?答:新增固态词典引用多份码表文件

批量添加词汇,过去一直没有简易的做法。现在可以这样做:
以【朙月拼音】为例,在输入方案裏指定一个新的词典名为

luna_pinyin.extended
#luna_pinyin.custom.yaml
patch:
translator/dictionary: luna_pinyin.extended

然后在用户目录创建一个词典文件luna_pinyin.extended.dict.yaml

#Rime dictionary
---
name: luna_pinyin.extended
version: "2013.04.22"
sort: by_weight
use_preset_vocabulary: true
import_tables:
  - luna_pinyin
...
# table begins
鸹鸹! gua gua 100

这样一来,部署【朙月拼音】这个输入方案时,将编译 luna_pinyin.extended 这部词典,而这部词典除了导入【八股文】词汇表之外,还导入了名为 luna_pinyin 的词典文件,即 luna_pinyin.dict.yaml 。被导入的词典文件只取其码表,忽略 YAML 段。
被导入的码表与本词典自带的码表共同决定了编码集合。
当然也可以:本文件的码表完全为空,只用来按需合并多个外部码表文件。

luna_pinyin.extended 这个词典的神奇之处是:虽然luna_pinyin.schema.yaml 已设置为加载名为 luna_pinyin.extended 的词典,但配套的用户词典名却是「luna_pinyin」,即 Rime 自动取句点之前的部分为用户词典名,以保证按以上方法增补了词汇之后,不至於因为改变词典名而抛弃原有的用户词典。

请注意,此法的设计用途是合并编码方案相同的多份词典文件,而不是用来将不同的编码混在一起。

具躰的示例代码可参考 https://gist.github.com/lotem/5443073

其実佛振同学已经说得足够好了。
其中心思想提炼出来就是
1. 先譲输入方案引用一个新的系统词库码表(佛振同学在gist.github.com上的示例中是luna_pinyin.kunki.dict.yaml),即给输入方案luna_pinyin(明月拼音)打一个补靪,将调用的词库重置为luna_pinyin.kunki.dict.yaml
2. 创建一个luna_pinyin.kunki.dict.yaml的文件,加入好你需要导入的词彚(如「瑾昀」等等)。竝导入内置的系统词库(import_tables: luna_pinyin)。

其実佛振同学import_tables的这个做法,頪似於C语言编程中的#include头文件。
其目的和工作机制都是一様的。目的是引用头文件(或是系统预设词库)竝添加上自己的内容;工作机制是在编译(或是重新部署的时候),将链接到的不同的文本文件合并成一个文件,竝処理成二进制文件。

我另外要在佛振同学的基础上补充几点

  1. luna_pinyin.custom.yamlluna_pinyin.extended.dict.yaml都要放入用戸文件夹中
  2. 通过import_tables的方法,不仅仅可以导入预设的词典,甚至可以导入其他的自定义词典
    以笔者为例子,我在朙月拼音输入方案中设定的词库名叫luna_pinyin.extended.dict.yaml
    而我luna_pinyin.extended.dict.yaml在文件头部分,除了系统预设词库之外,还导入了其他的细胞词库

  3. 码表中的词彚格式
    3.1 码表文件必须是utf-8无bom的编码。不能用ansi,否则出来的词彚会乱码
    3.2 Rime对词彚的格式有着厳格的限定,其标凖形式是「词彚<tab>ci hui<tab>100」(方引号内部的部分,<tab>表示制表符(顕示为空白字符,不是空格))。
    拼音码表的词彚格式是一个词彚占一行,不同的属性之间以制表符为间隔,编码之间以半角空格为间隔。従左往右依次是词彚、编码、词频。
    其中编码和词频是可省略的。
    也就是说
    词彚<tab>ci hui」、「词彚<tab><tab>100」、「词彚
    都是合法词库文件格式。

如果词频省略,那麼输入法会优先调用「八股文」(一个预设的中文语言模型,包含词彚和词频两穜属性)的词频,如果八股文找不到该词彚的词频,那麼这个词彚的词频就当成0来処理。

如果编码省略,那麼输入法在重新部署,将文本码表生成固态词典的时候,会根拠词库中的单字来给词彚自动编码(如果是拼音的话,叫「给词彚注音」更妥帖)
比如词库中有

我<tab>wo
和<tab>he
你<tab>ni
我和你

四个item,那麼「我和你」这个省略了编码的词彚在生成固态词典的时候会自动被注音上「wo he ni」。
其中有一个特别需要注意的地方,那就是処理多音字。
对於含多音字的词彚,我们要侭量避免譲输入法给他自动注音,因为会帯来错误的读音(比如「重庆」读成「zhong qing」)
所以一般含多音字的词彚都要最好标注上读音。
如果実在没辧法弄到读音也没関系。因为Rime已经给多音字的罕见音做了降频処理。従而使得多音字的罕见音不会参与词彚的自动注音。

関於自动注音的具躰的细节可以看rime的wiki,这裏我就不多说了。総而言之,我廃话那麼多,是为了譲大家了解rime词库的工作机制,其実就为了告诉大家两句话:「在导入词彚的时候,一般来说只要加纯汉字就够了。含多音字的词,系统词库一般都有,如果没有才要考虑给这个词注上音。」

另外,系统词库中,已经包含了完整的单字注音和罕用读音降频処理,大家可以放心地导入纯汉字词彚,不用太过担心。(所以一定给要记得import_tables: luna_pinyin,来使自定义码表获得系统词库中的单字注音、含多音字词彚注音以及系统词彚词频)

再来一个另外。。。
关於楼主配置的多个词库挂接的方法实例,可参考由rime-aca友情提供的「朙月拼音·扩充词库」
下载地址:https://bintray.com/rime-aca/dictionaries/luna_pinyin.dict

源自:百度贴吧置顶帖关于导入词库和深蓝词库转换
参考:https://code.google.com/p/rime-aca/
其他词库下载
搜狗词库 http://cl.ly/033g2x3k2J05 来源

修改配置文件定製指南

更改候选词数

修改文件default.custom.yaml

patch:
  "menu/page_size": 10

候选词最多支持10个。

模糊音

https://gist.github.com/2320943 作为模板保存到luna_pinyin_simp.custom.yamlluna_pinyin_tw.custom.yamlluna_pinyin_fluency.custom.yaml即可。

小狼毫外观设定

# weasel.custom.yaml
patch:
  "style/font_face": "华文行楷"  # 字體名稱,從記事本等處的系統字體對話框裏能看到
  "style/font_point": 16     # 字號,只認數字的,不認「五號」、「小五」這樣的

  style/horizontal: true      # 候選橫排
  style/inline_preedit: true  # 內嵌編碼(僅支持TSF)
  style/display_tray_icon: true  # 顯示托盤圖標

http://jianguoyun.com/p/DaBygmsQtJkBGLntCQ

一些快捷键

ctrl+` (grave) tab键上面,1左边的那个键 切换Rime输入方案
shift+delete 删除选中候选词
ctrl+ np 上下选词

合并和修改GPX文件

什么是GPX文件

简而言之,一种记录GPS信息的文本格式,其实就是XML格式的文件,具体定义可以自行维基哈~最新的版本是1.1,我瞟了一眼最后的标准是2004年制定的。

合并GPX文件

在了解GPX中各个标记的含义之后,就很简单的能够操作。一般的GPX文件格式都包含以下几个字段:

<?xml version="1.0" encoding="UTF-8" standalone="no" ?>
<gpx xmlns="http://www.topografix.com/GPX/1/1" xmlns:gpxx="http://www.garmin.com/xmlschemas/GpxExtensions/v3" xmlns:gpxtpx="http://www.garmin.com/xmlschemas/TrackPointExtension/v1" creator="Oregon 400t" version="1.1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.topografix.com/GPX/1/1 http://www.topografix.com/GPX/1/1/gpx.xsd http://www.garmin.com/xmlschemas/GpxExtensions/v3 http://www.garmin.com/xmlschemas/GpxExtensionsv3.xsd http://www.garmin.com/xmlschemas/TrackPointExtension/v1 http://www.garmin.com/xmlschemas/TrackPointExtensionv1.xsd">
  <metadata>
    <link href="http://www.garmin.com">
      <text>Garmin International</text>
    </link>
    <time>2009-10-17T22:58:43Z</time>
  </metadata>
  <trk>
    <name>Example GPX Document</name>
    <trkseg>
      <trkpt lat="47.644548" lon="-122.326897">
        <ele>4.46</ele>
        <time>2009-10-17T18:37:26Z</time>
      </trkpt>
    </trkseg>
  </trk>
</gpx>

一般来说,最外层gpx,里面trk标记表示的就是一段轨迹,所以如何合并两个gpx文件,就是将第二个文件中的trk拷贝到第一个gpx中,Ctrl+S保存即可。

修改GPX

GPX Editor
http://sourceforge.net/projects/gpxeditor/
虽然界面丑了点,但是功能还是有的。

参考及推荐网站

下面这个网站可以转换各种形式的GPS文件
http://www.gpsvisualizer.com/

照片添加GPS信息

买的入门Nikon单反没有GPS模块,而Nikon单独提供的GPS外置模块价格也要几百大洋,但是我找到一种便宜又简洁的方式可以给照片添加上GPS信息。
需要借助的工具:

具体原理是:按照时间顺序,将手机记录的GPS信息写入相机拍摄的照片中。

具体步骤:
1. 调校相机时间和手机时间保持一致
2. 使用My Tracks应用记录GPS信息,保证在使用单反拍照前后一直在记录。所以最好的办法是出门前打开My Tracks,回家关闭记录。
3. 回到家,导出照片,安装GeoSetter软件,将My Tracks记录的文件导出为gpx文件
4. 打开GeoSetter,全选所有照片,在菜单中找到和GPS文件同步,快捷键Ctrl+G,找到Android手机中Export出的gpx文件,同步。
5. Ctrl+S,保存。
之后GPS信息就被写到文件中了。

Quote Of The Day