中文输入法实现的基本思路

除了考虑一般的词频、词性等问题外,觉得可以利用马尔可夫链的原理来进行拼音和汉字间的转换。

计算机语言研究里面有个著名的马尔可夫问题,说的是给出一篇文章,利用马尔可夫的原理来处理,输出一篇风格类似的文章的算法讨论。(我好像是从《程序设计实践》这本书的第三章里看来的。)

用同样的原理,应能够处理训练集(特意输入的训练集,或者平时对输入法的使用都可以),得到汉字间的相关性关系,用于对汉字转换的参考。对于整句输入法,作用应当是明显的,即使是基于词或短语的输入法,如果可以区分是否是在同一程序中使用的输入法进程,那么完全也可以考虑输入的词汇间的上下文关系,改善选字的备选情况。

只是现在觉得自己不大可能去做输入法方面的工作,因此只是用这个页面把想法记录下来而已。


半瓶墨水按:不知道啥时候记录的,现在所有的输入法都有实现这个功能,即分词 + Bigram算法

应该是05年左右写的。当时只是打算想个题目来实践马尔可夫链的效果罢了,如果要真正去做一个输入法,还可以考虑词性等很多很多因素,而且还有不完整拼音等很多问题。 ——Elias 2008 年 10 月 22 日, 03:11 下午
GlossyBlue theme adapted by David Gilbert
Powered by PmWiki