论文部分内容阅读
在文字识别系统中,为了进一步提高文本识别率,后处理模块是很重要的环节,文章针对日文的语言特性,建立统计方法和规则相结合的混和语言模型,实现了一个日文识别后处理系统,该系统首先利用Viterbi算法得到统计模型输出的最优结果,通过与前端识别器输入的识别结果相比较,确定可疑字位置,再利用上下文词匹配方法和语法规则库的使用对可疑字进行检错和纠错处理,经实验验证,该后处理系统对识别日文印刷体文本错误率平均下降21.4%。