论文部分内容阅读
文章分析了山西大学在第四届SIGHAN国际分词评测中的分词系统.根据中文分词中所遇到的问题,对其进行归类并利用层叠模型的思想对分词结果进行逐步的优化,最终达到一个较理想的结果.在该系统中,歧义字段的处理和未登录词内部信息的提取是主要解决的问题.实验结果表明,该系统在NCC(中国教育部国家语委)语料的开放测试中得到的正确率为94.46%,Rw得到较高的96.9%.