汉语自动分词的研究及实现

来源 :海南大学 | 被引量 : 0次 | 上传用户:honghe2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的发展和海量信息的涌现,信息处理技术已经成为当今世界发展不可或缺的一部分。要在海量信息中提取有用的知识,就必须要让机器“读懂”这些由人类语言描述的信息。词是最小的能够独立活动的有意义的语言成分,将词确定下来是智能信息处理和自然语言理解的第一步,只有跨越了这一步,才有可能对信息进行更深入的处理,以至于让机器“理解”人类的语言。 针对汉语自动分词,对其相关技术进行了研究,包括词语粗切分、未登录词识别、切分排歧和词性标注等技术。在汉语自动分词的预处理阶段,综合了最短路径方法和全切分方法,给出了一种基于N—最短路径的汉语粗切分方法,并采用一定的算法对全切分有向图进行遍历,得到最优的N组粗分结果作为后续处理的对象,在保证效率的前提下提高了分词的准确率。未登录词识别一直都是汉语分词的难点之一。基于规则的方法和统计模型都被广泛的使用。本文针对中文人名的特点,参考统计模型,针对其存在的问题进行修改:不但将字段被识别为姓名的概率作为参考,而且将字段与其上下文(词或字)的共现概率也作为参考。二者相结合,提高了识别的准确率。同时引入一些规则,对该模型不能处理的问题进行补救,进一步提高识别准确率。切分排歧是汉语自动分词的另一个难点。分词系统的预处理阶段所产生的N组最优粗分结果正是由于歧义现象的存在,经过后续的处理才能获得最终的分词结果。获得全局最优结果的过程即为切分排歧的过程。在此过程中参考了最大概率模型,并在其基础上进行了修改,考虑了所有可能的切分词在全文的出现概率。可以进一步提高切分准确率。在词性标注阶段,将采用经典的Viterbi算法进行标注。 在以上研究的基础上,认真分析了汉语自动分词系统实现的基本思想和组成框架,设计并实现了试验用的自动分词系统。
其他文献
多元智能理论是美国著名心理发展学家霍华德加德纳提出的关注学生的多元智能发展的一种教学理论.加德纳认为,支撑多元智能理论的是学生个体身上相对独立存在着的、与特定的认
期刊
“当我们把追踪个人健康的应用运用到群体中,它们是最强有力的。”雷切尔·马奎尔说。新型的智能联网工具和应用使得一批早期的使用者可以跟踪和分析他们的个人健康数据。这
课堂提问是非常重要的课堂活动,问题能激活学习者的思维.老师要优化提问技巧,提出趣味性问题,探究性问题和层次性问题,让学生在回答问题中提升学习能力,实现英语课堂的有效性
期刊
目的:探讨不同玉米浆及黄豆饼粉对土霉素发酵产生的影响.方法:选择A厂家和B厂家的玉米浆,高温加工生产和中温加工生产的黄豆饼粉作为研究对象,分别对比不同的玉米浆和黄豆饼
文章首先简述了国内聚甲醛的生产发展历史,然后分析了成核剂的概念以及作用原理,最后重点探讨了聚甲醛的应用领域.
随着新课改的深入发展与完善,诸多新颖且高效的教学手段应运而生,为小学英语课堂教学注入了新的活力与生机,而表演这一新型的教学手段,是指在实际教学中,教师根据小学生的学
期刊
我曾多次来过洹园,也许是过于匆忙没有留意那些标牌。只是于草坪上瞥见“小草在睡觉,请你别打扰”、“您若有情,我也有青(情)”之类的标语,不过一笑而过。又有一次,与几位同
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
高中英语教师要重视学生的口语表达,使学生能够运用口语进行语言交流,教师要提高学生用英语说的能力,教师通过举办多种口语活动使学生积极地开口说英语,教师要转变以课堂讲解
期刊
足球是一项深受广大学生喜爱的体育活动,尤其是在高级中学中,足球已经成为学生解压的一种方式和项目,颇受学生青睐.为了让高中生接触到更好的足球教育,在教学中,教师应当重视
期刊