基于优化最大匹配与统计结合的汉语分词方法

来源 :燕山大学学报 | 被引量 : 0次 | 上传用户:wedededi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语自动分词是中文信息处理的前提,如何提高分词效率是中文信息处理技术面临的一个主要问题。基于词典和基于统计的分词方法是现有分词技术的主要方法,但是前者无法处理歧义字段,后者需要大量的词频计算耗费时间。本文提出优化最大匹配与统计结合的分词方法,首先提出优化最大匹配算法,在此基础上提出了规则判断与信息量统计两种消歧策略。然后,给出了优化最大匹配与统计结合的分词算法,提高了分词的效率。最后,基于分词算法实现中文分词系统,并通过实验对算法进行了分析和验证。
其他文献
本文针对当前群众戏剧小品创作的现状,分析了群众戏剧小品创作的重要意义,并提出了戏剧小品创作提升和突破的方法措施,旨在推动群众戏剧小品的创作发展,丰富群众艺术活动的内
单片机作为电子控制技术的一个重要分支、嵌入式系统的核心,广泛应用于工业控制、智能仪器、家用电器、智能产品等领域.而循迹车是一种无人操纵的货物搬运设备,是自动化工厂
目的:探讨外伤性膀胱破裂的诊断及治疗方法,提高外伤性膀胱破裂的临床诊治水平。方法对23例外伤性膀胱破裂患者的病因、类型、临床表现、诊断方法、治疗方法及效果进行回顾性总
【正】 一、发展现状和趋向个体经济是以生产资料私有制和个体劳动为基础的小生产经济形式。在我国,目前个体经济主要是指从业人员在7人以下的个体工商业户。旧中国社会生产
2008年的汶川地震及2010年的玉树地震震害结果表明,钢筋混凝土框架结构楼梯间破坏严重,致使许多人逃生受阻。文章以框架结构楼梯间地震灾害调查结果为根据,分析了地震灾害发
K范围近邻查询是指查找给定范围区域内所有点的近邻对象。现有工作主要考虑对象固定不动情况下的K范围近邻查询,实际上对象不但可能移动,而且由于外界环境和自身情况等不确定
目的 观察重型颅脑损伤手术中脑保护措施的效果。方法 对106例重型颅脑损伤患者手术中采取脑保护措施。回顾性分析患者的临床资料。结果 本组死亡6例(5.66%)。术后并发硬膜下积
为了确定4^1-100综采工作面矿压显现规律及评价液压支架的适用性,采用矿压观测仪器对该工作面矿压数据进行监测,运用数理统计的方法分析了该面的矿压显现参数,得出了4^1-100综采
大整数模幂乘运算一直是制约RSA广泛应用的瓶颈,本文在对传统算法剖析的基础上,提出了一种新的快速模乘算法,借鉴生成Wallace tree的思想,结合查找表和并行乘法运算进行RSA模幂运
本文首先介绍了Gaussian计算中方法的选取,进而把这些方法作了比较,而且对基组的选择作了整体的分析.并以2,4-DNT为例,采用不同的基组进行了计算,将计算结果与实验结果进行了