基于词库与贝叶斯定理的中文单词分词方法的研究

被引量 : 0次 | 上传用户:hz198119
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几十年以来,经过国内外广大专家学者研究人员的努力,现在已经形成了一些常用的中文分词算法,最常见的包括了基于词典的机械中文分词算法、基于统计的中文分词算法和基于理解的中文分词算法。这些算法都有其各自的优势与局限性,基于词库的机械分词算法实现简单运行效率高,但对新词的识别效果差;基于理解的中文分词算法难以达到应用的程度,主要还是以理论研究为主;基于统计的中文分词算法对新词的处理效果好,但是算法时空开销大,对常用词识别效果差。目前已有的系统主要都是基于这三种常用算法来实现的,但是由于汉语语言的复杂性以及随着时代变化不断涌现出的各种新词汇,这些系统尚不能完全满足实际应用系统的需求。在算法研究的理论基础上,实现了基于词库与贝叶斯定理的分词算法。构建了一个包括了常用词库与其他特征词库的分词词库,而且能够根据语料库的文本来对词库进行更新,从而提高了分词词库的质量。通过采用Hash表与链表结合的方式来存储词库,来满足算法对词库数据的快速查找的需求。将传统的贝叶斯定理灵活地应用于中文分词上,得到计算分词方案概率的公式,并根据分词词库里中文词汇的概率数据来计算分词方案的概率。歧义问题的处理是中文分词的一个比较大的技术难点,对于这个问题的处理,算法采用的是二元模型,能有效解决这个问题。经过这些处理,使得算法能够充分汲取各种常见算法的优势,避免各自的局限性,对常用词汇以及新词的处理效果都比较好。在各种测试条件下的测试结果表明,该算法具有良好的分词效果,对歧义处理、未登录词的处理方面效果较好,基本可以满足处理中文相关信息的需要。
其他文献
第一部分大鼠血清、脑组织和脑脊液中利奈唑胺药物浓度测定的方法学研究目的建立利奈唑胺在血清、脑组织和脑脊液(CSF)中高效液相色谱药物浓度检测方法,为进行利奈唑胺的药代动
目的探讨中频离子导入癌痛消结合三阶梯止痛法治疗癌痛的临床疗效和安全性。方法将80例中重度癌痛患者随机分为治疗组和对照组,每组40例。对照组予三阶梯止痛法(中度疼痛予盐
尼采曾说,没有音乐,生命是没有价值的。柏拉图将音乐教育定义为除了非常注重道德和社会目的外,必须把美的东西作为自己的目的来探求,把人教育成美和善的。可见音乐教育不仅是
目前临床上治疗肿瘤和一些免疫系统疾病时,采用大剂量放疗或在应用大剂量化疗药物时,在机体“容忍”的剂量下,部分受者睾丸内的SSCs破坏严重,甚至殆尽,致非梗阻性无精子症形成。随
本文基于投入产出分析方法,结合2002年、2005年、2007年中国投入产出表以及各行业相关数据,首先,分析了贸易隐含碳常用3种测算方法的异同点。其次,分析中国2002年-2007年贸易隐含
本文基于“女性与传播”的研究背景,运用法国符号学家罗兰·巴特的“神话”学研究,从社会性别角度对改革开放至今《河北日报》头版中的女性新闻图片报道做一个梳理,分析不同时间
<正>从刘易斯·卡罗尔经典小说《爱丽丝漫游仙境》和《爱丽丝镜子奇遇记》改编而成的诸多电影中,《爱丽丝》当属最黑暗、最奇特的一部。杨·史云梅耶,捷克著名的实验电影导演
搭配是人们在使用语言的过程中,所形成的一种固有的语言现象。搭配表现了词汇之间的内在联系,而这种词汇间的联系可以帮助人们更好地使用和理解语言。近些年来,有很多学者针对搭
综述单味中药配伍含马兜铃酸中药后肾脏减毒作用的实验研究进展。发现与含马兜铃酸中药配伍后,具有肾脏减毒作用的中药包括补益、活血、清热及泻下四类,为临床合理配伍、安全
当前水利领域急需解决的几大问题是:1、防治洪涝灾害;2、解决干旱缺水;3、治理、改善和保护水环境。这些问题导致了我国水资源的开发程度不够高,归根结底还是水利信息化系统建设