基于大规模语料的中文新词识别技术研究

被引量 : 0次 | 上传用户:qq121450500
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文新词识别是指从未标注文本语料中抽取新词并识别其属性的过程,是中文信息处理领域的一项基础任务,其识别结果直接影响着分词、句法分析的处理性能,同时亦在信息抽取及机器翻译等领域有着广泛应用,具有重要的理论意义和实用价值。汉语具有极强的构词能力,加之词语间没有特定的分隔标记,导致任何两个以上相邻字符都有成词的可能性,这给新词自动识别带来了极大困难;同时海量数据应用需求激增又给新词识别研究带来了新的挑战。为改善新词识别性能,提高实用性,本文以大规模语料为研究对象,应用规则和统计相结合的策略,对新词识别及相关技术进行了研究,主要工作和特点如下:首先,本文设计并初步实现了一个领域无关的新词识别框架FNWI。该框架对新词识别系统的灵活性、可扩展性和可维护性进行了统一规划,FNWI不仅是本文研究展开的总体设计方案,还将为后继工作提供一个良定义的基础结构。为有效处理大规模语料,本文提出一种基于逐层剪枝的重复模式提取算法。该算法通过低频字符剪枝和层次剪枝来减少重复模式提取过程中垃圾字符串的产生,有效地降低I/O读写次数。具有能快速处理规模远大于内存容量的语料、语料读写次数与规模接近线性关系;及使用灵活、可提取特定频率/特定长度的重复模式的特点。为提高候选重复模式的归并速度,本文还提出了一种改进的字符串排序算法,其时间复杂度为O(dn)。在新词检测阶段,为提高检测速度,提出一种高效的左(右)熵计算方法,有效减少了计算时无关字符的影响,显著地提高熵的计算效率;为分析重复模式提取策略(基于字符和基于预先分词)对检测效果的影响,提出一种应用实验数据对比和量化模型分析相结合的评测方法,并给出了一个实用的候选新词遗漏量化分析模型,用以指导新词检测的实施。最后,对新词词性分类,本文提出一种新词词性猜测的形式化模型,并应用条件随机域实现模型求解。通过对模型分析,确定了特征选取的原则和思路。该方法最大特点是以词性内部特征为主,不使用上下文词性,具有更强的实用性。
其他文献
目的:本研究深入探讨糖尿病患者中医医院住院总费用的构成和影响因素,利用决策树技术和多元线性回归方程预测不同类型糖尿病患者的住院费用。方法:本研究对来源于全国中医医院
<正>中共十七大以来,提高国家文化软实力作为重大战略任务引起了社会各界的普遍关注,实际工作者和学术界从不同层面、不同角度对其进行了探讨和研究。系统回顾和总结近年来国
随着计算机技术与信息技术的快速发展,现代远程教育的开展推进了中国教育跨越式的进步,推进了终身教育体系与终身学习社会的构建。在远程教育中,受时间、空间、成本等多方面
现在实行的新课改要求教师在教初中语文写作的过程中,应该将作文教学贴近学生的生活,让学生有话可说,有话可讲,乐于表达和倾诉自己的想法,通过这样来让学生更热爱生活,但现在
相对于国内企业相互之间的并购,海外并购由于其跨国性受到包括东道国和母国更多的法律管制,也呈现出了更大的复杂性和风险性。海外并购涉及到的法律问题很多,范围也很广,笔者
由心室肌细胞合成和分泌B型利钠肽(B—type natriuretic peptide,BNP),主要应对心脏容量和压力负荷的变化。BNP及NT—proBNP(Amino terminal btype natriuretic peptide)主要用于心
经济全球化的浪潮推动了企业社会责任的进一步发展。国际社会的广泛关注,股东、消费者等利益相关者的广泛认可,使企业社会责任从单纯的公益行为转变成了提升企业竞争优势,促
<正>导数是中学数学中的重要概念之一,也是高等数学的基础,因此以导数为背景的函数问题的命制倍受命题人的青睐,纵观全国各省市高考试题可知,导数不仅是重点,且常以压轴题的
死亡态度是个体对死亡事件主观的、多维度的信念和感受,包括认知、情感、行动三种成分。研究早期因为对死亡的认识不够深入,对于自己及他人死亡或濒死的恐惧与焦虑成为研究焦
目的了解先心病患儿介入治疗后中期生存质量状况,为临床制订针对性的护理策略提供依据。方法选择2008年3月至2009年1月在哈尔滨市某三级甲等医院心内科住院行介入治疗的先心