基于大规模语料的中文新词识别技术研究

被引量 : 0次 | 上传用户：qq121450500

【摘要】

：

中文新词识别是指从未标注文本语料中抽取新词并识别其属性的过程,是中文信息处理领域的一项基础任务,其识别结果直接影响着分词、句法分析的处理性能,同时亦在信息抽取及机

【作者】

：

张海军

【发表日期】

：

2011年期

【关键词】

：

中文新词识别重复模式逐层剪枝字符串排序新词检测条件随机域上下文特征词性猜测

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

中文新词识别是指从未标注文本语料中抽取新词并识别其属性的过程,是中文信息处理领域的一项基础任务,其识别结果直接影响着分词、句法分析的处理性能,同时亦在信息抽取及机器翻译等领域有着广泛应用,具有重要的理论意义和实用价值。汉语具有极强的构词能力,加之词语间没有特定的分隔标记,导致任何两个以上相邻字符都有成词的可能性,这给新词自动识别带来了极大困难;同时海量数据应用需求激增又给新词识别研究带来了新的挑战。为改善新词识别性能,提高实用性,本文以大规模语料为研究对象,应用规则和统计相结合的策略,对新词识别及相关技术进行了研究,主要工作和特点如下:首先,本文设计并初步实现了一个领域无关的新词识别框架FNWI。该框架对新词识别系统的灵活性、可扩展性和可维护性进行了统一规划,FNWI不仅是本文研究展开的总体设计方案,还将为后继工作提供一个良定义的基础结构。为有效处理大规模语料,本文提出一种基于逐层剪枝的重复模式提取算法。该算法通过低频字符剪枝和层次剪枝来减少重复模式提取过程中垃圾字符串的产生,有效地降低I/O读写次数。具有能快速处理规模远大于内存容量的语料、语料读写次数与规模接近线性关系;及使用灵活、可提取特定频率/特定长度的重复模式的特点。为提高候选重复模式的归并速度,本文还提出了一种改进的字符串排序算法,其时间复杂度为O(dn)。在新词检测阶段,为提高检测速度,提出一种高效的左(右)熵计算方法,有效减少了计算时无关字符的影响,显著地提高熵的计算效率;为分析重复模式提取策略(基于字符和基于预先分词)对检测效果的影响,提出一种应用实验数据对比和量化模型分析相结合的评测方法,并给出了一个实用的候选新词遗漏量化分析模型,用以指导新词检测的实施。最后,对新词词性分类,本文提出一种新词词性猜测的形式化模型,并应用条件随机域实现模型求解。通过对模型分析,确定了特征选取的原则和思路。该方法最大特点是以词性内部特征为主,不使用上下文词性,具有更强的实用性。

其他文献

糖尿病患者中医医院住院费用影响因素分析及预测

目的：本研究深入探讨糖尿病患者中医医院住院总费用的构成和影响因素,利用决策树技术和多元线性回归方程预测不同类型糖尿病患者的住院费用。方法：本研究对来源于全国中医医院

学位

糖尿病住院费用决策树

中共十七大以来国家文化软实力研究述评

<正>中共十七大以来,提高国家文化软实力作为重大战略任务引起了社会各界的普遍关注,实际工作者和学术界从不同层面、不同角度对其进行了探讨和研究。系统回顾和总结近年来国

期刊

国家文化软实力马克思主义大众化社会主义核心价值体系硬实力文化软实力建设十七大以来研究述评

虚拟实验教学系统在远程教育中的应用与评价研究

随着计算机技术与信息技术的快速发展,现代远程教育的开展推进了中国教育跨越式的进步,推进了终身教育体系与终身学习社会的构建。在远程教育中,受时间、空间、成本等多方面

学位

虚拟实验远程教学实验教学教学评估教学应用

初中语文作文写作技巧策略探析

现在实行的新课改要求教师在教初中语文写作的过程中,应该将作文教学贴近学生的生活,让学生有话可说,有话可讲,乐于表达和倾诉自己的想法,通过这样来让学生更热爱生活,但现在

期刊

初中语文写作技巧

中国企业海外并购法律问题研究

相对于国内企业相互之间的并购,海外并购由于其跨国性受到包括东道国和母国更多的法律管制,也呈现出了更大的复杂性和风险性。海外并购涉及到的法律问题很多,范围也很广,笔者

学位

海外并购公司治理

呼吸系统疾病诊治中BNP及NT-proBNP应用进展

由心室肌细胞合成和分泌B型利钠肽（B—type natriuretic peptide，BNP），主要应对心脏容量和压力负荷的变化。BNP及NT—proBNP（Amino terminal btype natriuretic peptide）主要用于心

期刊

BNP肺动脉高压AECOPD急性肺栓塞NT-proBNP心源性胸腔积液呼吸系统应用进展疾病诊治

企业责任竞争力指标体系研究

经济全球化的浪潮推动了企业社会责任的进一步发展。国际社会的广泛关注,股东、消费者等利益相关者的广泛认可,使企业社会责任从单纯的公益行为转变成了提升企业竞争优势,促

学位

企业社会责任竞争力责任竞争力指标体系

找好分类视角导数应用明了——导数应用中分类讨论点剖析

<正>导数是中学数学中的重要概念之一,也是高等数学的基础,因此以导数为背景的函数问题的命制倍受命题人的青睐,纵观全国各省市高考试题可知,导数不仅是重点,且常以压轴题的

期刊

导数应用分类讨论函数零点单调递增导函数个数问题

大学生死亡态度、主观幸福感和应对方式的相关研究

死亡态度是个体对死亡事件主观的、多维度的信念和感受,包括认知、情感、行动三种成分。研究早期因为对死亡的认识不够深入,对于自己及他人死亡或濒死的恐惧与焦虑成为研究焦

学位

大学生死亡态度主观幸福感应对方式

先心病患儿介入治疗后中期生存质量研究

目的了解先心病患儿介入治疗后中期生存质量状况,为临床制订针对性的护理策略提供依据。方法选择2008年3月至2009年1月在哈尔滨市某三级甲等医院心内科住院行介入治疗的先心

期刊

儿童青少年先心病介入治疗生存质量

基于大规模语料的中文新词识别技术研究

其他学术论文