中文术语和术语定义抽取研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:leongiggs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
术语抽取是自动知识获取的主要研究课题,在信息抽取、知识表示、信息检索、机器翻译等领域有着广泛的应用。针对中文开展术语抽取相关研究,对中文信息处理的技术和应用发展具有意义。本文主要针对术语和定义的自动抽取两方面任务开展研究工作。   在中文术语自动抽取方面,传统方法基于分词和词性标注的结果,根据词性搭配模板抽取候选术语。本文提出基于词法句法联合分析的名词短语抽取候选术语,该方法直接对字序列进行句法分析,可以有效避免传统方法分词和词性标注带来的级联错误;同时句法结构丰富的嵌套名词短语提供了更多更好的术语候选,克服了传统方法仅仅利用词信息分析候选术语之间的嵌套关系,而没有利用句法信息的缺点。实验结果表明我们提出的方法可以有效提升中文术语抽取的性能。   在中文术语定义自动抽取方面,传统方法通过人工总结的术语定义序列模板对自然语句字序列进行抽取。本文提出基于句法信息的结构模板方法,对术语定义的描述施加句法信息约束,克服了传统方法对定义描述不够精细,没有句法信息约束的缺点。实验结果表明结构模板可以抽取出更准确的术语定义。   上述方法引入句法层面的结构化信息,有效改进了术语和定义的自动抽取中的关键技术。并在整体性能上得到了显著提升。最后,本文对术语抽取任务的发展方向进行了讨论和展望。
其他文献
近年来,国内外学者对不确定数据流的聚类问题进行了大量的研究,但仍有不少问题尚待解决。大多数不确定数据流聚类算法不能在线得到精确的聚类结果;现有算法采用固定划分网格
随着科技水平的发展和社会信息化程度的提高,生物特征识别技术已经逐渐深入社会的各个领域,成为人们生产、生活中不可或缺的环节。自动指纹识别,作为生物特征识别中的研究最
21世纪是一个以网络为核心的信息时代,全球数字化、网络化、信息化发展日益凸显。目前Peer-to-Peer网络因在分享资源方面的独特优势而被广泛应用,但由于自身的分布式和自组织的
Android作为当前最流行的移动设备开发平台,从推出开始就受到了开发者与用户的一致好评与推崇。而随着近一段时间大家对于应用程序安全、个人隐私关注度的逐步提高,Android系统
在当今Web2.0的环境下,社会化媒体从最近几年的时间中得到长足的发展,从国外的多种多样的基于社会网络的媒体内容分享网站的兴起,到国内类似网站的成长,社会化媒体,已经深深
计算机视觉的目标在于使得计算机可以像人类一样具有感知与处理外界视觉信息的能力。摄像机作为计算机视觉获取外界视觉信息的基本、甚至可以说唯一手段,在计算机视觉研究中
随着Internet的发展和普及,搜索引擎已经发展的比较成熟,利用搜索引擎在网络上搜索信息成为越来越多用户的选择。但是对于一般用户而言,面对着呈指数级增加的网络信息,想要快速、
虚拟植物研究是基于植物结构模拟技术和图像表达技术,以植物形态结构动态变化规律为研究重点,建立基于三维空间的植物形态模型,并以可视化的方式来表达植物形态结构的生长变化动
Lmaze系统是在P2P文件共享系统Maze基础上重新构造的系统,它的目标是为了解决Maze系统在持续开发过程中遇到的可扩展性问题。在Lmaze开发过程中形成了跨平台的Lunar库,它对网
近些年随着人机接口和智能人机交互技术的发展,智能机器人技术逐渐成熟,尤其是服务型机器人逐渐走向家庭。与此同时,由于机器人的运动路径的不确定性、噪音以及混响的干扰,并