基于统计方法的中文命名实体识别与关系抽取

来源 :北京大学 | 被引量 : 0次 | 上传用户:flame_earth
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的广泛应用和互联网技术的迅猛发展,社会的信息总量呈指数级增长。面对信息爆炸带来的挑战,亟需一些智能化的工具来帮助用户获取真正有用的信息,信息抽取正是在这种背景下提出的,并已经成为当前研究的一个热点问题。信息抽取的主要目的是将无结构或者半结构化的文本转化为结构化的信息,其研究任务可分为:命名实体识别、实体关系抽取、指代消解和事件探测这四个主要研究点。本文针对中文信息抽取当中的命名实体识别和实体关系抽取技术展开研究,主要的贡献有如下几点: 1、提出了一种外部词典与统计相结合的汉语分词方法。该方法利用外部词典来改进“由字构词”的汉语分词方法,既保留了传统词典分词方法对词典词的处理精度高的优点,又具有统计方法汉语分词方法在未登录词处理上的优势,有效地提升了对词典词的处理能力,从而地提高了汉语分词的整体性能。同时,该方法只需要在较小的标注语料库上训练,就能获得令人满意的分词结果,从而减轻了统计方法对于标注语料库的依赖性。 2、尝试了专家知识与机器学习相结合的中文命名实体识别方法。针对现有命名实体识别方法的不足,本文采用了比最大熵马尔可夫模型(MEMM)更加优越的条件随机场模型(CRFs)作为机器学习的主要框架,通过利用人名、地名和机构名的构成规则等专家知识,以及人名姓氏和名字常用字列表、地名常用后缀列表、机构名常用后缀列表等词典资源来辅助机器学习,提高了命名实体识别的准确率和召回率。 3、研究了一种面向主题的实体关系抽取方法。提出利用依存句法分析的结果树来计算两个命名实体之间的“语法距离”,削弱了汉语当中修饰语在计算实体之间的距离时的干扰作用,提高了关系抽取的准确率。同时,本文还结合词性、词在文字窗口中的位置、词之间的依存关系等信息来进行关系描述词语的抽取,从而能够自动为所抽取的实体关系对赋予较为准确的标签。 4、在以上研究成果的基础上,设计并开发了一个实用的关系抽取模块,应用于互联网舆情监测系统,取得了很好的实际应用效果。
其他文献
随着互联网和数字多媒体技术的迅猛发展,数字视频的应用越来越广泛。经过多年的发展,视频编码技术已经较为成熟,最新的视频编码国际标准H.264/AVC以及我国的AVS在编码效率上
入侵检测系统和防火墙技术是通用网络安全技术,国家主干网络的网络安全应用需要在高速环境下进行网络数据的深度检测,需要高性能的海量网络实时处理技术作为支撑。随着宽带技术
功能磁共振成像(functionalmagneticresonanceimaging,fMRI)能让人们非侵入性地探察大脑结构某一部分所具有的特定功能,目前的研究大部分都是基于任务状态的fMRI,然而静息态fMR
目前,互联网上诸多开放存取(Open Access,OA)期刊快速递增的“孤岛”现状已制约了OA期刊应有效能的发挥。解决该问题的一条途径就是将不同开放存取期刊的检索服务加以整合,建
医学图像三维可视化技术是图像处理和分析的重要研究内容。可视化技术能够显示器官的三维形体,可辅助医生对病灶进行分析,提高医疗诊断的准确性和科学性,有利于制定最优的治疗方
实时系统是指能及时响应外部发生的事件,并以足够快的速度完成对事件处理的计算机应用系统。实时系统应用的场合往往要求其正确性和可靠性能够得到保证,但是由于涉及并发、不确
Gossip算法是针对非结构化对等网络定位资源效率不高、采用泛洪查询占用较多带宽等问题的一种可行解决方案。每个收到要传播的信息的节点从它的邻居列表中随机选择一定数目的
软件测试是目前保障软件质量最主要和最有效的方法。它是为了发现程序中的错误而执行程序的过程。手工测试繁琐而复杂,不仅要耗费大量时间和成本,还易出错。因此,自动化测试
由于嵌入式系统的专用性和多样性,在嵌入式系统上部署Linux系统一般都需要进行繁琐的移植工作,探索在嵌入式平台上部署嵌入式Linux系统的一般原理和方法,可以减少移植工作的盲目
90年代初以来,大量的对网络流量的测试和分析发现,传统网络流量模型在描述实际网络业务时,忽略了网络流量的一个重要的特性-自相似性。实际上,采用自相似模型或分形模型能够更准