论文部分内容阅读
随着计算机的广泛应用和互联网技术的迅猛发展,社会的信息总量呈指数级增长。面对信息爆炸带来的挑战,亟需一些智能化的工具来帮助用户获取真正有用的信息,信息抽取正是在这种背景下提出的,并已经成为当前研究的一个热点问题。信息抽取的主要目的是将无结构或者半结构化的文本转化为结构化的信息,其研究任务可分为:命名实体识别、实体关系抽取、指代消解和事件探测这四个主要研究点。本文针对中文信息抽取当中的命名实体识别和实体关系抽取技术展开研究,主要的贡献有如下几点:
1、提出了一种外部词典与统计相结合的汉语分词方法。该方法利用外部词典来改进“由字构词”的汉语分词方法,既保留了传统词典分词方法对词典词的处理精度高的优点,又具有统计方法汉语分词方法在未登录词处理上的优势,有效地提升了对词典词的处理能力,从而地提高了汉语分词的整体性能。同时,该方法只需要在较小的标注语料库上训练,就能获得令人满意的分词结果,从而减轻了统计方法对于标注语料库的依赖性。
2、尝试了专家知识与机器学习相结合的中文命名实体识别方法。针对现有命名实体识别方法的不足,本文采用了比最大熵马尔可夫模型(MEMM)更加优越的条件随机场模型(CRFs)作为机器学习的主要框架,通过利用人名、地名和机构名的构成规则等专家知识,以及人名姓氏和名字常用字列表、地名常用后缀列表、机构名常用后缀列表等词典资源来辅助机器学习,提高了命名实体识别的准确率和召回率。
3、研究了一种面向主题的实体关系抽取方法。提出利用依存句法分析的结果树来计算两个命名实体之间的“语法距离”,削弱了汉语当中修饰语在计算实体之间的距离时的干扰作用,提高了关系抽取的准确率。同时,本文还结合词性、词在文字窗口中的位置、词之间的依存关系等信息来进行关系描述词语的抽取,从而能够自动为所抽取的实体关系对赋予较为准确的标签。
4、在以上研究成果的基础上,设计并开发了一个实用的关系抽取模块,应用于互联网舆情监测系统,取得了很好的实际应用效果。