论文部分内容阅读
互联网是人们发布信息和获取知识的重要平台,随着冗余信息和垃圾信息的急剧增加,快速准确地获取需要的知识成为客观需求。在此背景下,知识图谱、问答系统等基于命名实体知识库的应用越来越受到关注。命名实体知识库是以命名实体为存储目标的知识库,其构建过程需要将网络文本中包含的命名实体及其属性相关的非结构化信息抽取成结构化知识。然而,互联网中的文本数据具有规模庞大、非结构化、不规范、噪音多等特点,如何从这样的数据资源中发现并抽取命名实体属性信息是知识库自动构建亟待解决的关键问题。 本文面向网络文本,针对命名实体属性三元组<实体名,属性名,属性值>抽取召回率低的问题,分别从实体名称、属性名和属性值三个方面展开深入的研究,提出一套适用于多领域命名实体属性抽取的通用方法,该方法用尽量少的人工实现了命名实体知识库的自动构建。本文主要贡献如下: 1.针对命名实体名称抽取召回率低、标注数据稀缺且标注成本高的问题,提出了一种基于自学习模板的弱监督实体名称抽取方法。该方法仅需少量命名实体作为种子,通过两个二分图上的联合随机游走算法,学习出对命名实体名称抽取区分度高的上下文模板,从而迭代抽取更多命名实体名称。在区分难度较大的细粒度命名实体类别上进行试验,实验结果表明,该方法在各个命名实体类别上均取得了较好的抽取效果,而且利用抽取结果自动标注的数据能够辅助提升已有命名实体识别系统的F1值。 2.针对属性名表述形式不统一,导致属性三元组抽取召回低的问题,提出了一种基于同义扩展的命名实体属性名抽取方法。该方法首先从字面和语义两个层面识别含义相同但表述方式不同的属性名候选,然后借助高频同义属性名的置信度提高低频属性名的置信度,从而召回大量被遗漏在长尾分布里的高质量属性名。在不同领域的实体类别上进行实验,实验结果表明,相对于当前主流的属性名抽取方法,该方法在保证抽取结果准确率基本不变的情况下,将抽取结果的数量增加为原来的2倍。而且本文方法在抽取属性名的同时实现了同义属性识别,为属性名的归一化和消除知识库冗余提供了依据。 3.针对属性值抽取受限于文本结构、局部特征表达能力有限,导致属性三元组抽取效果不理想的问题,提出结合非局部特征的实体属性值抽取方法。该方法面向非结构化的网络文本,避免了网页结构和实体领域对属性值抽取的限制。首次将非局部特征引入到属性值抽取问题中,定义了属性值边界分布特征、属性值与属性名依赖关系特征用以捕获局部特征无法表达的全局性信息。为降低非局部特征的求解代价,进一步提出结合非局部特征的感知器学习算法G-Per,该算法支持加入任意形式的非局部特征并保持收敛性。在不同实体类别的属性上进行试验,实验结果表明,提出的非局部特征对属性值抽取非常有效,相比于当前主流的CRF模型,F1值具有显著提升。通过对G-Per算法的实验分析,表明该算法收敛速度较快,保证了方法的实用性。