论文部分内容阅读
互联网时代信息爆炸式增长,面向语义和问答的智能搜索引擎的发展更加依赖于知识库的构建。海量信息存在于互联网大量异质数据源中,其中,半结构化特点的中文在线百科为知识库的构建提供了丰富的信息来源,无论是数量、质量还是更新速度,都早已超越传统专家编辑的百科全书。 中文在线百科并非孤立存在,如知名的中文维基百科、百度百科和互动百科。这些在线百科独立自治地包含实体信息:使用不同的属性描述体系,实体信息又具有一定的重叠和歧义。因此我们在以中文在线百科为数据源构建实体知识库过程中需要考虑如何融合这些不同的在线百科实体信息,解决属性体系描述和实体差异的问题,从而构建准确、高覆盖、一致的知识库。 实体属性名融合技术用来解决属性体系描述差异,实体融合技术用来解决实体差异,本文以互动百科和百度百科为数据源,对中文在线百科知识库构建过程中实体属性名融合和实体融合两个关键技术展开深入研究。本文的研究内容和主要贡献如下: (1)提出一种基于词向量同义词强化的实体属性名融合方法。针对中文在线百科构建过程中遇到的属性体系描述差异问题,本文方法将属性名表示成低维向量,通过大规模无监督训练语料获得能够反映同义关系的属性名词向量,通过向量间的余弦相似度判断属性名之间的同义关系。该方法将《同义词词林(扩展版)》中的同义词集合建模到word2vec词向量训练的损失函数中,同时结合了基于同义扩展和基于word2vec词向量方法的优势,不仅能够保证基于同义扩展方法的融合准确率,也能具备word2vec词向量方法的召回率优势,从而整体提高F1值。 (2)提出一种基于深度神经网络的实体融合方法。针对中文在线西科构建过程中遇到的实体差异问题,本文设计了基于深度神经网络的实体融合方法,将在线百科实体表示成向量,通过向量间余弦相似度进行实体融合。在神经网络模型中,使用卷积神经网络表示实体文本描述的深层语义特征,基于知识库表示学习方法将在线百科实体属性三元组表示成向量,将后者作为预训练向量集成到卷积神经网络模型中,设计有效的模型输出和损失函数,训练得到在线百科实体向量表示。为了提高模型的性能,本文设计了基于排序学习的属性相似度方法,并与神经网络模型进行线性融合。与baseline方法相比,同等条件下性能大幅提升。 (3)建立了一个面向中文在线百科的实体知识库。基于以上两项关键技术,以互动百科和百度百科为数据源进行知识库构建,最终建立一个含有376个属性集合的属性描述体系,628,449个实体,8,527,142个三元组的实体知识库。