面向中文在线百科的实体知识库构建关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:sdadlu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网时代信息爆炸式增长,面向语义和问答的智能搜索引擎的发展更加依赖于知识库的构建。海量信息存在于互联网大量异质数据源中,其中,半结构化特点的中文在线百科为知识库的构建提供了丰富的信息来源,无论是数量、质量还是更新速度,都早已超越传统专家编辑的百科全书。  中文在线百科并非孤立存在,如知名的中文维基百科、百度百科和互动百科。这些在线百科独立自治地包含实体信息:使用不同的属性描述体系,实体信息又具有一定的重叠和歧义。因此我们在以中文在线百科为数据源构建实体知识库过程中需要考虑如何融合这些不同的在线百科实体信息,解决属性体系描述和实体差异的问题,从而构建准确、高覆盖、一致的知识库。  实体属性名融合技术用来解决属性体系描述差异,实体融合技术用来解决实体差异,本文以互动百科和百度百科为数据源,对中文在线百科知识库构建过程中实体属性名融合和实体融合两个关键技术展开深入研究。本文的研究内容和主要贡献如下:  (1)提出一种基于词向量同义词强化的实体属性名融合方法。针对中文在线百科构建过程中遇到的属性体系描述差异问题,本文方法将属性名表示成低维向量,通过大规模无监督训练语料获得能够反映同义关系的属性名词向量,通过向量间的余弦相似度判断属性名之间的同义关系。该方法将《同义词词林(扩展版)》中的同义词集合建模到word2vec词向量训练的损失函数中,同时结合了基于同义扩展和基于word2vec词向量方法的优势,不仅能够保证基于同义扩展方法的融合准确率,也能具备word2vec词向量方法的召回率优势,从而整体提高F1值。  (2)提出一种基于深度神经网络的实体融合方法。针对中文在线西科构建过程中遇到的实体差异问题,本文设计了基于深度神经网络的实体融合方法,将在线百科实体表示成向量,通过向量间余弦相似度进行实体融合。在神经网络模型中,使用卷积神经网络表示实体文本描述的深层语义特征,基于知识库表示学习方法将在线百科实体属性三元组表示成向量,将后者作为预训练向量集成到卷积神经网络模型中,设计有效的模型输出和损失函数,训练得到在线百科实体向量表示。为了提高模型的性能,本文设计了基于排序学习的属性相似度方法,并与神经网络模型进行线性融合。与baseline方法相比,同等条件下性能大幅提升。  (3)建立了一个面向中文在线百科的实体知识库。基于以上两项关键技术,以互动百科和百度百科为数据源进行知识库构建,最终建立一个含有376个属性集合的属性描述体系,628,449个实体,8,527,142个三元组的实体知识库。
其他文献
该文论述了面向对象的高炉炉喉十字温度预报及布料指导子系统的设计和实现问题.针对炉前操作人员对十字温度预报的新需求,提出了采用基于TD算法的时序神经网络来完成对十字温
利用计算机视觉技术,实现身份证号码的自动识别和录入将大大提高身份证管理的效率。目前身份证号码的识别系统是以扫描仪来获取身份证图像,但扫描仪不利于长时间实时获取图像。
分布式系统是充分利用现有计算机资源的一个很好的解决方案。而要让分布式系统获得良好的负载平衡、高通信性能、高可用性等特性,进程迁移功能是不可或缺的。 分布式操作系
为了高额利润,许多公司正在大量地使用网上的廉价信息。这导致公司的数据量日趋增大。因此,从巨量的数据集中快速地找出感兴趣的模式已成为一个紧迫的任务。数据挖掘为解决这一
决策支持系统、数据挖掘技术目前已得到了广泛的应用,作为这两者的信息来源数据仓库和数据集市技术也得到了相应的发展。数据仓库和数据集市的重要性在于它为决策支持系统和数
目前计算机软件的规模越来越大,复杂度也不断提高,软件错误造成的后果也就越来越严重,软件的质量和可靠性已引起人们的高度重视。在现代软件工程中,软件开发的各个阶段,都应进行相
该文主要是从这两方面问题着手,从网络形态上和预测模型结构做出相应的改进,以期望提高预测的准确率.对于网络形态,考虑使用递归神经元网络作为预测模型的主体,通过对递归神
该论文首先对Linux的进程结构、进程调度等问题进行了分析.并附带说明了Windows 2000的相关内容.接着该论文对Linux操作系统的进程间通信机制进行了全面深入的论述.包括信号,
随着许多新兴的计算模式的广泛应用(移动计算、对等计算、网格计算等),当前的网络安全系统呈现出新的问题:首先,这些计算模式中网络是自组织的、不依赖网络拓扑结构的;其次,
该文主要研究决策树和神经网络模型.该课题是在课题组前期完成的HDC(highway Decision Center)数据仓库平台的基础上进行的,在对CART决策树进行了深入研究分析的基础上,针对