面向多源异构数据的实体匹配方法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:xmjxex
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,互联网平台上涌现出了蕴含大量信息和知识的数据资源,这些独立的数据源之间存在天然的屏障。来自不同数据源的相关数据集中包含了大量指向现实世界中相同对象的实体,这些实体间的知识具有重复和互补的关系。由于不同数据源的格式标准以及编纂者编辑风格的不同,这些数据源是异构并且低质量的。如何整合这些多源异构的相关数据,匹配异源数据间的同义实体,从中构建统一的知识库,以便于后续从中提取有效的知识,是数据分析和处理的关键步骤之一。  为此,本文针对多源异构数据的实体匹配问题,调研了现有的实体匹配框架以及相关的核心技术,提出一种实体匹配方法,经过数据清洗、预匹配以及实体对齐的算法后,有效地整合了多源异构数据并构建了统一的知识库。具体来说,本文的研究内容和成果主要包括:  (1)提出了一种预匹配方法,综合了实体的名称、属性以及上下文信息,分别构建了基于实体名称、属性、上下文的倒排索引以及基于名称的局部敏感哈希索引,通过多种方式挖掘出更多的候选实体对,有效地降低了实体对齐的计算规模,并生成了较为高质量的候选集。  (2)提出了一种有效的实体对齐方法。利用实体名称、属性和上下文信息,定义了评估实体相似度的计算函数,较为准确地区分了两个实体是否等价。在多数据源的情况下,针对由多个实体构成的等价实体集合,提出一种基于图划分的优化算法,划分了多实体构成的等价实体关系图,进一步提高了实体匹配的精确度。  (3)从开放互联网上抓取了来自百度百科、互动百科以及买购网中商业领域下的品牌和人物类别的真实数据,利用文本所提出的方法,构建了品牌和人物的知识库,搭建了知识库的原型系统,并通过实验验证了算法的有效性。
其他文献
孤立点检测是数据挖掘的一个重要研究方向,随着其应用范围的不断扩大,传统的孤立点检测算法遇到了一个最大的障碍,不适应高维数据的特性。研究人员对此给出了几种解决方法,其
机群结构由于具有良好的可扩展性、可用性、高性价比等优势已经成为高性能计算机的主流结构。然而,由于磁盘访问的性能远落后于CPU、内存和网络传输的性能,使得机群系统的I/O性
随着家用电器和数码设备的迅速发展,家庭中越来越多的设备能够产生媒体数据,例如手机的拍照和拍摄功能,数字电视、机项盒等的节目录制功能等,均能产生丰富多彩的媒体数据,PC更是媒
随着信息技术的快速发展,高校的信息化建设也取得了重大进展,高校已有越来越多的信息应用系统投入使用。但同时,也出现了“信息孤岛”问题:异构的系统和数据格式使得不同应用系统
神经网络是由大量与自然神经细胞类似的人工神经元互联而成的网络。它是利用已知样本对网络进行训练,得到线性决策函数,然后用决策函数对图像像素进行分类达到分割的目的。神经
烟雾模拟频繁应用于各种仿真中。直到今天,烟雾模拟仍是一个具有挑战性的课题。针对影响烟雾模拟真实性和实时性的各种因素,着重从以下几方面进行深入研究和探讨。首先,引入
在激光大气传输效应的实验中,红外探测器阵列靶光斑图象采集系统是测量光斑的专业设备。它的作用是测量光束的总能量,光斑能量的空间分布,光斑的质心位置等参数。本文设计了一种
近年来,随着计算机与网络技术的迅猛发展以及我国教育信息化进程的不断推进,高校数字化校园建设正如火如荼地进行中。然而,高校内存在着许多独立的系统,这些基于不同时期、采用不
无线传感器网络综合了传感器、嵌入式系统和无线通信等技术,是目前国内外研究的热点领域之一。随着无线传感器网络应用的逐渐推广,作为网络数据汇聚、处理和协议转换中心的网关
互联网在过去的二十年经历了迅猛的发展,从最初简单的科研网络ARPANET发展成目前庞大而复杂的系统。了解互联网的拓扑结构、理解互联网的演化机制以及利用拓扑结构知识来优化