论文部分内容阅读
随着大数据时代的到来,互联网平台上涌现出了蕴含大量信息和知识的数据资源,这些独立的数据源之间存在天然的屏障。来自不同数据源的相关数据集中包含了大量指向现实世界中相同对象的实体,这些实体间的知识具有重复和互补的关系。由于不同数据源的格式标准以及编纂者编辑风格的不同,这些数据源是异构并且低质量的。如何整合这些多源异构的相关数据,匹配异源数据间的同义实体,从中构建统一的知识库,以便于后续从中提取有效的知识,是数据分析和处理的关键步骤之一。 为此,本文针对多源异构数据的实体匹配问题,调研了现有的实体匹配框架以及相关的核心技术,提出一种实体匹配方法,经过数据清洗、预匹配以及实体对齐的算法后,有效地整合了多源异构数据并构建了统一的知识库。具体来说,本文的研究内容和成果主要包括: (1)提出了一种预匹配方法,综合了实体的名称、属性以及上下文信息,分别构建了基于实体名称、属性、上下文的倒排索引以及基于名称的局部敏感哈希索引,通过多种方式挖掘出更多的候选实体对,有效地降低了实体对齐的计算规模,并生成了较为高质量的候选集。 (2)提出了一种有效的实体对齐方法。利用实体名称、属性和上下文信息,定义了评估实体相似度的计算函数,较为准确地区分了两个实体是否等价。在多数据源的情况下,针对由多个实体构成的等价实体集合,提出一种基于图划分的优化算法,划分了多实体构成的等价实体关系图,进一步提高了实体匹配的精确度。 (3)从开放互联网上抓取了来自百度百科、互动百科以及买购网中商业领域下的品牌和人物类别的真实数据,利用文本所提出的方法,构建了品牌和人物的知识库,搭建了知识库的原型系统,并通过实验验证了算法的有效性。