论文部分内容阅读
近年来,网络数据规模迅猛增长,网络数据的特点是来源多样,更新频繁,数据量大。网络数据中包含了大量的知识,这些知识是以实体为中心的,包括实体,实体间关系以及实体间关系的属性(如发生时间等)。知识的来源很多,且表达形式多样化,因此需要对多源异构的知识进行融合。本文主要研究知识融合中实体间关系的消解(resolution)问题。实体间关系消解是指判断不同表达形式的实体间关系是否相同。传统的实体间关系消解方法由于不考虑实体间关系的时间属性,使得实体间关系消解面临无法消解或消解错误的问题。针对上述问题,本文提出了融合时间信息的实体间关系消解方法。具体研究内容为包含时间属性的实体间关系抽取,实体间关系名称的消解以及融合时间信息的实体间关系消解,本文的主要内容和贡献如下: 在包含时间信息的实体间关系抽取方面,针对在开放文本中不容易定位描述实体间关系的时间信息的问题,本文提出了一种基于条件随机场的包含时间信息的实体间关系的抽取方法。实验表明,该方法抽取结果的F1值比基于模板的抽取方法提高了45%。 在实体间关系名称消解方面,针对关系名称表达形式多样,需要对相同语义的关系名称进行消解的问题,本文提出了基于马尔可夫图聚类的关系名称消解方法。该方法首先利用基于字典的中文短语语义相似度计算方法计算关系名称间的语义相似度,得到关系名称语义相似度邻接矩阵,然后利用相似度邻接矩阵构造无向赋权图,最后在无向赋权图上利用马尔可夫图聚类方法进行聚类。实验表明,在不同规模数据集上,该方法比起基于层次聚类的方法在聚类结果纯度上平均分别提升7%和15% 在实体间关系消解方面,针对以往实体间关系消解过程中由于不考虑时间信息造成错误消解结果的问题,本文提出了融合时间信息的实体间关系消解方法,该方法中包括实体链接方法以及利用时间信息制定的实体间关系消解规则。实验表明,此方法比不融合时间信息的关系消解方法,在F1值上提升了8.2%。 最后,本文将融合时间信息的实体间关系抽取以及融合时间信息的实体间关系消解方法应用在已有系统中,该系统包含实体74万个,实体关系723万个,通过典型案例证明了本文研究的实用性。