融合时间信息的实体间关系消解方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:caohuyue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,网络数据规模迅猛增长,网络数据的特点是来源多样,更新频繁,数据量大。网络数据中包含了大量的知识,这些知识是以实体为中心的,包括实体,实体间关系以及实体间关系的属性(如发生时间等)。知识的来源很多,且表达形式多样化,因此需要对多源异构的知识进行融合。本文主要研究知识融合中实体间关系的消解(resolution)问题。实体间关系消解是指判断不同表达形式的实体间关系是否相同。传统的实体间关系消解方法由于不考虑实体间关系的时间属性,使得实体间关系消解面临无法消解或消解错误的问题。针对上述问题,本文提出了融合时间信息的实体间关系消解方法。具体研究内容为包含时间属性的实体间关系抽取,实体间关系名称的消解以及融合时间信息的实体间关系消解,本文的主要内容和贡献如下:  在包含时间信息的实体间关系抽取方面,针对在开放文本中不容易定位描述实体间关系的时间信息的问题,本文提出了一种基于条件随机场的包含时间信息的实体间关系的抽取方法。实验表明,该方法抽取结果的F1值比基于模板的抽取方法提高了45%。  在实体间关系名称消解方面,针对关系名称表达形式多样,需要对相同语义的关系名称进行消解的问题,本文提出了基于马尔可夫图聚类的关系名称消解方法。该方法首先利用基于字典的中文短语语义相似度计算方法计算关系名称间的语义相似度,得到关系名称语义相似度邻接矩阵,然后利用相似度邻接矩阵构造无向赋权图,最后在无向赋权图上利用马尔可夫图聚类方法进行聚类。实验表明,在不同规模数据集上,该方法比起基于层次聚类的方法在聚类结果纯度上平均分别提升7%和15%  在实体间关系消解方面,针对以往实体间关系消解过程中由于不考虑时间信息造成错误消解结果的问题,本文提出了融合时间信息的实体间关系消解方法,该方法中包括实体链接方法以及利用时间信息制定的实体间关系消解规则。实验表明,此方法比不融合时间信息的关系消解方法,在F1值上提升了8.2%。  最后,本文将融合时间信息的实体间关系抽取以及融合时间信息的实体间关系消解方法应用在已有系统中,该系统包含实体74万个,实体关系723万个,通过典型案例证明了本文研究的实用性。
其他文献
TCAM由于其稳定又高效的查找性能,近年来被广泛应用于高速网络下的数据包分类系统中。TCAM中的规则表是动态的,当网络拓扑变化或者防火墙策略变更时,规则会被插入或者删除。插入
随着互联网的高速发展,数据急剧增长,低时延高吞吐的分布式流处理引擎应运而生。对于分布式流处理引擎而言,能应对服务器宕机、数据波动变化大、操作复杂度变化等情况显得格外重
进入21世纪,全球范围内的数据量呈爆炸性增长。分析调研机构IDC发布的报告显示,全球的数据总量每两年就会增加一倍。到2015年,数据量预计将会达到8000EB。  海量数据中,流数据
本文的主要工作是完成一套激光谐振腔损耗测试系统中系统测控软件部分的研制工作。该系统是一套集光机电一体化的多机构复杂系统,要同时实现自动聚焦、图像位置识别、损耗自
随着多媒体以及网络技术的发展,越来越多的企业使用网络会商系统。会商系统通过传输声音、视频、图像等信息,实现跨域沟通,能够为企业、公司提高办公效率、节约行政成本。但
标识密码技术是实现网络关键部分认证、授权机制,保障网络可控性,构建可信网络的重要手段。然而由于需要依靠第三方为用户生成私钥,使得标识密码技术存在与生俱来的密钥托管问题
该文详细介绍了系统的设计和实现过程.第一章对作者的问题进行了描述,并简要介绍了超大规模集成电路计算机辅助设计的概况,以及与作者的问题相关的子图同构问题和电路匹配问
随着移动设备的普及和多媒体技术的迅猛发展,人们日常生活中触手可及的多媒体数据呈现爆炸性增长。同时,新兴的交互式互联网技术的发展,使得这些数据有了一个整合的平台,从而形成
近年来,随着文本分析需求的增长,命名实体识别(Named Entity recognition,NER)研究蓬勃发展,命名实体识别任务的效果有了很大的提升,同时命名实体识别处理的文本类型和领域也越来
稀疏矩阵的应用领域广泛,典型的如网络分析、图论、解微分方程、社会关系分析、线性规划等领域。传统用于存储大型稀疏矩阵的通用存储结构主要有两种——行压缩存储格式CRS (