Web实体提取与实体踪迹发现研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:nianlanzhen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于一种确定类型的Web实体,例如人物、电影等,从Web上海量网页中高效提取出此类型实体的相关属性和活动信息,并以实体实例和实体踪迹的形式组织起来,用以构建以实体为基本单元的Web信息查询服务,具有重要的价值;这也是本文研究工作的出发点。   北京大学网络实验室于2005年启动天网荟萃(WebDigest)研究项目,旨在研究海量网页中实体、实体关系、事件等重要信息的提取问题,开发一整套高效的信息提取和分析技术。以该研究项目为背景,本文对海量网页中Web实体和实体关系的提取方法进行了系统研究:(1)给定一个确定的实体类型,高效、准确地从海量网页中提取出目标实体类型对应实体的实例,并确保提取的实例中包含目标实体类型实体的重要属性信息;(2)对于一个确定的实体,从海量网页中准确提取出它的一类特殊属性-实体活动信息,并以恰当的方式组织起来。此外,考虑到本文提出的模型和方法均基于搜索引擎,因此对基于搜索引擎的相关研究工作进行了全面的综述和分析。本文的主要研究成果有:   (一)新型海量网页中Web实体实例提取框架   考虑到当前Web实体实例提取研究中实体属性类型人为指定、并不能反映实体在海量网页中出现时的重要属性类型这一问题,本文提出一种新型海量网页中Web实体示例提取的框架。利用该框架,基于一个确定的实体类型和用户对于该实体类型的初步知识,首先自动产生该实体类型对应的仝局Web实体属性类型集合(实体属性Schema),该集合刻画了确定实体类型对应的实体在海量网页中出现时,它的重要属性的类型以及属性类型的特征;接着,以此集合作为输入,高效提取海量网页中的Web实体实例。相应地,Web实体实例提取问题被划分为两个子问题:Web实体属性类型集合提取问题和基于属性类型集的Web实体实例提取问题。   (二)Web实体属性类型集合提取方法   本文首先定义了Web实体属性类型集合提取这一研究问题,其输入是一确定的实体类型和用户对于该实体类型的初步知识,输出是确定实体类型对应的全局Web实体属性类型集合。本文提出了一个具有普适性的Web实体属性类型集合提取框架,将目标问题分解为属性标签获取和实体属性类型集合生成两个子问题。前者的目标是获取足够多的反映重要属性类型的属性标签,后者的目标是利用属性标签来自动生成实体属性类型集合。对于第一个子问题,本文提出了一个迭代的属性标签获取算法,基于搜索引擎从Web上提取出高质量的实体实例和属性标签。对于第二个子问题,本文分别从分类和聚类的角度出发,提出了一种基于最大熵模型和一种基于半监督聚类的实体属性类型集合生成方法;并且,本文还提出了一种综合的方法,利用SVM来综合各种语义相似度相关的因素,以衡量不同属性标签问的相似度。在Web人物实体和电影实体上大规模实验的结果验证了方法的有效性,并表明基于半监督聚类的实体属性Schema生成方法的效果要好于基于最大熵模型的方法。   (三)海量网页中Web实体实例提取方法   利用自动发现的全局实体属性类型集合,本文提出了一种新的Web实体实例提取方法。该方法首先利用一种基于聚类的贪婪的重要属性类型组合发现算法,基于全局实体属性类型集和产生该集合的实体实例数据,自动发现目标实体类型的重要属性类型组合,使得每一种重要属性类型组合对应目标实体类型的一个子类型,该子类实体的实例在网页中出现时,它们的属性值的类型对应十重要属性类型组合中的属性类型;接下来提出一种基于模板的Web实体实例迭代提取算法,利用少量的种子实体实例作为输入,通过迭代发现提取实体实例的模板,来实现Web实体实例的高效提取。在Web人物实体实例上大规模提取实验的结果验证了方法的有效性。   (四)海量网页中Web实体踪迹发现方法   实体被网页报道的现实社会中的活动信息,称作实体踪迹,是一种特殊的Web属性信息。本文通过对Web网页中的实体踪迹信息的分析,将一条实体踪迹信息定义为一个包含实体名称、时间、地点、活动、可信度等相关元素的七元组。本文首先将实体踪迹发现问题分解为两个相互独立的问题:判断包含目标实体的候选句子是甭是实体踪迹句子,以及该句子是否以目标实体为核心实体。接下来,提出基于概率模型的提取方法,来计算候选句子包含确定实体的Web实体踪迹的概率。此外,本文提出一种启发式的实体踪迹发现方法,利用五种启发式规则,来发现Web实体踪迹。在Web人物实体踪迹上大规模实验的结果验证了方法的有效性,并且表明基于概率模型的Web实体踪迹发现方法的性能优于基于启发式规则的方法。   (五)基于搜索引擎的相关研究分析和比较   考虑到本文中的研究工作大量使用搜索引擎的强大计算能力,并且越来越多的研究工作利用搜索引擎来获取Web信息供研究所用,本文定义了“基于搜索引擎的研究方法”,并选取WWW、SIGIR等七大学术会议在2001年至2007年的所有学术论文作为研究对象,提出“所使用搜索引擎”、“搜索引擎访问方式”等八种不同的维度,对146篇相关研究进行分类比较,并提出指导性的意见。
其他文献
动态社会网络分析关注于随时间变化的社会交互的变化,开阔了社会网络分析的领域,具有很好的研究价值和应用意义。  本文主要基于现实场景出发,构建实体识别和社团识别的动态社
移动自组网络(Mobile Ad Hoc Network,MANET)是有别于蜂窝系统的另一种无线网络组织方式。它不需要固定基础通信设施的支持,具有组网灵活、抗毁性强、允许节点自由移动、易于快
测井处理解释平台是测井处理解释技术的载体。目前计算机和网络技术的发展,为测井专业处理解释软件的进步提供了强有利的技术保障,也对测井处理解释平台的发展提出了更高的要求
模型驱动架构是对象管理组织(OMG)提出的一种软件模型组织管理框架。模型驱动架构为人们提供了从模型级别实现软件重用的有力支持。   模型驱动的核心思想是将软件的业务
当今计算机科技日新月异,信息化已经走进人们的生活,自动控制、无纸化自动办公、企业信息化、网上书店、网上娱乐等等都是信息化时代的产物。当今的时代是经济全球化、信息网络
Ad Hoc网络是一种特殊的多跳无线网络,是不依赖任何固定设施的移动无线自组织网络,网络中的每个无线节点都是对等的。由于Ad Hoc网络的灵活性和实用性,加之近年来无线通讯技
随着信息化时代的发展,新疆油田公司准备以信息化形式管理准噶尔盆地近50年来积累的勘探和开发的数据和经验。但是这些数据和经验是海量的,要有效的管理和利用这些数据,需要依赖
随着信息技术的快速发展,数据的产生、获取和积累变得十分简单快捷。为此,如何高效地从海量数据中发现有价值且易于被用户理解和使用的信息和模式,成为了一个十分重要而紧迫的问
近年来,对等(Peer-to-Peer,简称P2P)计算模式由于其特有的优势,得到了非常广泛的应用,在商业、通讯等领域发挥着巨大的作用。P2P系统本质上是一种分布式系统,没有中心服务器,节点既
Map/Reduce型海量数据处理平台是大数据时代的最新技术成果,该平台具有用户友好的编程模型、本地化的数据处理机制和高可用性等新特征,已被广泛应用于学术及产业的众多领域。