垂直搜索中信息抽取方法的研究及应用

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:jianghong_jones
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网上信息的逐渐增长,要找到某一方面的信息变得越来越困难。人们逐渐希望得到一种有效的方法来查找对自己有用的信息。使用搜索引擎进行搜索就成了检索信息的有效的方式。当前使用得比较多的搜索引擎,例如:Google,Baidu以及Sogou等,统称为“通用搜索引擎”。对于一般文档的检索,通用搜索引擎通常能够满足要求。然而对于特定专业领域的信息,通用搜索引擎并不能很好地找到有用的信息。   如果对互联网上的信息按类别进行细分,然后再根据各个类别的信息根据其特点分别进行检索,则得到的检索结果就更加准确。基于这个思想实现的搜索引擎称为“垂直搜索引擎”。由于垂直搜索引擎只关注于某一类信息,在这一专业领域的搜索效果比通用搜索引擎效果更好。   信息抽取作为搜索引擎的一项关键技术,在垂直搜索引擎中也起着至关重要的作用。当前垂直搜索引擎中信息抽取主要技术为:固定一些专业网站作为数据源网站,针对每一个数据源网站,制订不同的抽取策略。由于数据抽取方法是订制的,抽取的效率及准确度都比较高,然而这样高的效率和准确度是以很高的人工维护成本为代价的。比如需要针对不同的网站制订不同的抽取策略及抽取模板。当有较多新的数据源网站增加的时候,这种工作量就会变得非常的大。另外,当某些有用的信息并没有出现在数据源网站上的时候,就不能被检索到。   针对前面所提到的不足之处,本文提出了自动化的抽取方法来抽取新加入的数据源,智能化的抽取方法来处理不在数据源网站上或者没有格式的信息,从而弥补以上缺陷。   (1)本文提出了基于DOM树的自动化信息抽取的方法,使用这种方法在不降低准确度的前提下,不管有多少新的数据源网站加入,都可以实现自动生成模板并对新的数据源网站中的信息进行抽取,大大降低了垂直搜索引擎的开发与维护成本。   (2)针对某些数据源网站中的半结构化文本或者数据源网站之外的有用信息,本文提出了一种基于Bayes分类和句式匹配的方法分别识别与抽取其中的信息,从而可以实现扩大垂直搜索的数据源,使垂直搜索得到的结果更加全面。   为了实现上述两个方法,本文主要做了如下工作:   (1)基于开源搜索引擎Nutch,以本文的理论替代Nutch的信息抽取部分,把Nutch改造成一个垂直搜索引擎从而实现并验证信息抽取的自动化。   (2)基于概念词库系统,首先对要抽取的页面进行智能分类,然后再使用句式匹配的方法对半结构文档进行信息抽取。   本文所提出的理论在以上两个项目中得以验证并取得了良好的效果。   本文创新点为:   (1)实现自动建立模板并针对网页进行信息抽取,减少了垂直搜索引擎的开发与维护的工作量。   (2)实现基于Bayes分类理论的文本智能识别以及基于句式匹配的信息抽取,增加了垂直搜索引擎的数据来源,从而增加了查全率。
其他文献
随着互联网及其相关技术的发展,多域环境下的资源共享越来越普遍。域间的资源共享给域间合作带来了便利的同时也带来了安全问题。其中两个关键安全问题是跨域访问控制和跨域信
随着手机、掌上电脑和PDA等移动设备的普及和移动通讯技术的高度发展,越来越多的人开始利用移动设备实现无线上网。使用移动设备,通过无线上网的方式,进行的商品拍卖活动称为移
外包数据库是一种新的数据库应用形态,它在管理成本、数据库可用性与可靠性等诸多方面具有传统数据库应用形态无法比拟的优势。由于信任模型发生了本质性转变,外包数据库带来了
随着互联网视频内容的不断增加,以及数字图书馆、视频点播、远程教学等大量视频媒体的应用,如何在海量视频中检索出所需要的资料显得至关重要。传统的基于文本的视频检索以及基
为了评估信用风险,研究人员做出了大量的努力,提出了各种度量和管理信用风险的方法。经典的评估模型一般将着眼点放在被评估公司自身的信息上,然而银行界获得的越来越多的共识是
随着网络技术的飞速发展和嵌入式处理器能力的不断提升,基于嵌入式Linux的网络视频监控系统逐渐成为了监控设备中的主流,因为嵌入式Linux功能强大且费用较低。但是直接移植Linu
由于如今Web应用的高速发展所带来的数据规模的海量性、数据模式的多样性和不确定性,使得传统的数据管理技术在可扩展性、高效性和可靠性方面越来越不能满足应用的需求。数据
在数字图书馆建设中,人们面临着一个问题:如何高效地将现有的海量的纸质文档或者电子文档制作为可供计算机阅读、检索、查询、传播等操作的电子出版物。对于电子出版物,其所含有
随着硬件性能的不断提升,计算机正在被赋予越来越艰巨的任务,运行其上的软件作为沟通人类思维和底层硬件的桥梁,其重要性日益增加。与此同时,软件系统的规模也在不断变大,所涉及的
面向应用层的细粒度网络协议识别技术当前被广泛应用于上网行为管理、网络流量分析与控制和下一代防火墙等多种网络安全应用场景中,而随着网络应用数量的增长,待识别协议特征集