垂直搜索中网页采集的关键技术研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:tnngx123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的普及和迅速发展,网络渐渐成为人们生活中不可或缺的组成部分。然而,在WWW这个庞大的知识库中快速且准确地找到想要的信息却不是一件容易的事。20世纪末,聪明的计算机科学家们开发了一种称为搜索引擎的软件,这个软件可以帮助用户在Internet中找到他们最想要的信息。进入21世纪后,垂直搜索引擎作为通用搜索引擎的细分和延伸,渐渐地走到了互联网浪潮的最前端。比如以谷歌资讯为代表的“新闻搜索引擎”,以百度MP3为代表的“音乐搜索引擎”,以酷讯网为代表的“机票搜索引擎”,和以谷歌Scholar为代表的“学术搜索引擎”。   在这种背景下,本文研究垂直搜索引擎中的两个核心问题:网页采集模块的信息完整性难题和网页更新采集策略模块的信息实时性难题。   客户端Deep Web是信息完整性的一大障碍,客户端脚本动态生成的内容是最典型的客户端Deep Web资源。通用搜索引擎通常不处理HTML网页中包含的客户端脚本(JavaScript脚本),但是垂直搜索引擎却不能采取同样的策略,因为往往关键的数据来源于JavaScript脚本执行后的结果。针对这个难题,本文提出了完整的解决方案:“LibHtmlMoz网页解释器”。LibHtmlMoz通过调用Firefox内核来处理网页里内嵌的JavaScript脚本,然后得到该网页对应的DOM树,以支持对网页的DOM树的操作。LibHtmlMoz已经使用在多个实际系统中,并且取得了很好的效果。   垂直搜索引擎中的网页更新采集策略模块以信息的实时性为目的,它能给用户带来了最新的信息。垂直搜索的更新采集策略与通用搜索的更新采集策略有很大的不同,因为垂直搜索中有两类特殊的网页:变化频率快的导航网页和变化频率慢的内容网页。比如在新闻搜索中,导航网页就是新闻网站的主页或者是其子频道的主页,内容网页就是其中某一则新闻的详细内容对应的网页。本文对导航网页的更新模型进行了深入的研究,在已有的周期性非齐次泊松过程模型的基础上,本文提出了基于时间局部性原理的学习方法来对更新频率函数进行估计,同时提出了基于动态规划的求解方法来计算最优的更新采集时刻,实验表明,本文提出的方法具有优越的性能。   在最后,本文设计和实现了一个实际的垂直搜索系统:“在线视频跟踪搜索系统”,它融合了LibHtmlMoz网页解释器和基于历史信息的导航网页更新采集策略模块。通过这个系统再一次证明,本文提出的方法很好地解决了垂直搜索中关于信息完整性和信息实时性的难题,具有良好的实用性和扩展性。
其他文献
ETL过程是一个从分布数据源(包括数据库、应用系统、文件系统等)抽取数据,进行转换、集成和传输,并最终加载到目标系统的过程。传统的ETL过程主要服务于数据仓库(Data Warehous
近年来,电信增值业务不断发展,给人们的生产和生活都带来了很大的方便。电信增值业务在“量”不断增加的过程中,“质”的问题却也在不断加剧。各种诈骗案件不断发生,尤其是频繁发
常识研究是人工智能领域核心课题,其核心问题之一就是常识知识获取。常识知识获取的目标是构建能够面向应用的常识知识库。为了提高知识获取效率,部分研究者采用自动获取的方法
受自然模型启发的智能计算凭借其智能、简单而高效的特点,广泛应用于工程优化、工业设计、数据挖掘等领域。然而,由于智能算法包含复杂的随机行为,其求解过程存在执行时间长
随着无线通信技术以及电子技术的飞速发展,低成本、低功耗、多功能的传感器节点应运而生,大量传感器节点通过ad-hoc的通信方式构成无线传感器网络。无线传感器网络已经逐渐成为
随着现代交通和汽车工业的飞速发展,VANET(Vehicular Ad-hoc Network)逐渐成为人们日常生活的一部分,VANET能够提高道路安全性和交通效率,同时为行驶中的人们提供娱乐服务。
在当前的信息时代,计算机网络与办公自动化系统的广泛应用大大提高了人们的工作效率,同时也让更多网络用户能够参与公共事务的处理。到目前为止,公共事务处理平台的服务范围已经
学位
随着信息技术和地理学科的发展,平面的地图表达已经不能满足人们的需求,越来越多的生产生活需要构建和使用具有高度真实感的三维地形场景。数据获取技术的进步和网络应用的发展
移动自组织网络(Mobile Ad Hoc Network,MANET)是一种无需依赖于任何事先布设的固定基础设施,而仅依靠网络内部各节点之间的协作,就能够完成节点间通信的网络。与传统网络不同的
藏文语言模型是藏文信息处理的基础和核心技术。研究和开发具有强大描述藏语能力的藏文统计语言模型对藏文信息处理的各个应用领域,如机器翻译、藏文语音识别、藏文输入法、藏