论文部分内容阅读
随着Internet的普及和迅速发展,网络渐渐成为人们生活中不可或缺的组成部分。然而,在WWW这个庞大的知识库中快速且准确地找到想要的信息却不是一件容易的事。20世纪末,聪明的计算机科学家们开发了一种称为搜索引擎的软件,这个软件可以帮助用户在Internet中找到他们最想要的信息。进入21世纪后,垂直搜索引擎作为通用搜索引擎的细分和延伸,渐渐地走到了互联网浪潮的最前端。比如以谷歌资讯为代表的“新闻搜索引擎”,以百度MP3为代表的“音乐搜索引擎”,以酷讯网为代表的“机票搜索引擎”,和以谷歌Scholar为代表的“学术搜索引擎”。
在这种背景下,本文研究垂直搜索引擎中的两个核心问题:网页采集模块的信息完整性难题和网页更新采集策略模块的信息实时性难题。
客户端Deep Web是信息完整性的一大障碍,客户端脚本动态生成的内容是最典型的客户端Deep Web资源。通用搜索引擎通常不处理HTML网页中包含的客户端脚本(JavaScript脚本),但是垂直搜索引擎却不能采取同样的策略,因为往往关键的数据来源于JavaScript脚本执行后的结果。针对这个难题,本文提出了完整的解决方案:“LibHtmlMoz网页解释器”。LibHtmlMoz通过调用Firefox内核来处理网页里内嵌的JavaScript脚本,然后得到该网页对应的DOM树,以支持对网页的DOM树的操作。LibHtmlMoz已经使用在多个实际系统中,并且取得了很好的效果。
垂直搜索引擎中的网页更新采集策略模块以信息的实时性为目的,它能给用户带来了最新的信息。垂直搜索的更新采集策略与通用搜索的更新采集策略有很大的不同,因为垂直搜索中有两类特殊的网页:变化频率快的导航网页和变化频率慢的内容网页。比如在新闻搜索中,导航网页就是新闻网站的主页或者是其子频道的主页,内容网页就是其中某一则新闻的详细内容对应的网页。本文对导航网页的更新模型进行了深入的研究,在已有的周期性非齐次泊松过程模型的基础上,本文提出了基于时间局部性原理的学习方法来对更新频率函数进行估计,同时提出了基于动态规划的求解方法来计算最优的更新采集时刻,实验表明,本文提出的方法具有优越的性能。
在最后,本文设计和实现了一个实际的垂直搜索系统:“在线视频跟踪搜索系统”,它融合了LibHtmlMoz网页解释器和基于历史信息的导航网页更新采集策略模块。通过这个系统再一次证明,本文提出的方法很好地解决了垂直搜索中关于信息完整性和信息实时性的难题,具有良好的实用性和扩展性。