基于未来回报策略主题蜘蛛的设计与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:fakejay
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着搜索引擎技术的深入发展,垂直搜索引擎在人们的个性化需求下应运而生。然而,作为垂直搜索引擎核心部分的主题蜘蛛在主题搜索方面却存在着效率不高、搜索页面信息范围受限、不能深入地获得具有潜在有价值的页面信息等不足。针对此不足,在主题蜘蛛系统中引入未来回报搜索策略,该策略可以在原有主题蜘蛛系统中更广泛,更深入地扩大搜寻范围,进一步获取潜在的、有价值的页面信息。  本文主要对基于未来回报搜索策略的主题蜘蛛做了设计与实现。文章首先对主题蜘蛛的原理、结构和技术做了详细的介绍,分析了主题蜘蛛所采用的页面解析、中文分词、主题相关度计算等关键技术,然后对未来回报的搜索策略做了分析与设计。它是在基于内容搜索策略的基础上,增加了未来回报URL链接队列,通过实验数据,在系统效率最高的条件下设置未来回报阈值。未来回报URL链接队列保存了页面主题相关度介于系统接受的阈值与未来回报的阈值之间的链接地址,对未来回报URL队列里的链接地址按主题相关度预测值的高低顺序进行排序,优先分析主题相关度高的链接地址。若页面的主题相关度高于系统设定的阈值,则将该页面的链接地址保存至待爬行的URL链接队列中,并继续对未来回报URL队列中的链接地址进行分析,直至满足系统设定的结束条件或者未来回报URL队列为空。在主题蜘蛛系统中,采用并行的工作方式使未来回报的计算线程同系统的主线程同时运行,以最佳的方式提高系统的整体工作效率。  通过对实验数据的对比与分析表明基于未来回报搜索策略的主题蜘蛛系统在搜索范围、页面下载的准确率等方面比基于内容评价搜索策略的主题蜘蛛有了显著的改善和提高。
其他文献
无线多跳网络包括无线Ad Hoc网络、无线Mesh网络和无线传感器网络,其应用场景非常广泛,如应急通信、防灾减灾、环境监测等。无线多跳网络作为一种新兴的无线网络技术,还可以与传
随着互联网与应用的快速蓬勃发展,网络带宽和服务复杂度不断增长,从路由查找到入侵检测等数据包处理技术面临性能挑战。多核处理器可以通过数据包并行处理有效提升数据包处理速
自从W3C在1998年二月发布XML标准以来,XML这种数据格式以其容易掌握、结构清晰等优点得到广泛认可,并在很多商业和研究领域得到了越来越多的应用。随着XML数据的增多,人们开始考
近年来随着Internet的发展,以及社会对高等教育的需求日趋强烈,现代远程教育成为越来越被人们认识、重视和利用起来的一种新的教育模式,也促进了新的教育革命,深刻改变着教与学的
存储技术的迅速发展使得将数据对象全生命周期的状态变化纳入到数据管理的范畴越来越成为可能。数据的全生命周期管理要求掌握和理解数据的产生、转换、更新等过程,这也是数据
基于模型的软件测试是基于软件的需求分析与设计模型,提取测试信息,生成一套测试用例的技术。针对软件的不同特征和不同目的,研究人员提出过多种软件开发与测试模型。随着基于UM
伴随着互联网的发展和大数据时代的到来,网络知识库应用越来越得到用户的关注,比如智能问答系统,Google的知识图谱,百度知识图谱等,这些应用都是由强大的知识库为支撑的。然而基于
CMM和敏捷开发是软件过程改进领域两个代表性理论,分别代表着软件过程改进的“重量级”和“轻量级”思想。然而,无论是CMM还是敏捷,都尺有所短、寸有所长,不能解决软件生产领域的
随着人们对知识表示、信息组织和复用以及为用户提供有效服务的需求越来越强烈,本体作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,自提出以来就引起了国内外众
数据挖掘是当今人工智能和数据库研究方面最富活力的领域。数据挖掘是指从大量的数据中发现潜在的、有用的知识的过程。关联规则数据挖掘则是数据挖掘的一个主要研究内容。而