基于非常快速退火搜索算法的主题爬虫研究与实现

来源 :江西理工大学 | 被引量 : 0次 | 上传用户:chengczl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展,Web网上的信息资源正在以多元化的形式迅速增长,人们越来越不满足于大型通用型搜索引擎所提供的服务,开始关注各种各样的主题式搜索引擎。主题式搜索引擎主要针对某一特定领域、某一特定主题或某一特定人群,提供分类更细致精确、数据更全面深入、更新更及时的因特网搜索服务。主题爬虫是主题式搜索引擎的重要组成部分,主题式搜索引擎中的网页信息获取要靠主题爬虫来完成,因此主题爬虫以何种搜索策略访问Web,才能得到较高的搜索效率,如何提高主题爬虫的爬行准确率等问题是近年来主题搜索引擎研究中的热点问题。本文首先分析了主题爬虫的基本结构及工作原理,然后在深入研究人工智能启发式模拟退火搜索算法基础之上,提出了一个将改进后的非常快速模拟退火搜索算法作为搜索策略的主题爬虫模型,该模型在主题相似度判断时采用经典的基于向量空间分类方法。最后本文对该模型进行了详细的实现并对其性能进行了测试。本文的主要研究工作如下:1、设计了一个结构合理、可扩展配置、分布式主题爬虫模型。2、为提高主题爬虫的运行速度设计了多线程的网页信息提取的方法。3、确定主题爬虫智能的搜索策略。详细研究和阐述了传统的模拟退火算法,分析了传统模拟退火算法作为主题爬虫搜索策略的缺点,详细分析了改进的模拟退火算法—非常快速退火算法的优点,提出将非常快速模拟退火算法作为搜索策略应用到主题爬虫之中,从而提高它的性能。4、对传统的自动生成主题种子页面的方法进行修改,提出一种新的较为灵活方便的自动生成主题种子页面的方法。5、在详细分析了单纯利用网页文字内容或链接结构信息来计算超链接价值的方法基础之上,提出了一种综合网页文字内容和链接结构信息来计算超链接价值的方法。6、设计了一个基于非常快速模拟退火搜索算法的主题爬虫原型系统,该系统链接价值计算综合了网页文字内容和链接结构信息。对此主题爬虫的性能进行试验测试,并分析实验结果。
其他文献
生物体内需要经过多种中间反应从营养物质转化成最终代谢产物。转化过程中,代谢反应过程却是错综复杂、多种途径并存的。从一个抽象的水平上看,细胞代谢可以被看成一个连接各
入侵检测是网络安全中一个新兴的,快速发展的并且极为重要的领域。它是动态网络安全技术最核心的技术之一,它不仅检测来自外部的入侵行为,同时也可以发现来自网络内部用户的未授
近年来,无线通信技术的发展和进步给无线传感器网络(WirelessSensor Networks,WSN)的应用提供了机遇和挑战。WSN这种集分布式处理能力、高监测精度探测能力、高容错能力、覆
随着处理数据的量级不断增大,传统的单计算节点的大型处理机已渐渐无法满足新时代的数据处理需求。并行与分布式系统则为这一问题提供了新的思路与解决方案。对于大型分布式
金属构件在焊接、冲压、铸造和其它许多加工中,均有可能形成残余应力。在许多情况下,残余应力的存在会对构件的机械性能产生极为不利的影响,因此残余应力的消除问题成为许多科学工作者研究的热点。传统的消除残余应力方法是自然时效和热时效。由于能源危机,60年代起人们开始研究振动时效。与传统时效方法相比,振动时效具有投资少、生产周期短、使用方便、节约能源等优点。传统的振动时效扫频判峰技术是时域扫频判峰方法,其缺
随着数据采集技术的不断发展,人们获得的数据常常具有多个视角,形成多视图数据,如何有效利用多视图数据进行高效学习是一项具有挑战性的工作。本文研究了多视图数据上的迁移
电子政务是借助电子信息技术而进行的政务活动,涉及对国家秘密信息和高敏感核心政务的保护,涉及对公共秩序的维护和行政监管的准确实施,涉及为社会提供公共服务质量的保证。
作为当今世界最重要的的技术之一的无线传感器网络技术,以其高效,便捷的特点广泛的应用在环境监测、医疗卫生、国防军事、智能交通、空间探索等许多领域。节点自定位技术是无
虚拟现实技术能够利用计算机生成较为真实的模拟环境,使用户沉浸在虚拟环境中,同时通过人机接口,实现用户与虚拟环境直接交互。三维虚拟漫游是虚拟现实领域的一个重要的研究
三维火焰和水动画等的仿真,是当前计算机图形学领域中最具有挑战性的研究方向之一。在矿产开采中实现三维火灾场景和水灾场景的模拟对于矿场的建造、工作人员的培训、灾情预