基于专业搜索引擎网络蜘蛛搜索策略研究

被引量 : 0次 | 上传用户:xbzss123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于专业搜索引擎网络蜘蛛(Spider)的设计主要包括结构体系设计和搜索策略的设计。关于专业搜索引擎体系结构方面的研究和设计,研究大多从负载平衡和搜索空间划分上给予分析。没有发现从网络蜘蛛的采集对象----网络资源的分布特点上进行分析研究。对于规模相对较小的专业搜索引擎,其网络资源采集器网络蜘蛛(Spider)一般也不可能拥有很大采集规模。因此专业搜索引擎搜索的专业资源的分布情况是Spider体系结构设计必须考虑的问题。对于搜索策略,通用搜索引擎一般使用基于IP地址穷尽式搜索和基于图遍历的广度或深度优先的搜索策略。上述策略既浪费了系统资源又达不到专业资源的搜索目的,显然不能适应专业搜索引擎的搜索需要。目前,相关研究中已经有基于启发式的搜索策略被提出,基于Web结构挖掘和基于内容相似度的计算都被用于专业搜索引擎的搜索策略的设计中。如何用较小的代价来实现搜索策略的优化?这都是专业搜索引擎搜索策略研究需要解决的问题。作为一个理论与实践相结合的研究课题,本文作者主要工作和研究成果包括:1、首先研究了网络蜘蛛搜索算法,归纳总结出目前搜索策略的主要分类,选择了目前国内外典型的搜索算法进行比较,通过大量的实验结果图表展示了几种策略算法各自的优缺点。2、提出采用加入专业领域因素的Page-Rank算法---引进入链分类评价、链接所在网站专业相关度加权的综合链接价值评价策略,作为后面原型系统---分布式智能Spider的策略算法。3、设计实现了基于分布式的智能Spider系统。4、负责编码实现了原型系统中关键的一个子模块----资源采集子模块。
其他文献
<正>江苏省东海县和平路小学创建于1997年,前身为东海县教师进修学校附属小学,2001年命名为东海县和平路小学。学校有2个校区,71个教学班,4410名学生,246位教职工。其中江苏
随着我国市场经济的深入发展,经济领域中出现了大量隐名投资行为,虽然隐名投资方式在短期内看来收益颇丰,在某种程度上拉动了经济增长,但是其负面影响也不容小觑。隐名投资存
在党中央提出的“构建社会主义和谐社会”和以科学发展观指导中国经济发展的背景下,如何发展地区经济及协调地区经济发展成为我们必须面对和解决的问题,由于我国经济发展水平的
磺酰脲类除草剂的推广应用已有20多年的历史,该类除草剂的开发和应用对农药的发展和农业生产都起到了积极的作用。但是,农药的大量使用,对环境有着巨大的潜在危害。利用微生物降
一个典型的软件项目基本可以划分为启动、计划、控制、执行、收尾五个过程,而目前软件工程中的项目管理实施起来非常困难,主要面临着计划的准确性差、项目时间和资源都十分有限
基因表达与否以及表达时间、表达部位需要启动子的顺式作用元件与相应的转录因子协同作用。根据需要选择或人工构建合适的启动子(组成型、组织器官特异性、诱导型或复合型启动
随着科学技术的进步以及人们生活方式与观念的变化,慢慢地出现了一些以新的科技或者产品为载体的艺术形式,其中,作为一种全新的多媒体艺术表现形式,互动多媒体艺术突破了传统
青年教师是高校未来教学的主力军,其课堂教学质量直接影响高校教育质量。由于青年教师教学经验尚浅,教学质量有待大幅提高。本文通过对高校青年教师群体与其他教师群体的上课
本文在分析目前我国高职院校党建工作存在问题的基础上,提出开创我国高职院校党建工作新局面的有效路径,如领导班子带动、专家辅导拉动、党员自学促动、基层支部推动、各级组织
习近平总书记在党的新闻舆论工作座谈会上指出,党的新闻舆论工作必须创新理念、内容、体裁、形式、方法、手段、业态、体制、机制,增强针对性和实效性。要适应分众化、差异化传