垂直搜索引擎中智能爬虫系统的研究与实现

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:woshi8848
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,搜索引擎已经成为了互联网的入口。垂直搜索引擎在垂直领域深度采集数据并加工处理,提供精准和专业搜索服务,具有广泛的关注度和市场需求。智能爬虫是垂直搜索引擎的重要组成部分,完成数据采集的工作。由于其专业背景强,覆盖范围窄,不同的智能爬虫在架构和策略上差异性很大,同时也面临主题相关性的精确度、小范围的大量采集困难等问题。本文针对垂直搜索引擎中的智能爬虫的技术难点,研究相关技术,提出了解决方案,在插件化和分布式的设计原则下,设计和实现了一套完整的智能爬虫系统,同时对系统的功能和性能进行了测试。本文的主要工作包括:(1)设计了一个基于LDA的文本特征提取方法,用机器学习算法决策主题相关性,并建立了以锚文字特征和页面主题相关度为基础的链接预测模型。(2)设计了多策略的应对反爬虫方案和代理服务器筛选流程。(3)提出了基于Bloomfilter的两层三实例的高可用,持久化URL去重方案,解决了海量URL的快速精准去重。(4)完成智能爬虫其它功能的设计,编码实现了完整的系统。通过搭建实验拓扑环境并部署爬虫系统,验证和测试了智能爬虫系统的功能和性能。试验结果表明,本文的设计和实现达到预期目标,提升了爬虫的智能性和效率。
其他文献
城市轨交关键设施设备的可靠和稳定,是轨交安全、有序运营的重要保障。针对现阶段上海轨交维护保障业务存在的问题,提出了建立信息化系统的解决方案,详细介绍和分析了上海轨
目的为了观察防城区出生缺陷发生情况,及时发现影响出生缺陷的可疑因素,为病因学研究提供线索,制定出生缺陷的预防措施及评价其效果提供依据。方法通过对我地区6年来207例出生缺
辅助生殖技术(ART)虽然已成为人们解决不孕不育的主要手段,但该项技术仍存在一定安全隐患,如经卵胞浆内单精子注射(ICSI)和体外受精一胚胎移植(IVF—ET)获得的胎儿有表观遗传学改变的
印度尼西亚国有的阿萨汉铝业公司(PT Asahan)制订了雄心勃勃的发展规划,力争在今后15a左右或更长一些时间内把自己打造成像力拓公司、俄罗斯联合铝业公司、中国铝业集团等那
目的观察血清胱氨酸蛋白酶抑制剂C(Cystafin C,简称Cys C)在新生儿高胆红素血症中的变化,评价其对肾滤过功能的影响。方法应用酶联免疫吸附法(ELISA)对68例(观察组)新生儿高胆红素血
以PC机和数据采集卡为主要硬件,采用LabVIEW为软件开发平台,构建了虚拟数字示渡器,该仪器能够实现时域分析和频域分析。该测量系统在三相交流电动机的电流测量的试验中,得到了很
目的对消化道出血患者的临床特点观察并采取对应护理措施的应用价值。方法取本院老年消化内科患者260例为本文分析对象,随机分为两组,每组各有患者130例。常规组患者接受常规
分析不同浓度的6-BA+K2SO4处理对成熟期苹果果实内总糖、还原糖、可溶性糖、矿质元素和果实单果重的影响;研究材料:6年生"长富2号"苹果叶片及果实;研究结果:(1)各处理明显提
目的 探讨多层螺旋CT扫描及图像后处理技术在小儿气管、支气管异物的诊断价值.方法 回顾性分析经临床支气管镜检术确诊为气管、支气管异物的12例患儿的多层螺旋CT轴位扫描及
目的 探讨Fr¨ankelⅡ型功能矫治器对儿童上气道变化的影响。方法 随机抽取经Fr¨ankelⅡ型矫治器治疗的安氏Ⅱ类 1分类错患儿 2 0例 ,其中男、女各 10例 ,年龄 9~ 10岁 ,