【摘 要】
:
现如今,越来越多的组织机构或者个人通过垂直搜索引擎收集和搜索某一特定领域的内容。但是,多数垂直搜索引擎的数据主要采用定向抓取解析的方式,比如pyspider,或者通过URL链
论文部分内容阅读
现如今,越来越多的组织机构或者个人通过垂直搜索引擎收集和搜索某一特定领域的内容。但是,多数垂直搜索引擎的数据主要采用定向抓取解析的方式,比如pyspider,或者通过URL链接分析抓取大量数据,然后判断与主题相关性,有效抓取率低;垂直搜索引擎的重访策略满足不了对信息时效性的需求;此外,多数垂直搜索引擎没有考虑所关注领域的特征值随时间变化;爬虫系统也应该具有躲避反爬虫机制的能力,以获得更多数据。本文重点针对垂直搜索引擎的数据抓取和数据分类,设提出了一个高效的基于支持向量机算法的网页分类模型,设计并实现了一个新型的基于索引网页的分布式可扩展主题爬虫系统。本文主要贡献如下:1.优化爬行策略是优化爬虫效率的最有效方式。本文提出加入索引网页的URL树形结构,根据网页主题在URL链接之间的传递关系,通过索引网页给出更准确的预测相关性,减少不必要的爬取。2.本文提出了索引网页的辨识方法,提取拥有较高链接度和导航性质的索引网页,保持高频爬取,优化网页重访策略,及时获得最新的消息,保证消息时效性。3.判断页面相关性最有效的途径是页面分类,这也是垂直搜索引擎的关键所在。本文针对SVM算法提出了带反馈机制的网页分类流程,保证主题的表示并不偏移主题本身;同时对跨领域网页的重点分析抓取,给出较高的优先级,有助于垂直搜索引擎拓宽爬取范围,获得更多有效的信息。4.设计了一个新型的基于消息系统的分布式主题爬虫系统,减少组件间的耦合关系,使该系统可以更方便地实现对网页下载程序和解析程序的扩展,满足垂直搜索引擎的弹性需求。最后设计实现该爬虫系统,对分类效果进行测试,并针对该系统的设计给出优缺点的评价。
其他文献
色彩,款式,面料是服装设计最重要的三个方面。有研究证明,我们对颜色的敏感远胜于对廓形的敏感。服装设计是以色彩为基础,加以服装不同面料肌理的重组,以此来表现出设计的创
由于能源和环境问题日益严峻,绿色可再生能源越来越受到人们的重视,分布式电源(Distributed Generation,DG)作为一种有效利用新能源的新技术越来越多的应用到电力系统当中,配电网无
元认知指与个人的认知过程相关的知识。本文通过三组国内外实验,探讨元认识策略对于第二语言阅读教学的影响。首先,介绍元认知策略(计划策略;监督策略;调整策略)及其组成成分
影戏传承过程中对其他艺术多有借鉴,但其他艺术也对影戏的传承提供了多方面的支持,这种互动关系有力地推动了影戏的发展。建国后,在发掘戏剧剧种的背景下,许多影戏被发展为大戏,从
<正>籽瓜为籽用西瓜,俗称"打瓜""洗籽瓜""瓜籽瓜",属葫芦科普通西瓜亚种中的籽瓜变种。分黑籽瓜和红籽瓜两种,主要分布在甘肃、新疆、内蒙古、宁夏、广西、安徽、江西、湖南
目的:探讨丹参多酚酸盐联合瑞舒伐他汀治疗冠心病心绞痛的临床效果。方法:选取笔者所在医院2016年6月-2017年6月冠心病心绞痛患者68例,随机将其分为观察组和对照组,各34例。
目前国内砌石拱坝中出现裂缝的情况较多,大多数拱坝在出现裂缝后通常是对裂缝进行灌浆处理后继续运行,并且极少出现失事现象.现从裂缝产生的成因及裂缝经过处理后对大坝正常
政府新会计制度的制定与实施,对行政事业单位的财务管理影响颇深。新政府会计制度的实施,是推动行政事业单位财务管理改革,提高事业单位财务管理效能的重要举措。本文从高校
随着我国市场经济的快速发展和国际贸易往来的日益频繁,个人破产制度建立与否一直是困扰着中国破产立法的一道难题。在当今市场经济高度发达的国家或者地区都建立了个人破产
随着我国经济快速发展,保险行业在中国也得到了迅速的发展。但是在发展的过程中,很多的保险公司都反映现今的保险营销人员很难管理、很难招纳,这样不利于保险公司的强劲的营