网页防抓取系统的设计与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ronalito
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
某公司是中国领先的在线旅游平台,机票搜索交易平台是其中的重要基础平台之一,搜索范围覆盖全球范围内约18余万条航线,可实时搜索4000多家旅游代理商网站,同时其2014年度的机票交易也突破了8000万张。然而在业务量持续增长的同时,机票搜索交易平台及其相关业务系统都面临着各类外部来源的信息抓取所带来的压力,大量的抓取请求带来了一系列严峻的问题:○1数据安全问题,面对非正常的抓取访问的,关键数据存在被竞争对手获取的风险;○2系统性能问题,大量的抓取请求造成服务器资源的耗尽,严重影响用户的搜索和交易体验;○3不同的业务系统重复对防抓取进行实现,且实现质量良莠不齐,形成了资源的浪费。论文通过对网络爬虫和防抓取相关技术的深入研究,设计并实现了网页防抓取系统(Web Anti-Crawling System,ACS)。ACS系统为公司的机票搜索交易平台及其下面的多个业务项目提供了统一的、高质量的防抓取服务,实现了HTTP协议头、JS加密串、IP黑名单、访问频率控制等防抓取策略;通过对机票搜索交易平台业务的深入了解,实现了业务逻辑相关的行为模式防抓取策略,进一步提高了抓取所需的成本;另外,ACS系统对策略接口、防抓取服务接口的设计,使得API接口与实现分离,不仅具有良好的拓展性,同时也降低与业务系统之间的耦合性,便于防抓取服务的接入。Anti-Crawling System为上述由抓取带来的问题提供了一个解决方案。整个防抓取系统经过一定的功能测试和性能测试,确定论文中所述的五个防抓取策略已经可以正常工作,满足系统预期的功能需求;ACS系统与其他业务系统耦合度低,非常易于防抓取服务的接入;同时在性能测试过程中,整个防抓取系统能够稳定地提供服务且能达到预期的性能要求。目前ACS系统已经正式投入实际使用和运行。
其他文献
爬虫软件是现今互联网环境下,高效准确地获取数据的重要方式之一。针对传统的初级爬虫技术易于被目标网站拦截访问的问题,简述爬虫的工作原理和方式,讨论爬虫、反爬虫与反反
在高校教学改革的号召下,英语教学也在不断地探索改革思路,创新教学模式,转变培养目标。以此为契机,分析了高校英语教学改革的必要性,指出其存在的问题,并针对培养学生综合应
近年来,我国城市轨道交通行业正在高速发展。与此同时,三维建筑信息模型(Building Information Modeling,BIM)技术作为建筑行业的全新技术也逐渐被应用于城市轨道交通工程中
写在篇首的话  玩家在游戏的过程中,最关心的话题莫过于加点方式、修炼方向以及装备武器等等,而玩家是否能在游戏里成为强者、成为受众人追捧的高手,这些因素在整个游戏过程中起着至关重要的作用。其中,装备武器与玩家的游戏生活更是密不可分,从一个初入游戏的菜鸟到久经沙场的游戏老鸟,武器、装备一直伴随着玩家成长,可以说是形影相随、寸步不离。
高职院校的专业设置直接连接着教学工作与社会需求,是学校与社会的直接连接点,它决定了地方经济的直接走向。目前一些高职院校在专业设置方面存在一些错误做法,不能满足社会长期
近日,国家艺术基金发布了《2018年度舞台艺术创作资助项目(一般项目)申报指南》。为指导艺术单位、机构做好资助项目申报工作,国家艺术基金管理中心围绕今年申报指南的新特点,针对