Web爬虫相关论文
个人敏感信息泄露是目前多发的网络安全事件之一,可能危及人身和财产安全,损害公民名誉和身体健康等.本文通过爬虫技术获取网页内容......
本体提供简单、统一和形式化的语义描述,并且由于学术研究和工业生产的需要正在得到越来越多的重视。在我们的研究中,本体是描述一......
Internet的飞速发展,为我们提供了海量的信息资源。但目前传统的搜索引擎能够检索的仅仅是World Wide Web中的一小部分,大量的Deep......
学位
海量URL的高效存储和快速访问是高性能Web爬虫的关键技术。现有的海量URL数据管理技术大部分是基于B树或B+树索引结构的。B+树索引......
随着互联网的飞速发展,Web中的信息规模日益扩大,为人们提供了各种各样可利用的信息。其中大量的信息是存储在Web数据库当中,只能......
学位
Deep Web中包含了大量有价值的信息,并且信息量在快速增长。随着Web 2.0的发展,越来越多的Deep Web网站开始运用Ajax技术来改善用......
随着Web应用的迅速发展,Web网站的安全也成为人们共同关注的焦点问题。提升网站安全风险等级的首要任务就是找到网站上存在的漏洞,......
本文介绍了一个大型分布式Web Crawler系统——Igloo 1.2版。它采用分布式的系统结构,通过我们设计的二级哈希映射算法使系统可以......

