论文部分内容阅读
随着互联网的发展和网上服务的增多,中国境内的网站数量每年都在以指数级的数量递增。本文研究了互联网信息获取技术特点和分类,并对其发展方向进行了预测,介绍了中国互联网网站探测和分析统计系统的研究与设计。重点探讨了系统在设计和开发过程中遇到的问题,这些问题包括,spider多线程的效率和资源共享问题、html源文件的信息过滤及抽取问题、重复网站的识别和统计问题、数据库的索引和优化问题等等。在研究过程中,本文结合实际需求,采取了有效的方法解决了上述问题,如,在多线程共享问题上,提出了多线程分布式读取公有初始url列表的方法;在信息过滤和抽取过程中,巧妙的解决了文字中间无规则出现的空格问题;在统计重复网站时,研究了“客户对某类域名的青睐程度”。