中国互联网网站探测和分析统计系统的研究与实现

来源 :中国科学院计算机网络信息中心 | 被引量 : 0次 | 上传用户:milo999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  随着互联网的发展和网上服务的增多,中国境内的网站数量每年都在以指数级的数量递增。本文研究了互联网信息获取技术特点和分类,并对其发展方向进行了预测,介绍了中国互联网网站探测和分析统计系统的研究与设计。重点探讨了系统在设计和开发过程中遇到的问题,这些问题包括,spider多线程的效率和资源共享问题、html源文件的信息过滤及抽取问题、重复网站的识别和统计问题、数据库的索引和优化问题等等。在研究过程中,本文结合实际需求,采取了有效的方法解决了上述问题,如,在多线程共享问题上,提出了多线程分布式读取公有初始url列表的方法;在信息过滤和抽取过程中,巧妙的解决了文字中间无规则出现的空格问题;在统计重复网站时,研究了“客户对某类域名的青睐程度”。
其他文献
人体解剖学是一门实践性很强的学科。在医学院校,如果老师对学生进行授课时,单纯用语言文字进行描述,很难取得好的教学效果,而辅以虚拟现实仿真实验,将人体某个器官——如足部的每
  随着计算机网络规模的不断扩大,路由技术在网络技术中已逐渐成为关键部分,路由器也随之成为最重要的网络设备。    本文论述了为中国科技网开发的BGP路由表分析系统和
无线传感器网络集成了传感器、嵌入式计算、网络和无线通信等四大技术,是一种全新的信息获取、处理和传输技术。无线传感器网络具有组网快捷、灵活等特点,并可广泛用于紧急搜
工作流技术是实现企业业务过程建模、过程管理与过程自动化的核心技术。随着信息技术的发展和计算机应用的普及,工作流技术正在受到越来越多的关注。然而,长期以来对工作流的研
随着智能计算机的发展,人工神经网络理论研究得到了极大的重视,也取得了丰硕的成果,它的应用领域也越来越广泛。人们根据应用领域的不同设计了多种网络模型和算法,对传神经网络
学位
随着社会的发展,人们生活质量的进一步提高,对健康生活的渴望也愈加强烈,这些都无可避免地要求医疗卫生行业的服务质量相应提升,而提高医疗卫生行业的信息化程度是一种行之有效的
Deep Web的流行使得集成deep Web中隐藏的海量信息成为数据集成领域的研究热点。而集成deep Web中隐藏的海量信息,首先要对deep Web的查询接口进行匹配。因此,作为deep Web数
本文首先概述了基于数据库技术的现代信息系统概念,简介了目前国内外相关领域的研究现状;其次,就“现代信息系统建设”所涉及的相关技术,进行了描述与探讨;接着,提供了申请审批系统
当前网络上的通信量巨大,如何在高速网络环境下对网络进行流量测量,以掌握网络的流量特性显得尤为重要。网络流量测量系统提供了一种测量和理解网络流量特性的工具。网络流量测
随着分布式软件系统的规模越来越大,功能越来越复杂,传统的动态调控已经不能满足现代分布式软件系统的需求。传统动态调控主要针对传统集中式软件或小型分布式软件,其调控手