中国互联网网站探测和分析统计系统的研究与实现

来源 :中国科学院计算机网络信息中心 | 被引量 : 0次 | 上传用户：milo999

【摘要】

：

　　随着互联网的发展和网上服务的增多，中国境内的网站数量每年都在以指数级的数量递增。本文研究了互联网信息获取技术特点和分类，并对其发展方向进行了预测，介绍了中国互联网

【作者】

：

李颖

【机构】

：

中国科学院计算机网络信息中心

【出处】

：

中国科学院计算机网络信息中心

【发表日期】

：

2005年期

【关键词】

：

信息获取互联网网站管理多线程

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　随着互联网的发展和网上服务的增多，中国境内的网站数量每年都在以指数级的数量递增。本文研究了互联网信息获取技术特点和分类，并对其发展方向进行了预测，介绍了中国互联网网站探测和分析统计系统的研究与设计。重点探讨了系统在设计和开发过程中遇到的问题，这些问题包括，spider多线程的效率和资源共享问题、html源文件的信息过滤及抽取问题、重复网站的识别和统计问题、数据库的索引和优化问题等等。在研究过程中，本文结合实际需求，采取了有效的方法解决了上述问题，如，在多线程共享问题上，提出了多线程分布式读取公有初始url列表的方法；在信息过滤和抽取过程中，巧妙的解决了文字中间无规则出现的空格问题；在统计重复网站时，研究了“客户对某类域名的青睐程度”。

其他文献

基于桌面虚拟现实的人体实验教学系统的研究——以人体足部为例

人体解剖学是一门实践性很强的学科。在医学院校，如果老师对学生进行授课时，单纯用语言文字进行描述，很难取得好的教学效果，而辅以虚拟现实仿真实验，将人体某个器官——如足部的每

学位

人体解剖学解剖教学虚拟现实技术计算机辅助教学立体显示

BGP路由表和路由器日志分析系统的设计与实现

　　随着计算机网络规模的不断扩大，路由技术在网络技术中已逐渐成为关键部分，路由器也随之成为最重要的网络设备。　　　　本文论述了为中国科技网开发的BGP路由表分析系统和

学位

网络管理网络技术路由器拓扑结构

基于博弈论防御DoS攻击的无线传感器网络安全机制研究

无线传感器网络集成了传感器、嵌入式计算、网络和无线通信等四大技术,是一种全新的信息获取、处理和传输技术。无线传感器网络具有组网快捷、灵活等特点,并可广泛用于紧急搜

学位

无线传感器网络拒绝服务攻击安全路由协议入侵检测

青鸟工作流管理系统组织机构建模工具的设计与实现

工作流技术是实现企业业务过程建模、过程管理与过程自动化的核心技术。随着信息技术的发展和计算机应用的普及，工作流技术正在受到越来越多的关注。然而，长期以来对工作流的研

学位

工作流管理系统工作流模型过程模型组织机构模型建模工具

基于软竞争机制对传网络的研究及其在指纹识别中的应用

随着智能计算机的发展，人工神经网络理论研究得到了极大的重视，也取得了丰硕的成果，它的应用领域也越来越广泛。人们根据应用领域的不同设计了多种网络模型和算法,对传神经网络

学位

对传神经

数字签名技术在PACS中的应用研究

随着社会的发展，人们生活质量的进一步提高，对健康生活的渴望也愈加强烈，这些都无可避免地要求医疗卫生行业的服务质量相应提升，而提高医疗卫生行业的信息化程度是一种行之有效的

学位

医疗卫生行业电子病历病历数据库数字签名公钥基础设施数字证书

Deep Web环境下多源模式匹配方法的研究

Deep Web的流行使得集成deep Web中隐藏的海量信息成为数据集成领域的研究热点。而集成deep Web中隐藏的海量信息,首先要对deep Web的查询接口进行匹配。因此,作为deep Web数

学位

deep Web数据集成模式匹配多源素数知识

现代信息系统建设

本文首先概述了基于数据库技术的现代信息系统概念，简介了目前国内外相关领域的研究现状；其次，就“现代信息系统建设”所涉及的相关技术，进行了描述与探讨；接着，提供了申请审批系统

学位

现代信息系统数据挖掘智能筛选申请审批系统

一种基于“零拷贝”的高效网络信息采集模式的设计与实现

当前网络上的通信量巨大，如何在高速网络环境下对网络进行流量测量，以掌握网络的流量特性显得尤为重要。网络流量测量系统提供了一种测量和理解网络流量特性的工具。网络流量测

学位

高效网络信息采集模式零拷贝网络流量测量接收包

策略驱动的软件动态调控研究

随着分布式软件系统的规模越来越大,功能越来越复杂,传统的动态调控已经不能满足现代分布式软件系统的需求。传统动态调控主要针对传统集中式软件或小型分布式软件,其调控手

学位

策略策略求精动态调控动态调控平台J2EE

中国互联网网站探测和分析统计系统的研究与实现

其他学术论文