The Internet Archives Web Collection and Open Source Crawler

来源 :2004年数字图书馆—促进知识的有效应用国际研讨会 | 被引量 : 0次 | 上传用户：zhongguorenaaa

【摘要】

：

He Internet Archive,a San Francisco-based nonprofit,aims to provideuniversal access to human knowledge and culture using digital storage and networktechnology．Th

【作者】

：

Gordon Mohr

【机构】

：

InternetArchive,PresidioofSanFrancisco,94117,USA

【出处】

：

2004年数字图书馆—促进知识的有效应用国际研讨会

【发表日期】

：

2004年9期

【关键词】

：

互联网档案馆网站收集开放源码 Web检索

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

He Internet Archive,a San Francisco-based nonprofit,aims to provideuniversal access to human knowledge and culture using digital storage and networktechnology．The Archive’s most extensive and well-known collection is eight years ofsnapshots of the public Internet web content,including tens of billions of web pagesand associated resources．These snapshots come from a commercial partnerorganization,and may be browsed via the Archive’s public website．To augment thisgeneral dataset with new approaches,the Archive began development in 2003 of newopen source web crawling software called Heritrix．Heritrix is designed to be ageneric crawling framework suitable for many crawling use cases．With collaborativesupport from National Libraries,Heritrix is now available in its 1.0.0 version,withmany features making it well suited for focused crawling．Future work by the Archiveand others will further extend Heritrix,making it better suited for broad andcontinuous crawling．

其他文献

基于Internet的Agent智能搜索系统

随着因特网络的发展、网络上信息量的增多，智能代理(Internet Agent)技术已经成为计算机研究领域中的一个崭新课题。文中对因特网上智能搜索Agent做了比较深入的研究，其中着重

会议

Internet网络搜索信息过滤机器学习Agent智能代理

职教师资培养中多媒体技术课程体系

职业教育师资的职业性与师范性决定了其在培养模式与课程设置上与工科类高等教育的区别。多媒体技术课程设置的主要目标，是传授开展职业技术教学过程中直接需要的多媒体技术知

会议

职业教育职教师资培养多媒体课程体系课程设置

互联网历史背景下的斯坦福数字图书馆项目

DLI1建议书中没有一份以万维网(WWW)为主。但到1998年第一阶段DLI结束时,世界上很多信息都要通过万维网访问。万维网组织合理的数据库、精心收集的特别资料一直满足着人们不

会议

互联网斯坦福项目数字图书馆信息收集需求分析

基于开放源的海量数字资源管理系统的设计和实现

本文讨论了海量数字资源管理面临的技术挑战和关键问题,研究了数字图书馆开放源软件(OSS)、WEB服务和面向服务的框架等相关工作。在分析和比较相关工作的基础上,设计了一个海

会议

数字图书馆开放源软件WEB服务海量数据数字资源管理

构建终身教育体系,建设全民学习、终身学习的学习型社会——在第四届中国教育国际论坛上的讲话

终身教育是广泛而深刻地影响着世界教育发展的现代教育思潮,是当代科技、经济、文化和社会高度发展的必然要求。从上世纪70年代以来,终身教育思想已经成为国际社会和教育界的

会议

终身教育教育体系学习型社会终身学习

数字图书馆面临的知识产权风险与对策建议

在技术突飞猛进和投资力度加大的情况下,知识产权问题已经成为制约数字图书馆建设取得成功的瓶颈。文章分析了公益性数字图书馆面临的十大知识产权风险,提出了制定知识产权对

会议

数字图书馆知识产权制约因素风险分析控制对策

基于知识的数字图书馆解决方案

本文提出了一种基于知识的数字图书馆的解决方案,该方案包括资源管理、知识管理和服务管理三部分。文章重点概述基于知识的数字图书馆的体系结构和有关的关键技术。

会议

数字图书馆资源建设知识管理个性化服务体系结构

高等教育的创新性财务机制

许多教育体系面临着一个巨大的挑战,即如何鼓励个人和非政府机构参与到教育领域以减轻公共资源对公立教育机构的负担。在很多情况下,虽然私立教育机构是公立教育机构必要的补

会议

高等教育财务机制教育体系公共资源公立教育教育机构

多模双语信息媒体：iVIEW系统

本文介绍了iVIEW系统,该系统是以卡内基·梅隆大学较早的信息媒体项目为基础,支持多模和双语数字电视目录管理,系统通过一个大范围的移动程序如PDA、袖珍PC和移动电话支持智

会议

iVIEW系统移动设备浏览器多媒体管理信息检索信息媒体

数字图书馆与数据密集计算

作为一个科研领域数字资产代表的科学数据馆藏代表正在被组织成数字图书馆的形式。科学家可以利用数字图书馆来浏览已注册的资料,搜索相关的数字资源,以及显示数据。这

会议

数字图书馆数据密集计算功能流程分析

The Internet Archives Web Collection and Open Source Crawler

其他学术论文