The Internet Archives Web Collection and Open Source Crawler

来源 :2004年数字图书馆—促进知识的有效应用国际研讨会 | 被引量 : 0次 | 上传用户:zhongguorenaaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
He Internet Archive,a San Francisco-based nonprofit,aims to provideuniversal access to human knowledge and culture using digital storage and networktechnology.The Archive’s most extensive and well-known collection is eight years ofsnapshots of the public Internet web content,including tens of billions of web pagesand associated resources.These snapshots come from a commercial partnerorganization,and may be browsed via the Archive’s public website.To augment thisgeneral dataset with new approaches,the Archive began development in 2003 of newopen source web crawling software called Heritrix.Heritrix is designed to be ageneric crawling framework suitable for many crawling use cases.With collaborativesupport from National Libraries,Heritrix is now available in its 1.0.0 version,withmany features making it well suited for focused crawling.Future work by the Archiveand others will further extend Heritrix,making it better suited for broad andcontinuous crawling.
其他文献
随着因特网络的发展、网络上信息量的增多,智能代理(Internet Agent)技术已经成为计算机研究领域中的一个崭新课题。文中对因特网上智能搜索Agent做了比较深入的研究,其中着重
职业教育师资的职业性与师范性决定了其在培养模式与课程设置上与工科类高等教育的区别。多媒体技术课程设置的主要目标,是传授开展职业技术教学过程中直接需要的多媒体技术知
DLI1建议书中没有一份以万维网(WWW)为主。但到1998年第一阶段DLI结束时,世界上很多信息都要通过万维网访问。万维网组织合理的数据库、精心收集的特别资料一直满足着人们不
本文讨论了海量数字资源管理面临的技术挑战和关键问题,研究了数字图书馆开放源软件(OSS)、WEB服务和面向服务的框架等相关工作。在分析和比较相关工作的基础上,设计了一个海
终身教育是广泛而深刻地影响着世界教育发展的现代教育思潮,是当代科技、经济、文化和社会高度发展的必然要求。从上世纪70年代以来,终身教育思想已经成为国际社会和教育界的
在技术突飞猛进和投资力度加大的情况下,知识产权问题已经成为制约数字图书馆建设取得成功的瓶颈。文章分析了公益性数字图书馆面临的十大知识产权风险,提出了制定知识产权对
本文提出了一种基于知识的数字图书馆的解决方案,该方案包括资源管理、知识管理和服务管理三部分。文章重点概述基于知识的数字图书馆的体系结构和有关的关键技术。
许多教育体系面临着一个巨大的挑战,即如何鼓励个人和非政府机构参与到教育领域以减轻公共资源对公立教育机构的负担。在很多情况下,虽然私立教育机构是公立教育机构必要的补
本文介绍了iVIEW系统,该系统是以卡内基·梅隆大学较早的信息媒体项目为基础,支持多模和双语数字电视目录管理,系统通过一个大范围的移动程序如PDA、袖珍PC和移动电话支持智
作为一个科研领域数字资产代表的科学数据馆藏代表正在被组织成数字图书馆的形式。科学家可以利用数字图书馆来浏览已注册的资料,搜索相关的数字资源,以及显示数据。 这