论文部分内容阅读
开放存取(Open Access,OA)期刊是一种用户可以免费使用的互联网学术信息资源,而且不受任何的访问限制。它为学术科研人员获取学术信息资源提供了一条新的便利途径,对于各个学科领域的学术研究帮助越来越大。尽管互联网上OA期刊数量在快速增长,但是,其应有的效用和影响却没有得到充分的发挥。因为OA期刊属于网络深层资源且分散在互联网中,传统的搜索引擎不能对隐藏在检索服务接口后面的OA期刊资源建立索引,不能满足用户通过搜索引擎直接获取OA期刊资源的需求,造成了这些开放资源的浪费,这也是所谓的“孤岛”问题。因此,必须将不同开放存取期刊资源的检索服务加以整合,建立在线资源集成服务平台,从而实现资源快速便利的共享,而OA期刊站点的学术信息采集是其中关键的一步。 本文首先深入分析了现有网络爬虫采集网络信息的模型、工作方式和爬行策略,以及现有Web页面信息提取方法的优势和劣势,总结了大量OA期刊网站的结构及页面信息展示特征。在此工作基础上,提出了基于用户预定义规则的OA期刊页面学术信息提取方法,此方法充分考虑了OA期刊站点的结构和页面特征,在HTML DOM树中标注目标信息并归纳推导出提取规则,从而达到自动提取学术信息的目的。实验结果表明,此方法具有较高的查准率和召回率。 其次,根据科研用户个性化和精确采集学术信息的需求目标,在学者网(SCHOLAT.COM)学术搜索引擎服务平台上,设计了学术信息网络爬虫的总体方案,包括总体结构、工作方式、爬行策略和工作流程。在系统实现部分,利用chrome extension机制实现了灵活部署的分布式学术信息爬虫,并详细设计了爬虫初始化模块、页面解析提取模块、调度模块和AJAX动态页面的爬行方法,并将基于预定义规则的提取方法应用到实际系统实现中。最后,对系统进行了相关测试,证明本爬虫系统的可用性和有效性。