论文部分内容阅读
开放存取(OpenAccess,OA)期刊论文属于深层Web资源,传统的搜索引擎无法有效对其进行索引。为此,本文提出一种面向OA期刊站点的论文资源发现方法。首先,通过提取OA期刊站点首页的特征构建c4.5决策树,将OA期刊站点分为卷期目录型和检索接口型;然后,针对两类OA期刊站点分别提出基于锚文本链接分析和基于检索接口的论文资源发现算法。实验结果表明,本文提出的方法能够有效发现OA期刊论文资源,并且具有较高的准确率和查全率。