论文部分内容阅读
随着互联网信息的发展,搜索引擎技术已经越来越成熟。海量的网页信息、良莠不齐的网页质量,对于需要学术信息的专业用户来说无疑降低了检索体验。目前,专业的学术搜索引擎,已经成为研究的一个热点。但是现有的这些学术搜索引擎,存在或多或少的缺点,比如不能免费下载原文、用户不能推荐刊源等。并且一些小型学术搜索引擎采用集中式体系结构,系统对主机要求比较高,若主机出现故障,可能导致全网停止工作。 本研究从用户实际需求出发,设计了一个云分类学术搜索引擎,一个具有学术性的、可免费获取原文的、满足用户个人偏好的、可分类检索的、服务稳定的云分类学术搜索引擎。本文首先介绍了云搜索引擎的相关技术,分析和研究了Hadoop分布式计算平台和开源搜索引擎Nutch;其次分析和获取了具有学术性的免费期刊网站的URL,设定了本文的刊源数据库,同时满足了用户可以根据个人偏好推荐刊源和可以免费获取原文的需求;接着设计和实现了分布式网络信息获取功能,对爬取回来的网页内容采用IK-Analyzer进行分词处理;然后对爬取回来的网页进行学术性判断,本文采用向量空间模型(VSM)进行学术性判断;最后采用中图法和朴素贝叶斯(Na?ve Bayes)分类算法实现了学术网页分类的功能。此外本文对实验结果进行测试分析,证明该搜索引擎准确率高、检索速度快,能较好的满足用户希望免费获取学术原文和进行刊源定制的需求,从而说明本搜索引擎具有十分重要的应用价值。