云分类学术搜索引擎的研究与实现

来源 :长安大学 | 被引量 : 0次 | 上传用户:chaowei619
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网信息的发展,搜索引擎技术已经越来越成熟。海量的网页信息、良莠不齐的网页质量,对于需要学术信息的专业用户来说无疑降低了检索体验。目前,专业的学术搜索引擎,已经成为研究的一个热点。但是现有的这些学术搜索引擎,存在或多或少的缺点,比如不能免费下载原文、用户不能推荐刊源等。并且一些小型学术搜索引擎采用集中式体系结构,系统对主机要求比较高,若主机出现故障,可能导致全网停止工作。  本研究从用户实际需求出发,设计了一个云分类学术搜索引擎,一个具有学术性的、可免费获取原文的、满足用户个人偏好的、可分类检索的、服务稳定的云分类学术搜索引擎。本文首先介绍了云搜索引擎的相关技术,分析和研究了Hadoop分布式计算平台和开源搜索引擎Nutch;其次分析和获取了具有学术性的免费期刊网站的URL,设定了本文的刊源数据库,同时满足了用户可以根据个人偏好推荐刊源和可以免费获取原文的需求;接着设计和实现了分布式网络信息获取功能,对爬取回来的网页内容采用IK-Analyzer进行分词处理;然后对爬取回来的网页进行学术性判断,本文采用向量空间模型(VSM)进行学术性判断;最后采用中图法和朴素贝叶斯(Na?ve Bayes)分类算法实现了学术网页分类的功能。此外本文对实验结果进行测试分析,证明该搜索引擎准确率高、检索速度快,能较好的满足用户希望免费获取学术原文和进行刊源定制的需求,从而说明本搜索引擎具有十分重要的应用价值。
其他文献
随着人民消费需求的变化,含有有害物质的消费品越来越多、废弃的电气产品数量不断暴涨、含高关注度物质的化学品的使用剧增.但由于功能需要和生产技术的局限,其仍含有大量如
随着现代化生产设备日趋大型化、精密化和自动化,设备故障也呈现出随机性、多样性和滞后性等特点,并且一种故障的形成往往是由多种因素所造成的。这就使得传统的故障诊断与检测
暴雨预报迄今为止依然是气象预报中难度最大的问题之一。70年代中期以后,国内对暴雨预报开展了大规模的重点研究,我国南方地区包括长江中下游华南地区由于河流众多,加上年降水比
目的:探讨氨氯地平阿托伐他汀钙片治疗高血压病合并冠心病的临床效果.方法:将本院2018年3月到2019年3月接收治疗的100例高血压合并冠心病患者为研究对象,入院时根据治疗措施
本文通过对荣华二采区10
期刊
本文采用最新的工程分析软件ANSYS建立了桥上无缝线路与整体道床一体化模型,进行了有益的探讨和分析。  本文概括介绍了梁轨相互作用的基本原理,总结分析了桥上无缝线路
目的:探讨奥美拉唑与乳酸菌治疗急性肠胃炎的作用.方法:选取2018年1月~2019年6月期间本院收治的68例急性肠胃炎患者,根据治疗方式分为奥美拉唑组和联合组,各34例.奥美拉唑组
目的:分析CT血管造影 、经颅多普勒超声 对无症状性颅内动脉狭窄的诊断价值.方法:选取2018年1月至2019年12月期间被确诊为无症状性颅内动脉狭窄的86例患者,以随机数字表法将
目的:轻中度上睑下垂患者进行矫正时可应用提上睑肌腱膜折叠术进行治疗,本文分析此治疗方式产生的临床效果.方法:此次研究目标为我院2018年间收治的轻中度上睑下垂患者,按照
兴趣是激发学生学好化学知识的关键.对于农村的初中生来说,教师在教育教学中要特别精心设计教学过程,运用多种教学手段,巧妙创设学习环境,充分调动学生的学习热情,激发学生化