学术搜索引擎的优化策略

来源 :科技创新导报 | 被引量 : 0次 | 上传用户:wangj30
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:该文介绍了一种新的检索模型,提高学术搜索引擎的检全率及检索效率。该扩展模型的创新点在于引入检索词的下位词构成新的检索词组,不再局限于检索词本身字面上的匹配;且文献列表的排序将学术价值这一因素考虑在内,根据相关度及学术价值的综合评分机制对检索结果进行有序输出。该模型具有一定的科学性和实用性,但是其排序的评分机制等需要在未来的研究中进一步细化,完善。该扩展模型主要适用于对检全率要求较高的学术系统及网站。
  关键词:学术搜索引擎 扩展模型 检索 文献排名
  中图分类号:G64 文献标识码:A 文章编号:1674-098X(2015)06(c)-0243-01
  不同于普通网站或系统的搜索引擎,本文所研究的学术搜索引擎是专门针对于知识库的一类搜索引擎,其检索对象较为单一,为期刊、文献等数字学术资源。该文以CNKI为例。当前学术搜索引擎检索模型一般采用布尔模型、向量模型等传统的检索模型[1],这类检索方式只能对检索的关键词进行字面上的匹配,而忽略了其内在含义的相似度,降低了学术搜索引擎的检全率。该文浅谈一种更加全面的检索模型,以提高其检索效率。在该文中此模型统一简称为扩展模型。
  1 理论依据
  当用户输入检索词后,返回具有相关信息的文献排名列表。此列表的确定取决于文献的关键词或题目及其下位词是否与检索词匹配。此列表的排序则取决于文献与检索词的相关度及该文献的学术价值。该文根据文献所属期刊的影响因子评定文献的学术价值。
  所以该模型获取检索词后,首先,根据建好的学科专长词表(表1)利用其下位词进行扩展,扩展后成为扩展检索词组;其次,从文献库中抽取文献题目或关键词中含有扩展检索词组的文献;但是检索词与其下位词能提供的相关度权重不同,根据已确定的评分机制(第三部分将详细给出)即可计算相关文献的得分,按得分高低得出文献列表。
  2 模型介绍
  该模型是为了提高文献的查全率,借鉴了文献[2]结合专长词表的专家检索方法,即用户输入检索词后,利用词表对检索词进行扩展。具体设计如下。
  2.1 构建主题词表
  专长词表的一、二级词汇由中国分类主题词表中对应分类的主题词经稍加改造得来。专长词表分为三级,其中部分一、二级词汇如表1所示。
  对每一个二级词还需建立相应的三级词文档,一个学术研究领域较长时间内的大量学术研究成果的关键词的集合,可以揭示研究成果的总体内容特征、研究内容之间的内在联系、学术研究的发展脉络与发展方向[3],该文以中国知网CNKI数据库2010—2014年核心期刊上相关文献的所有关键词作为三级词汇来源。
  2.2 确定文献列表
  用户输入检索词后,首先,利用该检索词的下位词进行扩展。其次,根据CNKI数据库文献表中的文献题目和关键词,生成题目或关键词中含有扩展检索词组中词的文献,此即符合查询主题的专家文献。
  2.3 文献排名的实现
  文献排名依据两方面:一是依据文献与检索词的相关度;二是依据该文献的学术价值。在此基础上,虽然文献最终得分与文献中含有检索词组中词的数量有一定关系,但并不意味着二者成绝对的正相关,而是仅对同一篇文献来说,随着相关词数量的增加,最终得分也增加。最后按文献得分由高到低得出有序的文献列表。
  一般地,题目和关键词能集中体现文章的主要内容,故取文献的题目和关键词衡量其相关度,按体现程度的不同,给二者赋予不同的系数,该文分别将其设定为0.6和0.4(式(2))。其次,在检索词组中,词本体与其下位词体现相关度也不同,将其权数分别设为0.7和0.3(式(4))。最后,由于期刊的级别不同,其权威性也不同,因此,可取期刊的影响因子衡量文献的学术价值。相关度和学术价值的系数分别设为0.8和0.2(式(3))。
  计分公式如下:
  Wk=Skrel+Skval (1)
  Wk为文献k的得分;Skrel为文献k的相关度得分;Skval为文献k的学术价值得分。
  Wk=(0.6×Pktil+0.4×Pkkey)+Skval (2)
  Pktil为检索词组中词在文献k的题目中出现的频数;Pkkey为检索词组中词在文献k的关键词中出现的频数。
  Wk=0.8×(0.6×Pktil+0.4×Pkkey)+0.2×Skval (3)
  Wk=0.8×[0.6×(0.7Pkts+0.3Pkte)+0.4×(0.7Pkks+0.3Pkke)]+0.2×Skval (4)
  Pkts与Pkte分别为检索词本体及其扩展词在题目中出现的频数;Pkks与Pkke则分别为检索词的本体及扩展词在文献关键词中出现的频数。
  在计算出3.2节所得文献列表中每篇文献的分值后,按分值高低排序即可得出有序的文献列表。
  3 结语
  该模型的创新点在于突破了布尔模型、向量模型等传统模型的僵性匹配模式,通过下位词匹配提高模型的检全率,使检索方式更加智能。同时在进行排序时,将学术价值这一因素考虑在内。该模型可用于对检全率要求较高的系统。但是该模型也有一些缺陷,其评分标准有待进一步的细化、考证;同时检准率有待提高。
  参考文献
  [1] 王娟琴.三种检索模型的比较研究-布尔、概率、向量空间模型[J].情报科学,1998(3):225-230,260.
  [2] 陆伟,刘杰,秦喜艳.基于专长词表的图情领域专家检索与评价[J].中国图书馆学报,2010(2):70-76.
  [3] 李文兰,杨祖国.中国情报学期刊文献关键词词频分析[J].情报科学,2005,23(1):68-70,143.
其他文献
摘 要:为监测苏南茅山地震断裂带的活动,江苏省地震局地震测量队于1976年在溧阳市布设了曹山跨断层地震观测场地。由于溧阳市当地政府的重点工程的施工会对该场地1号点和2号点造成不可避免的影响,必须对监测点进行迁移保护。本次迁建工程江苏省地震局的技术人员合理应用“零高差法”对点位进行迁移。通过对比观测,新老测点与有关测点的形变曲线变化具有一致性,且新老测点的变化值仅为0.1 mm,完全符合规范要求。 
期刊
摘 要:在国家加强高校内涵建设的社会大背景下,如何使青年教师教学能力得到快速提升,使他们一走上工作岗位,就可以胜任自己的工作,一直是我们在积极探讨的一个问题。文章通过具体实例——扬州大学农学院在培养青年教师中,如何结合学院专业特色和青年教师的实际情况,分别采取了导师制、设立听课制度、举办讲课比赛、鼓励青年教师参与学院管理和外出挂职锻炼等措施,积极探索一条培养青年教师教学能力的新思路。通过实践证明,
期刊
摘 要:本研究借助问卷调查与分析研究了大学生在网络舆情中存在的五大行为特点;并针对这些特点,提出高校舆情工作者应重视新时期的网络舆情,加强监测的广泛性,注重日常的疏导以及舆情爆发时的快速澄清等建议和策略。  关键词:新媒体 网络舆情 大学生 行为特点 问卷调查  中图分类号:G206 文献标识码:A 文章编号:1674-098X(2015)06(c)-0028-02  数字和网络技术的迅速发展预示
期刊
摘 要:学院以师德建设为基础;以“三个层次”师资骨干队伍建设计划、“百人工程”青年教师培养计划为核心;通过青年教师教育教学能力培养提升计划、青年教师教学大赛、教师学历提升计划、教师国内外访学进修计划、多形式培训计划提升教师职业能力,做好师资补充引进工作,建立多样化福利保障,统筹协调,整体推进,全面加强师资队伍建设,努力建设一支师德高尚、业务精湛、结构合理、充满活力的高素质专业化教师队伍,为建设一流
期刊
摘 要:校企联合培养人才是实施“卓越工程师教育培养计划”的关键。结合天津理工大学“卓越计划”的实施,对机械工程卓越工程师校企联合培养的新机制进行了探索与实践。介绍了校企联合培养人才的实施思路、教学体系优化改革、教学保障体系构建以及校企合作培养模式等内容,重点强化工程实践能力、工程设计能力和创新能力的培养,以提升学生的工程素养,从而形成机械工程人才培养的新模式,对于进一步全面推动机械工程专业的教学改
期刊
摘 要:数学建模是一种运用数学语言和方法,建立数学模型来解决实际问题的思考方法。“应用与实用”是数学建模思想的灵魂。高职院校是培养应用型高技能人才的,与学生专业相结合,突出“应用与实用”是高职培养目标对高职数学课程的内在要求。由此可见,将数学建模思想融入高职数学课堂十分必要,结合专业问题进行数学建模是高职数学教学与数学建模有机结合的产物。该文将以“房贷按揭问题”为例,阐述数学建模在高职金融专业数学
期刊
摘 要:高校开设思想政治理论课(简称“思政课”),是帮助大学生树立马克思主义信仰,坚定走中国特色社会主义道路的主要途径,2005年,中宣部、教育部在《关于进一步加强和改进大学生社会实践的意见》中特别提出:“把实践教学作为课堂教学的重要组成部分和巩固理论教学成果的重要环节”。实践教学的提出,弥补了传统灌输式的思政课教学形式的欠缺,突出思政课教学中实践作用的发挥,鼓励学生的参与互动,发挥学生的主动性,
期刊
摘 要:针对学困生诸多问题,笔者积极探索,勇于实践,总结经验,重视积累。教育方面,重视学生理想教育,关注学生心理健康,用理想感召学生,以关爱打动学生,教育学生坦然面对社会变化,把握自身发展因素。教学方面,积极实践,努力形成学困生教育模式,强调学困生成绩转化,培养学困生学习兴趣,将关注落实到晨读、备课,上课的每一个环节。通过亲身实践,学困生转化已初见成效。笔者希望能与读者进一步沟通交流,以期这一方面
期刊
摘 要:为响应国家关于地方本科高校转型发展的号召,武汉理工大学华夏学院以办学实践为基础,对通信工程专业人才培养模式及教学方法进行改革,提出了知识与技能仿射教学法。指出知识与技能仿射教学法不能仅实施于单门或单项课程,而应该贯穿于整个培养方案,特别是课程体系中,才能发挥应有的作用。文章以通信工程课程体系为例,介绍了知识与技能仿射教学法在单个课程内部、课程间、以及专业间的运用办法,最后总结说明其运用效果
期刊
摘 要:时代的发展给旅游酒店的职业教育带来了前所未有的机遇,为适应21世纪企业人才培养的需求,职业技术教育必须引进国外有特色的职业教育课程模式,结合我国国情,开展以就业为导向、以能力为本位、以职业实践为主线、以项目课程为主体的职业技术教育课程改革研究。  关键词:酒店专业 设置 调研 实践性教学  中图分类号:G649 文献标识码:A 文章编号:1674-098X(2015)06(c)-0245-
期刊