基于多语主题模型的专家发现方法研究

来源 :中国科学技术信息研究所 | 被引量 : 0次 | 上传用户:saya1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
同行专家作为同行评议中的活动主体,对于保证评议工作的公平与质量起到了重要作用。然而,目前对于同行评议活动中专家的选择还存在一些问题,如找不到合适的小同行、基于公开信息自动化推荐合适的专家较为困难等。随着专家发现领域的逐步发展,目前已有学者通过专家公开信息挖掘专家兴趣以发现专家。其中,基于主题模型的专家发现方法,能够通过在大规模的文档集中挖掘科研兴趣的方式发现专家,此类模型以AT(Author-Topic)模型为代表。但是这些方法中使用的专家的文本信息多为单语种,较为片面。尤其是在目前多语言的环境下,专家使用不同种类的语言撰写发表文献,传统的基于单语主题模型进行专家发现的方法对于专家兴趣的挖掘则显得较为片面。本文针对目前专家发现方法中使用的信息不全面的问题,提出使用多语主题模型来对多语言文本集合中专家的科研兴趣进行更为细致的挖掘。通过解决在多语言文本中挖掘专家兴趣的问题,推进专家发现方法的进一步发展。  本文首先通过对融入作者信息的主题模型以及多语主题模型的比较研究,分析了各个模型的优缺点。由于JointLDA模型在挖掘文本中的潜在信息时不需要使用文本对齐的语料,使用可复用的词典的优势,本文选定在其中加入作者信息来挖掘作者的研究兴趣,提出JointAT模型。该模型通过使用词典作为多语言文本之间的桥梁,可以有效的从专家撰写的不同语言的文本中挖掘其科研兴趣。  吉布斯采样由于其易于实现与理解常作为主题模型的常用推导方式,本文中用它作为JointAT模型的推导方式。在确立模型之后,本研究选定情报学作为实验领域,对情报学领域的几位代表性学者检索英文文献摘要加入数据集,模型获得每位专家的主题分布。与AT模型比较可以发现JointAT模型的结果可以更清晰的描述作者的科研兴趣。通过对模型中的关键因素词典进行实验分析,验证了词典的质量对于模型效果有较大影响。  最后,基于JointAT模型的建模结果,使用Django和Echarts开发了专家发现系统。系统通过使用词项检索的方式发现相关主题下的专家,并通过对主题模型结果的可视化,更加生动直观的呈现专家发现的结果。同样,该系统也可其他作者-主题模型的结果进行专家发现。
其他文献
经济社会的快速发展,对高层次信息人才的需求空前紧迫,作为高层次,复合型信息人才培养的重要途径,图书馆学硕士研究生渐渐被人们所认识,所重视,并逐渐显示出强烈的社会需求和发展势
党的十七大提出,要加快建立以企业为主体、市场为导向、产学研相结合的技术创新体系,引导和支持创新要素向企业集聚,促进科技成果向现实生产力转化。产业技术创新战略联盟是市场
在小学阶段的学习过程当中,不仅要学习牢固的基础知识,还要学习许多做人的道理.在对小学生进行管理与教育的过程中,班主任承担着巨大的责任,加强对小学生的德育教育,有助于对
学位
2011年中央一号文件和“十二五规划”直击水利,水务行业迎来了大发展的黄金时期。能否在这段时期内加速扩张直接决定着水务企业未来的命运。然而伴随着水务市场化的进程及信息
学位
摘 要:针对高速公路服务区污水处理难度大问题,首先对高速服务污水特点进行了分析;其次,介绍了膜生物反应器原理;最后,对MBR(膜生物反應器工艺)污水处理方案设计进行了阐述,希望文中内容对相关工作人员能够有所帮助。  关键词:高速公路;污水处理;MBR技术  中图分类号:X703 文献标识码:A 文章编号:1004-7344(2018)23-0145-02  高速公路服务区远离市中心,在运行过程中会
从情报学的视角来看,政策文献是一种非常重要的公开信息源。政策文献能够反映社会过程的变动和多样性,是社会经济、政治、文化等在某一领域综合影响的结果,在中国当今的行政体系
随着大数据时代的来临,使得社会各行业发生了巨大的变化.在教育领域,教师的教学方式也受到了较大的影响,各种新型的现代化教学方式纷纷涌现,推动了我国教育事业的发展.本文主
学位