论文部分内容阅读
同行专家作为同行评议中的活动主体,对于保证评议工作的公平与质量起到了重要作用。然而,目前对于同行评议活动中专家的选择还存在一些问题,如找不到合适的小同行、基于公开信息自动化推荐合适的专家较为困难等。随着专家发现领域的逐步发展,目前已有学者通过专家公开信息挖掘专家兴趣以发现专家。其中,基于主题模型的专家发现方法,能够通过在大规模的文档集中挖掘科研兴趣的方式发现专家,此类模型以AT(Author-Topic)模型为代表。但是这些方法中使用的专家的文本信息多为单语种,较为片面。尤其是在目前多语言的环境下,专家使用不同种类的语言撰写发表文献,传统的基于单语主题模型进行专家发现的方法对于专家兴趣的挖掘则显得较为片面。本文针对目前专家发现方法中使用的信息不全面的问题,提出使用多语主题模型来对多语言文本集合中专家的科研兴趣进行更为细致的挖掘。通过解决在多语言文本中挖掘专家兴趣的问题,推进专家发现方法的进一步发展。 本文首先通过对融入作者信息的主题模型以及多语主题模型的比较研究,分析了各个模型的优缺点。由于JointLDA模型在挖掘文本中的潜在信息时不需要使用文本对齐的语料,使用可复用的词典的优势,本文选定在其中加入作者信息来挖掘作者的研究兴趣,提出JointAT模型。该模型通过使用词典作为多语言文本之间的桥梁,可以有效的从专家撰写的不同语言的文本中挖掘其科研兴趣。 吉布斯采样由于其易于实现与理解常作为主题模型的常用推导方式,本文中用它作为JointAT模型的推导方式。在确立模型之后,本研究选定情报学作为实验领域,对情报学领域的几位代表性学者检索英文文献摘要加入数据集,模型获得每位专家的主题分布。与AT模型比较可以发现JointAT模型的结果可以更清晰的描述作者的科研兴趣。通过对模型中的关键因素词典进行实验分析,验证了词典的质量对于模型效果有较大影响。 最后,基于JointAT模型的建模结果,使用Django和Echarts开发了专家发现系统。系统通过使用词项检索的方式发现相关主题下的专家,并通过对主题模型结果的可视化,更加生动直观的呈现专家发现的结果。同样,该系统也可其他作者-主题模型的结果进行专家发现。