论文部分内容阅读
21世纪信息化时代的图书情报学充满未知的机遇和挑战,随着计算机技术与互联网技术日新月异的发展及文献出版速度的加快,图书情报领域的研究成果呈现爆炸式增长的态势,主题也更为多样。主题模型可以帮助我们从信息文本中发现和提炼隐藏的、有积极作用的、可以分析的知识。LDA(Latent Dirichlet Allocation,隐含狄利克雷分配)是运用最为广泛的概率主题模型之一,是一个三层贝叶斯概率模型,由词、主题和文档三层结构组成。通过词袋(Bag Of Word)这一方法的运用,复杂的文本信息被转换成易于处理的数学信息。当前,图书情报领域聚焦于应用该模型进行科学文献主题挖掘及主题演化研究。本文运用LDA模型对国内图书情报学2006年至2017年这12年的研究文献进行主题发现。首先,运用困惑度来确定模型主题数目,根据主题-词项概率分布文件进行主题标识;其次,根据文档-主题概率分布文件计算各个主题的主题强度,对当今国内图书情报学研究主题进行具体分析;最后引入时间因素,依据主题强度分布情况对主题演化趋势进行分析,以期为我国图书情报学相关研究提供数据支撑与参考。在中国知网(CNKI)学术期刊数据库中,获取图书情报领域10本核心期刊于2006至2017年发表论文的摘要部分,利用LDA进行建模,发现20个图书情报学研究主题,即大学生信息素养教育、理论研究、评价研究、馆员研究、数字图书馆与知识产权、竞争情报、信息组织、移动图书馆、知识管理、公共图书馆与政府信息公开、用户研究、知识发现、高校图书馆、大数据、信息资源建设、资源共享、信息服务、信息检索、网络舆情、阅读推广。将文档主题按照时间进行划分,以年为单位,运用后离散方式得到主题-词汇概率分布以及文档-主题概率分布,运用公式计算得到各个主题的强度分布情况,构建学科主题强度时间序列。发现呈上升趋势的研究主题是大学生信息素养教育、评价研究、移动图书馆、用户研究、知识发现、大数据、网络舆情、阅读推广;呈下降趋势的研究主题是馆员研究、数字图书馆与知识产权、信息组织、公共图书馆与政府信息公开、知识管理、信息资源建设、资源共享、信息服务、信息检索;主题强度变化幅度较小的研究主题是理论研究、竞争情报、高校图书馆。