基于LDA的国内图书情报学研究主题发现及其演化研究

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:qdgong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
21世纪信息化时代的图书情报学充满未知的机遇和挑战,随着计算机技术与互联网技术日新月异的发展及文献出版速度的加快,图书情报领域的研究成果呈现爆炸式增长的态势,主题也更为多样。主题模型可以帮助我们从信息文本中发现和提炼隐藏的、有积极作用的、可以分析的知识。LDA(Latent Dirichlet Allocation,隐含狄利克雷分配)是运用最为广泛的概率主题模型之一,是一个三层贝叶斯概率模型,由词、主题和文档三层结构组成。通过词袋(Bag Of Word)这一方法的运用,复杂的文本信息被转换成易于处理的数学信息。当前,图书情报领域聚焦于应用该模型进行科学文献主题挖掘及主题演化研究。本文运用LDA模型对国内图书情报学2006年至2017年这12年的研究文献进行主题发现。首先,运用困惑度来确定模型主题数目,根据主题-词项概率分布文件进行主题标识;其次,根据文档-主题概率分布文件计算各个主题的主题强度,对当今国内图书情报学研究主题进行具体分析;最后引入时间因素,依据主题强度分布情况对主题演化趋势进行分析,以期为我国图书情报学相关研究提供数据支撑与参考。在中国知网(CNKI)学术期刊数据库中,获取图书情报领域10本核心期刊于2006至2017年发表论文的摘要部分,利用LDA进行建模,发现20个图书情报学研究主题,即大学生信息素养教育、理论研究、评价研究、馆员研究、数字图书馆与知识产权、竞争情报、信息组织、移动图书馆、知识管理、公共图书馆与政府信息公开、用户研究、知识发现、高校图书馆、大数据、信息资源建设、资源共享、信息服务、信息检索、网络舆情、阅读推广。将文档主题按照时间进行划分,以年为单位,运用后离散方式得到主题-词汇概率分布以及文档-主题概率分布,运用公式计算得到各个主题的强度分布情况,构建学科主题强度时间序列。发现呈上升趋势的研究主题是大学生信息素养教育、评价研究、移动图书馆、用户研究、知识发现、大数据、网络舆情、阅读推广;呈下降趋势的研究主题是馆员研究、数字图书馆与知识产权、信息组织、公共图书馆与政府信息公开、知识管理、信息资源建设、资源共享、信息服务、信息检索;主题强度变化幅度较小的研究主题是理论研究、竞争情报、高校图书馆。
其他文献
意大利戏剧家皮蓝德娄的《六个寻找剧作家的角色》,以惊世骇俗的戏剧情节,魔术般的舞台性,深邃的思想表达,以及具有分裂人格的人物塑造,丰富了后现代戏剧艺术表现,为后现代戏
钢箱梁梁段的架设属于大吨位构件的起重吊装,其影响面牵涉到通航、驳船运输及定位,塔身变形控制等,因此施工难度大。本文以虎门大桥悬索桥施工为实例,介绍了钢箱梁梁段架设中
会议
为了客观评价我国环境污染水平以及分析环境污染状况变动趋势,文章构建了区域环境污染综合评价指数,并利用空间计量模型实证分析了中国环境污染综合指数的收敛性。结果表明:(
当前,压痕试验是测定金属、高聚物和陶瓷等材料力学特性的一种十分有效且简便的方法。本文旨在探讨如何应用该方法测定岩石材料的力学特性。介绍了一种新的用于岩石材料测试
目的 探讨一期后路单纯经皮内固定术治疗胸腰椎结核的可行性及早期疗效。方法 回顾性分析2012年4月至2016年7月同济大学附属东方医院脊柱外科选择收治的64例胸腰椎结核患者的
目的:研究单壁碳纳米角(SWNHs)抑制人肝癌细胞增殖及促进凋亡的作用机制。方法:1.HepG2细胞和L02细胞分别接种至铺有不同浓度SWNHs的6孔板或培养皿中培养一定时间后,普通电子倒置
在当今互联网时代,网络技术已深入到我国社会生活的各个方面。电子商务作为一种新兴的贸易手段,改变了传统货物贸易的模式,在国际贸易中发挥着巨大作用。本文从电子商务对中
论文利用Labview软件模拟设计实验水箱液位控制系统的设计。该系统具有数据实时显示、存储和对水箱液位进行PID控制,并通过数据输出控制信号对液位信号实时控制等功能。通过
目的:慢性阻塞性肺疾病(Chronic Obstructive Pulmonary Disease,COPD)是一种具有气流受限不完全可逆、呈进行性进展的肺部疾病,与肺部对有害气体或颗粒的异常炎症反应有关,
武术一直以来深受学生喜爱,但由于传统教学方式方法的单一、枯燥,使得学生很难在武术学习过程中感受到乐趣和习得的成就感。移动互联网迅速发展,翻转课堂的兴起给武术的教学