基于主题模型与知识图谱的电子公文主题标引方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:thelkiss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
世界已经从信息时代逐步进入到大数据时代,海量数据中很大一部分是用自然语言记录的文本数据。而电子公文作为文本数据类型的一种,它是政府机关、企事业单位等形成、具有法律效力和规范体式的数字形式的文件。历年累积的电子公文归档保存后一般按照内容进行人工主题标引、分类组织或者建立专题数据库以方便检索和开发利用。但人工标引主题方式存在劳动量大、速度慢、标引不一致等弊端,因此需要研究电子公文主题自动标引方法。
  针对非结构化公文的主题分析和标引问题,本文提出一种融合主题模型和知识图谱技术的电子公文主题自动标引方法,与当前存在的主题自动标引方法相比,它将电子公文文档集作为一个整体识别主题,基于主题词表构建外部知识库以实现对识别的主题用规范化的正式主题词和范畴进行统一标引。本文研究的内容包括以下三个方面:
  (1)基于主题模型的电子公文主题分析研究。从整体的视角进行电子公文的主题分析,应用多种自然语言处理技术将其转换成文档语料库,采用主题模型进行主题识别与分析,包括融合主题词表语义特征和通用主题模型进行主题识别,以及综合共词网络特征和层次主题模型进行主题层次结构分析。
  (2)基于知识图谱的主题词表语义自动转换研究。基于知识图谱建立机器可识别的主题知识库,弥补主题模型方法在非结构化文本的主题标引中存在的背景知识不足问题,以增强主题标引的语义性。在主题词表语义化表示及知识图谱技术的基础上,构建一种利用知识图谱技术对传统纸质载体的叙词表进行语义化自动转换的方法,为电子公文主题的标引奠定坚实的知识基础。
  (3)电子公文主题标引研究。提出综合应用主题模型和主题词表知识图谱进行电子公文主题标引的方法。在应用主题模型进行主题分析的基础上,运用知识图谱技术借助主题词表外部知识来进行主题的标引工作,使用正式主题词及范畴进行规范、控制和统一组织。具体包括基于LDA和知识图谱的电子公文主题标引、基于hLDA和知识图谱的电子公文主题标引。
  本文创新点和贡献主要有:
  (1)对电子公文主题标引这一传统实践问题,提出了综合应用主题模型和知识图谱技术进行自动化标引的方法。将应用主题模型进行文本主题分析的数据类型扩展到电子公文灰色文献类型,应用知识图谱技术建立主题词知识库,为正式主题词标引工作提供了现代化的标引工具和知识服务。
  (2)提出从纸质版主题词表到网络知识库的语义化转换的方法。设计了面向电子公文主题自动标引的主题词表SKOS数据模型描述方案及其自动转换算法,设计了RDF/N3主题词表关联数据自动转换成知识图谱算法,并用Python编程语言实现上述算法。
  (3)完成《中国档案主题词表》语义转换任务,将其主表和范畴表部分的所有内容从传统纸质媒介形式转换成为图数据库存储的知识图谱形式,为图书、情报和档案学术界和管理实务界贡献了重要的基础数据集。
其他文献
档案是过去和现在的国家机构、社会组织以及个人从事政治、军事、经济、科学、技术、文化、宗教等活动直接形成的对国家和社会有保存价值的各种文字、图表、声像等不同形式的历史记录。它以其记录性和原始性集于一体的特点区别于一般的历史遗物、它具有定向积累和历史联系性特点、它具有可靠性并多具有单一性和稀缺性、它以其原始和孤本而珍贵的特点区别于其他出版物。正因档案如此重要且具有价值,才逐步发展起来了档案编研。档案编
科技成果是科技创新的智慧结晶,科技成果转化是为提高生产力水平而对科技成果所进行的后续试验、开发、应用、推广,直至形成新技术、新工艺、新材料、新产品,发展新产业等活动。区域科技成果转化即是某一区域范围的科技成果转化。区域科技成果转化是衔接科技创新与产业应用的关键环节,对于促进该地区或国家的社会经济可持续发展具有非常重要的作用。自党的十八大提出创新驱动发展战略以来,区域科技成果转化已成为创新驱动发展的
大科学时代,科学研究具有投资强度大、多学科交叉、实验设备昂贵、研究目标宏大等特点,加之科学问题复杂度的提升和科研人员专业化程度的不断提高,科研合作逐渐成为推动科学研究进步和科学技术发展的重要途径。随着世界经济、创新资源和创新活动的全球化,跨国家(地区)的国际科研合作越来越普遍,世界各国纷纷就特定的科学问题在世界范围内寻求合作伙伴,以与本国的资源达成优势互补。  伴随着科学国际化趋势的日益加深,国际
学术期刊的学术质量与同行评议有着密切的关系。同行评议在学术期刊的质量控制中一直发挥着十分重要的作用,但同行评议过程往往受到复杂因素的影响,并且伴随着与人的大规模合作互动,因此其质量难以被严格把控和管理,一直存在许多缺陷和问题。近年来,随着科学认知的不断深化,网络技术的飞速发展,这些缺陷和问题变得更加突出,造成的影响也日益恶劣,引发了学界的高度警惕。如何进行同行评议质量控制,如何实施可靠的同行评议质
学位
随着科学技术的发展,人类进入知识经济时代,知识更新周期越来越短。人类学习从一次性在学校接受教育,发展到终身学习。科研人员作为科技知识的生产者,尤其是自然科学研究人员,在科学技术的发展中发挥着重要的作用。技术发展推动着科学创新,而科学创新又促进技术的发展。在这种环境下,科技人才发展尤为重要。而作为知识源头的科研人员需要提升哪些科研素质,何种方式最有效,成为当前亟需解决的问题。  本文研究定位于面向自
学位
开放获取作为一种新型出版模式,对图书馆传统订购模式具有直接而重要的影响。它不仅成为科学研究的新型学术交流模式,也为图书馆提供信息服务和知识服务提供了新的挑战和机遇。从短期看,它有助于提升图书馆信息获取能力,改变图书馆信息资源结构和获取方式;从长期看,它可能从根本上改变学术交流模式,改变目前学术交流生态系统中各生态主体的功能和定位。  在此背景下,图书馆信息资源建设如何积极利用学术交流生态系统动态变
新型冠状病毒肺炎疫情正在给全球人类的生命健康、社会稳定、经济发展和地区安全造成严重的威胁,应当及时采取科学有效的应急响应措施来对抗疫情。科学技术能够为应急响应提供科学支撑。在突发公共卫生事件下,疾病的检测、诊断、治疗和疫苗等方面的科技进步,对于拯救生命、平息疫情、恢复秩序有着重要意义。而科研团体是否能够及时公开、迅速分享其相关的科研成果,又直接影响着全球科技战“疫”的步伐。目前,国内对该方面的了解
研究前沿(Research Front)是科学研究中最新、最具前瞻性和引领性的研究方向,其作为科技创新的突破口和新生长点,备受关注,尤其是在《国家创新驱动发展战略纲要》全面实施以来。面对科技创新发展新趋势,研究如何及早、准确识别研究前沿,预测未来方向和重点,对更好服务国家科技宏观决策、合理配置科技资源、帮助科研工作者及时把握科学研究动态,均具有重要意义。当前,研究前沿识别主要有基于引用、基于内容以
学位
传统引文分析主要考虑论文之间的引用数量联系,但引文之间存在着更为丰富的语义关联,如引用动机、引用情感倾向等。为了更加有效揭示论文之间的内容联系,论文提出引用对象的概念来描述论文与引文内容上的关联点,并探索应用当前信息技术的发展成果,实现引用对象的自动识别,揭示引文重要知识单元,有助于从语义角度评价引文的学术贡献。  论文梳理了国内外相关研究进展,总结提出存在两种引用对象——术语型引用对象和事实型引
学位
在传统学术交流机制中,科研过程中的“非正式交流”与以商业学术出版为代表的“正式交流”相互分离,致使原本贯穿科研过程的“研究产生交流、交流促进研究”连贯一体化的状态被破坏,多元交互的交流机制被碎片化甚至孤岛化。  随着数字内容和信息网络的发展,已经出现了以开放获取(Open Access,OA)为代表的学术信息传播的新形态和以社交媒体(Twitter、Facebook、LinkedIn、Resear
学位