论文部分内容阅读
世界已经从信息时代逐步进入到大数据时代,海量数据中很大一部分是用自然语言记录的文本数据。而电子公文作为文本数据类型的一种,它是政府机关、企事业单位等形成、具有法律效力和规范体式的数字形式的文件。历年累积的电子公文归档保存后一般按照内容进行人工主题标引、分类组织或者建立专题数据库以方便检索和开发利用。但人工标引主题方式存在劳动量大、速度慢、标引不一致等弊端,因此需要研究电子公文主题自动标引方法。
针对非结构化公文的主题分析和标引问题,本文提出一种融合主题模型和知识图谱技术的电子公文主题自动标引方法,与当前存在的主题自动标引方法相比,它将电子公文文档集作为一个整体识别主题,基于主题词表构建外部知识库以实现对识别的主题用规范化的正式主题词和范畴进行统一标引。本文研究的内容包括以下三个方面:
(1)基于主题模型的电子公文主题分析研究。从整体的视角进行电子公文的主题分析,应用多种自然语言处理技术将其转换成文档语料库,采用主题模型进行主题识别与分析,包括融合主题词表语义特征和通用主题模型进行主题识别,以及综合共词网络特征和层次主题模型进行主题层次结构分析。
(2)基于知识图谱的主题词表语义自动转换研究。基于知识图谱建立机器可识别的主题知识库,弥补主题模型方法在非结构化文本的主题标引中存在的背景知识不足问题,以增强主题标引的语义性。在主题词表语义化表示及知识图谱技术的基础上,构建一种利用知识图谱技术对传统纸质载体的叙词表进行语义化自动转换的方法,为电子公文主题的标引奠定坚实的知识基础。
(3)电子公文主题标引研究。提出综合应用主题模型和主题词表知识图谱进行电子公文主题标引的方法。在应用主题模型进行主题分析的基础上,运用知识图谱技术借助主题词表外部知识来进行主题的标引工作,使用正式主题词及范畴进行规范、控制和统一组织。具体包括基于LDA和知识图谱的电子公文主题标引、基于hLDA和知识图谱的电子公文主题标引。
本文创新点和贡献主要有:
(1)对电子公文主题标引这一传统实践问题,提出了综合应用主题模型和知识图谱技术进行自动化标引的方法。将应用主题模型进行文本主题分析的数据类型扩展到电子公文灰色文献类型,应用知识图谱技术建立主题词知识库,为正式主题词标引工作提供了现代化的标引工具和知识服务。
(2)提出从纸质版主题词表到网络知识库的语义化转换的方法。设计了面向电子公文主题自动标引的主题词表SKOS数据模型描述方案及其自动转换算法,设计了RDF/N3主题词表关联数据自动转换成知识图谱算法,并用Python编程语言实现上述算法。
(3)完成《中国档案主题词表》语义转换任务,将其主表和范畴表部分的所有内容从传统纸质媒介形式转换成为图数据库存储的知识图谱形式,为图书、情报和档案学术界和管理实务界贡献了重要的基础数据集。
针对非结构化公文的主题分析和标引问题,本文提出一种融合主题模型和知识图谱技术的电子公文主题自动标引方法,与当前存在的主题自动标引方法相比,它将电子公文文档集作为一个整体识别主题,基于主题词表构建外部知识库以实现对识别的主题用规范化的正式主题词和范畴进行统一标引。本文研究的内容包括以下三个方面:
(1)基于主题模型的电子公文主题分析研究。从整体的视角进行电子公文的主题分析,应用多种自然语言处理技术将其转换成文档语料库,采用主题模型进行主题识别与分析,包括融合主题词表语义特征和通用主题模型进行主题识别,以及综合共词网络特征和层次主题模型进行主题层次结构分析。
(2)基于知识图谱的主题词表语义自动转换研究。基于知识图谱建立机器可识别的主题知识库,弥补主题模型方法在非结构化文本的主题标引中存在的背景知识不足问题,以增强主题标引的语义性。在主题词表语义化表示及知识图谱技术的基础上,构建一种利用知识图谱技术对传统纸质载体的叙词表进行语义化自动转换的方法,为电子公文主题的标引奠定坚实的知识基础。
(3)电子公文主题标引研究。提出综合应用主题模型和主题词表知识图谱进行电子公文主题标引的方法。在应用主题模型进行主题分析的基础上,运用知识图谱技术借助主题词表外部知识来进行主题的标引工作,使用正式主题词及范畴进行规范、控制和统一组织。具体包括基于LDA和知识图谱的电子公文主题标引、基于hLDA和知识图谱的电子公文主题标引。
本文创新点和贡献主要有:
(1)对电子公文主题标引这一传统实践问题,提出了综合应用主题模型和知识图谱技术进行自动化标引的方法。将应用主题模型进行文本主题分析的数据类型扩展到电子公文灰色文献类型,应用知识图谱技术建立主题词知识库,为正式主题词标引工作提供了现代化的标引工具和知识服务。
(2)提出从纸质版主题词表到网络知识库的语义化转换的方法。设计了面向电子公文主题自动标引的主题词表SKOS数据模型描述方案及其自动转换算法,设计了RDF/N3主题词表关联数据自动转换成知识图谱算法,并用Python编程语言实现上述算法。
(3)完成《中国档案主题词表》语义转换任务,将其主表和范畴表部分的所有内容从传统纸质媒介形式转换成为图数据库存储的知识图谱形式,为图书、情报和档案学术界和管理实务界贡献了重要的基础数据集。