基于条件共现度的文本表示与特征抽取方法研究

来源 :大连理工大学 | 被引量 : 3次 | 上传用户:xuxinhuiaishu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本数据是信息的主要载体,是重要信息和知识的来源。面对海量的文本数据,如何快速有效地获取人们需要的信息和知识是当前亟待解决的问题。文本表示和特征抽取是整个文本挖掘流程中重要的基础性工作,能够为后续的文本挖掘任务的顺利实施提供良好的数据处理方法和技术支持。然而随着数据科学的发展,对文本挖掘技术有了更高的要求,尤其在文本语义挖掘层面。通过分析现有方法的优缺点,本研究结合文本语义建模分别对文本表示方法和特征抽取方法进行了研究,并将其应用于政策文本数据挖掘领域,其中分别从特征词排序和主题发现两个不同方面研究特征抽取方法。本文的主要研究工作如下:(1)为了得到直观、涵盖信息量全并且易于理解的文本表示结果,在词共现方法的基础上提出了基于条件共现度矩阵的文本表示方法。通过结合语言学中语义场理论,考虑文本语言组织时的语义结构大小,以及同一语义结构内两个词的语义相关和条件依赖关系,计算文本内任意两个词间的条件共现度,并基于形成的条件共现度矩阵进行文本表示。该表示方法不仅保留了单个词的统计信息,还对两个词的共现信息进行区分度量,用以突显文本重点表达的语义信息,对现有的词共现表示方法是一种有效地提升。最后通过在多个公共数据集上与多种文本表示方法的对比实验,验证了方法的有效性。(2)为了结合文本统计信息和结构信息对特征词重要性排序,提出了基于条件共现度词网络的特征词排序方法。文本中的词语会按照一定的组织结构进行编排以传递特定的语义主题信息,所以一篇自然语言文本中的词语之间会形成一种潜在的流形结构。通过构造原始文本中潜在的能够反映文本语义和结构信息的条件共现度词网络作为特征词间的流形结构,并以特征词的词频统计信息作为特征词初始权重,结合流形排序思想以及图学习理论进行特征词间的相似性学习,来对特征词的重要性进行排序。在公共语料和补充语料上的数值实验都验证了方法的有效性,该方法拓宽了图学习理论在文本挖掘领域的应用,也给单篇文本特征词排序提供了新的方法和策略。(3)为了解决传统主题模型中存在的语义部分丢失、主题概念模糊及主题语义交叉和覆盖等问题,提出了基于条件共现度的文本主题发现方法。首先结合文档中的语义结构及其独立性判定规则把文档拆分成多个描述单一主题的子文档;其次,根据子文档内特征词间的条件共现度大小,提取子文档内语义关联性强的组合特征词,并基于组合特征词对子文档进行特征词扩充与内容重构,形成新子文档;然后,通过对新子文档集的主题建模,得到新子文档集的“主题-词”分布以及每个新子文档的“文档-主题”分布:最后,结合新子文档的“文档-主题”分布,合并得到原始文档的“文档-主题”分布。实验结果验证了该方法能够提升主题发现效率,生成的组合特征词能够有效避免一词多义问题,并且能辅助主题语义归纳和总结。(4)将上述方法应用于政策文本内容特征抽取及社会变迁研究中。以1954年到2018年间的国务院政府工作报告作为政策文本语料,首先,根据不同的应用需求,提出相应的特征词选择方法,并对政策文本中的共性问题、关键内容、热点话题以及新涌现的内容进行了识别和抽取,从新涌现内容的角度研究了整体社会活力变化情况;其次,提出了一种时序文档聚类方法,并根据政策文本内容对政策所属的整个时间段划分,得到了与已有研究相同的划分结果;然后,结合复杂网络理论和时间段划分结果,挖掘出政策语料中特有的特征词序列模式;最后,对政策文本进行主题发现,并结合时间因素研究整个时间段内主题演化规律。基于条件共现度的文本挖掘方法,通过融合文本的统计信息、语义信息以及结构信息,使得文本表示方法、特征词排序方法以及主题发现方法具备有效分析和处理复杂文本数据的能力,并有效提升文本挖掘质量,为文本挖掘的发展提供新的技术和工具。从政策文本中提取共性问题、关键内容、热点话题、新词内容,并依据文本内容探究并发现社会活力变化、时间阶段分割、特征词时间序列模式、主题演化等社会变迁规律,挖掘结果可以提高政策制定者、政策研究者的知识获取效率,为其提供相应的决策支持。
其他文献
膀胱肿瘤抗原(Bladder tumor antigen,BTA)是一种16~165kd特异多肽组成的高分子复合物,又称为人补体因子H相关蛋白(human complement factor H related protein,HCFHrp).在多
目的:探讨真武汤加减治疗脾肾阳虚型慢性肾小球肾炎的临床疗效。方法:选取脾肾阳虚型慢性肾小球肾炎患者100例,将患者随机分为观察组和对照组各50例,对照组给予控制血压、保
文章综合讨论了各种因素对超高性能纤维增强混凝土力学性能的影响,结合硬化条件、粗集料、矿物掺合料、纤维性能等因素对纤维混凝土力学性能进行了研究,并且进一步介绍了高温
皮影戏作为传统动画之“雏形”,曾一度推动了我国动画产业的发展。然而,随着科技发展的日新月异,数字动画逐渐占据了艺术市场,导致传统皮影艺术濒临绝境。将传统皮影戏与计算
维生素D是一组具有生物活性的脂溶性类固醇衍生物,25-羟基维生素D3是它的代谢物中较为重要的一种,在儿童保健和多种儿童疾病的诊疗中具有重要意义。笔者就其含量测定及临床研
传统小学语文教学中,知识的输出形式往往是静态化、平面化、单一化的,由于学生认知能力的局限性,其对此类知识的内化效果也相对较弱。然而随着信息技术、通讯技术等现代科技
<正>提高港口集装箱装卸量的途径是很多的,其中劳动管理部门通过加强装卸定额管理,改进装卸定额
家庭是社会的细胞,弘扬中华文化首先要弘扬优秀的家风文化。如今“家风”那些事又被重新提起。中央电视台刚刚播出的纪录片《家风》,应时、及时。$$家风影响着一个家族每一代人
期刊
中日两国均使用汉字,但是在不同的文化环境下,两国人民对于相同汉字的文化认知会出现偏差,这将妨碍到中国文化的对外宣传。本文将基于归化异化理论,分析文化负载词的原文和译
近年来,无人机以其独特的优势受到各领域广泛关注,而无人机所执行的任务大多以对目标定位技术为基础,故而研究无人机对地面目标定位算法具有重要现实意义。本文首先研究了利