主题聚类及其应用研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:yuanwenrui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息组织方法是针对信息检索的需要,对信息资源进行内容分析、标引、处理,最终使得信息资源有序化的方法。信息组织方法在互联网的应用服务中发挥巨大作用。当前信息组织方法存在的问题是:由于主题法、分类法或分类主题一体化方法依赖于大量的人工参与,使得绝大多数机构面临人力、物力和财力资源不足的困境。传统信息组织方法置身于互联网海量数据的环境中,无法充分、及时地为满足用户信息需求提供便利。另一方面,数据挖掘、机器学习等人工智能技术,在互联网应用服务中发挥人工无法替代的作用的同时,由于存在高维数据计算问题、并且缺乏充分的主题控制和语义理解机制,导致应用服务过程中难以及时进行响应、出现大量的信息噪声,从而影响服务质量。语义网的理论与应用的目标就是解决当前互联网缺乏语义理解这一问题。作为语义网理论与应用中的基础性工作,本体构建本身也同样面临着传统信息组织方法中存在的问题。   针对传统信息组织方法存在的困境、一般文本挖掘方法存在高维数据计算并缺乏主题控制问题、以及互联网应用服务质量提升的迫切需求,信息组织方法与人工智能技术中的学习方法的有效融合已是当务之急。信息组织方法中的主题法与数据挖掘、机器学习中的聚类方法的结合,使得主题聚类方法应运而生。主题提取是一项基础性的信息提取工作,主题聚类则是以主题提取为前提的信息聚类过程。提高主题提取、主题聚类的质量与实用化程度是当前迫切需要解决的问题。   本文从主题角度出发,提出主题聚类方法,指出主题聚类中存在的五个方面的问题,并给出解决的方法,同时进行基于主题聚类的相关应用研究。   主题聚类中存在的五个方面的问题分别为:如何增强主题提取评估的可靠性并降低主题提取评估成本?如何提高主题提取的实用性?如何提高聚类对象相似度计算的可靠性?如何提高基于样本加权的文本聚类方法的实用性?如何增强文本聚类结果的可读性?   主题聚类的研究具有重要的理论创新与实际应用意义。本文就上述的五个方面的问题进行深入研究,创新性研究成果概括如下。   1.提出自动标引的通用评价模型。针对常规自动标引评价方法存在的评价结果不能完全反映真实标引结果、以及评价成本高的情况,本文提出一种通用的自动标引评价模型,该模型有效利用外部资源,根据有参照情况与无参照情况,分别对标引结果进行评价,增加评价的可靠性并降低评价的成本。   2.提出基于机器学习的关键词自动提取算法。为了有效利用标引对象的特征,并考虑到标引可以转换为序列标注问题,本文利用条件随机场模型进行关键词的自动提取研究;融合多个标引模型的标引结果进行投票学习,提出基于集成学习策略的自动标引方法。实验结果表明该方法在一定程度上能改善自动标引的性能。本文还提出基于Citation-KNN的自动赋词标引算法,提高赋词标引的实用化程度。   3.提出基于多层特征与基于多语境的聚类对象相似度计算方法。针对计算字符串相似度传统方法的不足之处,本文提出以相似元作为字符串的基本处理单元,综合考虑相似元的字面、语义及统计关联等多层特征的字符串相似度计算方法。实验结果表明该算法的有效性。通常,某一查询式在不同的语境下,从不同侧面反映了该查询式的语义,本文利用语料库、释义词典、用户搜索日志作为查询式的不同的语境,进行基于多语境的查询式相似度计算方法,并将该算法用于查询词的相关词的自动获取应用中。   4.提出基于样本加权的文本聚类算法。作为一种最近才引起人们注意的算法,样本加权聚类算法还存在一些需要解决的问题,例如聚类对象之间的结构信息对样本加权聚类是否有帮助,如何将结构信息自动转换为样本或对象的权重?针对该问题,本文以学术论文为聚类对象,以K-Means、Fuzzy C-Means算法为聚类算法基础,利用论文之间的引用关系计算每篇论文的PageRank值,并将其作为权重,提出一种基于样本加权的新的文本聚类算法。实验结果表明,基于论文PageRank值加权的聚类算法能改善文本聚类效果。本文利用该算法进行两个方面的应用,即基于主题聚类的主题数字图书馆的设计与实现,基于主题聚类的学科热点的检测。   5.提出基于机器学习的文本聚类结果的描述算法。标注文档集合聚类后生成的类簇,是主题聚类应用中一项重要并富有挑战性的任务。针对文本聚类结果可读性较弱问题,本文提出了一种增强聚类结果的可理解性与可读性的算法,即基于支持向量机等机器学习方法的文本聚类结果描述算法。为了进一步提高类簇描述词的质量,本文提出一种基于DCF-DCL组合策略的文本聚类结果描述算法。实验结果表明这两个算法所取得的效果要优于常规的聚类结果描述方法。本文综合利用主题提取、文本聚类、聚类描述等方法用于搜索结果聚类中。   关键词:主题聚类,自动标引,标引评价,相似度计算,样本加权聚类,主题数字图书馆,学科热点检测,聚类描述,搜索结果聚类  
其他文献
网络评估是企业知识网络研究中的重要内容,完整的企业知识网络评估应吸收借鉴社会网络分析(SNA)、基于结果管理(RBM)、结果测绘(outcome mapping)等多种评价方法,涵盖预评估
知识发掘是撷取隐含、有用、未被发掘、有潜在价值的知识资源的一种过程,采用先进和传统的技术、方法和手段,对数据库内外的知识进行系统分析、挖掘、发现和利用,区别于数据
“建设社会主义现代化强国,对教师队伍建设提出新的更高要求,也对全党全社会尊师重教提出新的更高要求.”在2018年9月10日教师节当天召开的全国教育大会上,习近平总书记发表
期刊
高中信息技术这门课是从该课程的特点和内容出发,主要是为了培养学生分析问题能力和解决问题的能力,信息技术具有很强的可操作性、应用性和实用性,所以必须要重视这门课程,如
提出一种借助主题爬虫自动从返回的相关网页进行本体非分类关系学习的框架与方法.针对利用互联网进行本体学习的特点,所用到的主要方法是词频、共现统计和分割聚类算法K-Mean
针对传统信息检索模型不能很好满足用户需求的问题,在分析现有相关研究的基础上,提出基于领域Ontology的知识检索模型.通过构建领域Ontology,对文档进行语义标注,对查询请求
在共被引分析中,还有诸多问题未解决,如原始数据是否需要标准化,选择何种相似性测度方式更为准确可靠。从理论分析和实证研究两个方面探讨期刊共被引相似性测度问题,得出期刊
信息是政府决策的基础。本文通过对政府决策的信息保障理论和我国中央政府决策的信息保障实践的研究,深入分析了信息保障的各要素、各要素运行方式等问题,认为应当完善我国中央
学位
目的 探讨胰岛素泵治疗的1型糖尿病(type 1 diabetes mellitus,T1DM)患儿的血糖控制情况,并研究影响血糖达标的因素.方法 收集我院2017年1月至2018年12月使用胰岛素泵治疗的T
目的 评估Notch配体Dll-4在膀胱移行细胞癌中的表达及临床意义.方法 70例膀胱移行细胞癌进行免疫组化检测评估Dll-4在膀胱癌标本中的表达情况,同时采用RT-PCR和Western blot