论文部分内容阅读
信息组织方法是针对信息检索的需要,对信息资源进行内容分析、标引、处理,最终使得信息资源有序化的方法。信息组织方法在互联网的应用服务中发挥巨大作用。当前信息组织方法存在的问题是:由于主题法、分类法或分类主题一体化方法依赖于大量的人工参与,使得绝大多数机构面临人力、物力和财力资源不足的困境。传统信息组织方法置身于互联网海量数据的环境中,无法充分、及时地为满足用户信息需求提供便利。另一方面,数据挖掘、机器学习等人工智能技术,在互联网应用服务中发挥人工无法替代的作用的同时,由于存在高维数据计算问题、并且缺乏充分的主题控制和语义理解机制,导致应用服务过程中难以及时进行响应、出现大量的信息噪声,从而影响服务质量。语义网的理论与应用的目标就是解决当前互联网缺乏语义理解这一问题。作为语义网理论与应用中的基础性工作,本体构建本身也同样面临着传统信息组织方法中存在的问题。
针对传统信息组织方法存在的困境、一般文本挖掘方法存在高维数据计算并缺乏主题控制问题、以及互联网应用服务质量提升的迫切需求,信息组织方法与人工智能技术中的学习方法的有效融合已是当务之急。信息组织方法中的主题法与数据挖掘、机器学习中的聚类方法的结合,使得主题聚类方法应运而生。主题提取是一项基础性的信息提取工作,主题聚类则是以主题提取为前提的信息聚类过程。提高主题提取、主题聚类的质量与实用化程度是当前迫切需要解决的问题。
本文从主题角度出发,提出主题聚类方法,指出主题聚类中存在的五个方面的问题,并给出解决的方法,同时进行基于主题聚类的相关应用研究。
主题聚类中存在的五个方面的问题分别为:如何增强主题提取评估的可靠性并降低主题提取评估成本?如何提高主题提取的实用性?如何提高聚类对象相似度计算的可靠性?如何提高基于样本加权的文本聚类方法的实用性?如何增强文本聚类结果的可读性?
主题聚类的研究具有重要的理论创新与实际应用意义。本文就上述的五个方面的问题进行深入研究,创新性研究成果概括如下。
1.提出自动标引的通用评价模型。针对常规自动标引评价方法存在的评价结果不能完全反映真实标引结果、以及评价成本高的情况,本文提出一种通用的自动标引评价模型,该模型有效利用外部资源,根据有参照情况与无参照情况,分别对标引结果进行评价,增加评价的可靠性并降低评价的成本。
2.提出基于机器学习的关键词自动提取算法。为了有效利用标引对象的特征,并考虑到标引可以转换为序列标注问题,本文利用条件随机场模型进行关键词的自动提取研究;融合多个标引模型的标引结果进行投票学习,提出基于集成学习策略的自动标引方法。实验结果表明该方法在一定程度上能改善自动标引的性能。本文还提出基于Citation-KNN的自动赋词标引算法,提高赋词标引的实用化程度。
3.提出基于多层特征与基于多语境的聚类对象相似度计算方法。针对计算字符串相似度传统方法的不足之处,本文提出以相似元作为字符串的基本处理单元,综合考虑相似元的字面、语义及统计关联等多层特征的字符串相似度计算方法。实验结果表明该算法的有效性。通常,某一查询式在不同的语境下,从不同侧面反映了该查询式的语义,本文利用语料库、释义词典、用户搜索日志作为查询式的不同的语境,进行基于多语境的查询式相似度计算方法,并将该算法用于查询词的相关词的自动获取应用中。
4.提出基于样本加权的文本聚类算法。作为一种最近才引起人们注意的算法,样本加权聚类算法还存在一些需要解决的问题,例如聚类对象之间的结构信息对样本加权聚类是否有帮助,如何将结构信息自动转换为样本或对象的权重?针对该问题,本文以学术论文为聚类对象,以K-Means、Fuzzy C-Means算法为聚类算法基础,利用论文之间的引用关系计算每篇论文的PageRank值,并将其作为权重,提出一种基于样本加权的新的文本聚类算法。实验结果表明,基于论文PageRank值加权的聚类算法能改善文本聚类效果。本文利用该算法进行两个方面的应用,即基于主题聚类的主题数字图书馆的设计与实现,基于主题聚类的学科热点的检测。
5.提出基于机器学习的文本聚类结果的描述算法。标注文档集合聚类后生成的类簇,是主题聚类应用中一项重要并富有挑战性的任务。针对文本聚类结果可读性较弱问题,本文提出了一种增强聚类结果的可理解性与可读性的算法,即基于支持向量机等机器学习方法的文本聚类结果描述算法。为了进一步提高类簇描述词的质量,本文提出一种基于DCF-DCL组合策略的文本聚类结果描述算法。实验结果表明这两个算法所取得的效果要优于常规的聚类结果描述方法。本文综合利用主题提取、文本聚类、聚类描述等方法用于搜索结果聚类中。
关键词:主题聚类,自动标引,标引评价,相似度计算,样本加权聚类,主题数字图书馆,学科热点检测,聚类描述,搜索结果聚类