论文部分内容阅读
随着Internet网络的日益普及,人们越来越依赖网络来获取各种信息,传统的信息发布和获取模式受到了巨大的冲击。同时,随着电子出版物的盛行,网络作为学习和科研的主要手段也越来越为广大的学生和科研工作者所推崇。
作为传统的知识获取主途径,图书馆也面临着数字传媒的挑战。人们可以借助互联网来方便、快捷地下载各种文档、教材,甚至是图书的电子版本。因此,数字图书馆的建设成为图书馆发展的大势所趋。为了使用户得到更加良好的使用体验,不断地完善查询结果的质量是数字图书馆建设的关键。
现今的数字图书馆中的查询系统基本上是以文本搜索引擎为模板,仅仅根据关键词的出现与否来给出查询结果。如果结果过于庞大,使用者往往浪费大量的精力在寻找需要的文献上,从而降低了科学研究的效率。那么,如何做到让使用者快速定位自己需要的文献呢?在现今的一些主流的商用搜索引擎上,已经出现了解决的方法:文本的分类/聚类。
本论文重点研究文本聚类在改善数字图书馆查询系统性能上的应用。论文的主要研究内容和创新成果如下:
1.阐述了文本聚类的基本概念和任务组成,针对聚类过程中的各个步骤分节介绍了关键技术要点,如文本表示、特征提取和相似度计算等。在了解基本的流程后,介绍了几种主要的聚类方法,分析了其优缺点。
2.提出了一种基于模糊C均值聚类的文本聚类方法(TS2FCM)。通过对代表文献主题的关键短语的提取来建立主题子空间,利用主题子空间中的文本向量来提取初始中心和初始隶属度矩阵。为了适应科学文献的特点,选取文献的标题、摘要和参考文献作为处理的对象,利用学习的方法来获得不同的词频权重。实验表明,所提出的TS2FCM算法取得了良好的聚类效果。
3.为了使用户对聚类后的各个类主题有更详细的了解,提出了一种基于聚类的文献自动综述方法,利用对文献摘要各个单句的重要性分析,抽取代表句来组成每个类的综述文本。