基于科学文献的数字图书馆中文本聚类的研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:wangxin3163
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet网络的日益普及,人们越来越依赖网络来获取各种信息,传统的信息发布和获取模式受到了巨大的冲击。同时,随着电子出版物的盛行,网络作为学习和科研的主要手段也越来越为广大的学生和科研工作者所推崇。 作为传统的知识获取主途径,图书馆也面临着数字传媒的挑战。人们可以借助互联网来方便、快捷地下载各种文档、教材,甚至是图书的电子版本。因此,数字图书馆的建设成为图书馆发展的大势所趋。为了使用户得到更加良好的使用体验,不断地完善查询结果的质量是数字图书馆建设的关键。 现今的数字图书馆中的查询系统基本上是以文本搜索引擎为模板,仅仅根据关键词的出现与否来给出查询结果。如果结果过于庞大,使用者往往浪费大量的精力在寻找需要的文献上,从而降低了科学研究的效率。那么,如何做到让使用者快速定位自己需要的文献呢?在现今的一些主流的商用搜索引擎上,已经出现了解决的方法:文本的分类/聚类。 本论文重点研究文本聚类在改善数字图书馆查询系统性能上的应用。论文的主要研究内容和创新成果如下: 1.阐述了文本聚类的基本概念和任务组成,针对聚类过程中的各个步骤分节介绍了关键技术要点,如文本表示、特征提取和相似度计算等。在了解基本的流程后,介绍了几种主要的聚类方法,分析了其优缺点。 2.提出了一种基于模糊C均值聚类的文本聚类方法(TS2FCM)。通过对代表文献主题的关键短语的提取来建立主题子空间,利用主题子空间中的文本向量来提取初始中心和初始隶属度矩阵。为了适应科学文献的特点,选取文献的标题、摘要和参考文献作为处理的对象,利用学习的方法来获得不同的词频权重。实验表明,所提出的TS2FCM算法取得了良好的聚类效果。 3.为了使用户对聚类后的各个类主题有更详细的了解,提出了一种基于聚类的文献自动综述方法,利用对文献摘要各个单句的重要性分析,抽取代表句来组成每个类的综述文本。
其他文献
在遥感探测中,因遥感仪器自身的偏振灵敏度的存在常常会对遥感信息产生有害的影响,因此希望尽量减小遥感仪器的偏振灵敏度。本文涉及的偏振灵敏度测试仪,可以对航天器的偏振
近年来,无线通信领域发展迅速,手持移动终端得到普及,各种移动多媒体新业务呼之欲出,越来越多的应用需要高速无线接入。由于无线传输受到信号衰落和噪声的影响,为了实现高数
扩频通信系统由于具有抗干扰能力强、保密性能好等优点而获得广泛应用。但其抗干扰能力受扩频因子的制约,当干扰功率超过扩频系统干扰容限时,必须采取抗干扰措施从而保证系统能
车牌自动识别系统是智能交通系统中的重要组成部分。在电子收费、车流监控、出入控制等场合都有着广泛的应用,对于整个智能交通系统的发展起着举足轻重的作用。由于问题的复杂
脉冲星是一种快速自转的中子星,其辐射信号周期稳定度极高,这一特性使得能够利用脉冲星为航天器提供位置、速度和时间等丰富的导航信息。在X射线脉冲星导航系统中,主要利用脉冲
倒立摆是一个典型的非线性、强耦合、多变量和自然不稳定的系统。对倒立摆的研究能有效的反映控制中的许多典型问题:诸如非线性问题、可镇定性、鲁棒性、随动性以及跟踪等许多
本文对安全操作系统的隐蔽信道测试问题进行了研究,首先介绍了安全操作系统测试中安全需求、安全策略、安全模型、国内外安全标准等内容;然后介绍了访问控制的实现方式、访问控
学位
随着电子、信息技术的发展,现代电子战要求侦察接收机必须要具有宽输入带宽、高灵敏度、高分辨率、大动态范围,能适应现代高密集的信号环境,能对接收到的数据实时或准实时处
无线移动自组织网络(MANET)作为一个无中心节点的通信网络,其网络拓扑图的无规则变化导致了MAC层协议设计成为了系统实现的关键。MAC层协议的提出是为了解决多个无线终端同时接