论文部分内容阅读
随着互联网的出现和普及,为人们提供的信息急剧膨胀,新闻报道则是其中的主要信息类型之一。在这种情况下,人们很难快捷准确地获取自己感兴趣的信息。而且与一个新闻话题相关的信息往往孤立地分散在不同的时间段和不同的地方。仅仅使用现有的技术,人们对某些事件难以做到全面的把握。话题识别与跟踪(Topic Detection andTracking,TDT)技术正是为了满足这种需要,它是一种研究如何识别新发生的新闻事件并跟踪事件后继发展动态的信息智能获取技术。它能帮助人们把分散的信息有效地汇集并组织起来,从整体上了解一个事件的全部细节以及该事件与其它事件之间的相关性。话题识别(Topic detection)是TDT的一个子任务,它的目的是从信息数据集中识别出当前未知的话题,并将一个话题的相关新闻报道聚合起来。 本文根据互联网新闻和话题识别任务的特点,研究了在线新闻话题识别的聚类策略和聚类算法。本文根据在线新闻话题的应用特性和对聚类的性能需求,归纳出在线新闻话题识别的聚类评价指标,通过该聚类评价指标,研究对比选择了聚类策略和聚类算法。 在线新闻话题识别的很多聚类研究同时使用了层次聚类方法和单遍聚类方法,本文根据在线新闻话题识别聚类需求,结合相关领域的研究成果,借鉴了层次聚类方法与单遍聚类方法结合的两层聚类策略思想,构建了一个在线新闻话题识别的聚类模型。 对于在线话题识别中的层次聚类算法,TDT的相关研究中常用的是一种基于组平均的GAC(group average clustering)方法。本文对文本聚类研究中的凝聚层次聚类算法进行了研究对比,根据在线新闻话题识别聚类评价指标,选择了组平均连锁算法(groupaverage linkage)和Wards算法进行在线新闻话题识别的层次聚类过程。通过实验,对比了这两种不同的凝聚层次聚类算法的聚类效果,同时对于算法中的基本参数进行实验分析选择。实验数据表示,Wards算法在综合评价指标上要明显优于组平均连锁算法,聚类算法中的特征词维数和聚类阈值则对聚类性能影响不大。