在线新闻话题识别中的聚类模型设计与聚类算法研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:feixingyuan1977
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的出现和普及,为人们提供的信息急剧膨胀,新闻报道则是其中的主要信息类型之一。在这种情况下,人们很难快捷准确地获取自己感兴趣的信息。而且与一个新闻话题相关的信息往往孤立地分散在不同的时间段和不同的地方。仅仅使用现有的技术,人们对某些事件难以做到全面的把握。话题识别与跟踪(Topic Detection andTracking,TDT)技术正是为了满足这种需要,它是一种研究如何识别新发生的新闻事件并跟踪事件后继发展动态的信息智能获取技术。它能帮助人们把分散的信息有效地汇集并组织起来,从整体上了解一个事件的全部细节以及该事件与其它事件之间的相关性。话题识别(Topic detection)是TDT的一个子任务,它的目的是从信息数据集中识别出当前未知的话题,并将一个话题的相关新闻报道聚合起来。  本文根据互联网新闻和话题识别任务的特点,研究了在线新闻话题识别的聚类策略和聚类算法。本文根据在线新闻话题的应用特性和对聚类的性能需求,归纳出在线新闻话题识别的聚类评价指标,通过该聚类评价指标,研究对比选择了聚类策略和聚类算法。  在线新闻话题识别的很多聚类研究同时使用了层次聚类方法和单遍聚类方法,本文根据在线新闻话题识别聚类需求,结合相关领域的研究成果,借鉴了层次聚类方法与单遍聚类方法结合的两层聚类策略思想,构建了一个在线新闻话题识别的聚类模型。  对于在线话题识别中的层次聚类算法,TDT的相关研究中常用的是一种基于组平均的GAC(group average clustering)方法。本文对文本聚类研究中的凝聚层次聚类算法进行了研究对比,根据在线新闻话题识别聚类评价指标,选择了组平均连锁算法(groupaverage linkage)和Wards算法进行在线新闻话题识别的层次聚类过程。通过实验,对比了这两种不同的凝聚层次聚类算法的聚类效果,同时对于算法中的基本参数进行实验分析选择。实验数据表示,Wards算法在综合评价指标上要明显优于组平均连锁算法,聚类算法中的特征词维数和聚类阈值则对聚类性能影响不大。
其他文献
摔跤运动是一项对身体素质要求较高的项目,涉及诸多技术要领,尤其在青少年摔跤运动训练中,应注重运用科学的训练方法,保证摔跤训练的科学性与合理性,帮助青少年切实掌握摔跤
   本文通过以海南为例的分析来研究热带区域农业信息化问题,借鉴国内外农业信息化理论与经验,并结合海南省省情,努力探索热带区域农业信息化的新途径新方法,推进农业产业结构
足球是最受大学生喜爱的运动项目之一,不仅能强身健体,还能促进学生全面发展.但相关调查研究指出,当前高校体育教师在足球训练教学方面受到传统思想影响,无法紧跟时代发展步
排球运动一直被列为高校体育教学的重要内容之一,高校排球教学内容的设计和教学质量的提高,要求教师在高校排球教学中积极创新,而游戏教学法作为排球教学与训练的一种形式,它
信息化浪潮滚滚而来,使人类社会的各领域发生了深刻的变革。信息资源成为影响经济社会发展的重要战略资源。信息化水平的高低成为各国综合国力强弱的标志,各国纷纷制定本国的信息化战略,积极发展信息化,抢占战略制高点。我国也制定了适合我国国情的信息化发展战略。以收集、整理、传播信息资源为主要工作的公共图书馆,是社会信息服务系统的重要组成部分,其发展必然要受到社会信息化这一特定历史阶段的影响和制约。图书馆事业是
2015年根据广西医科大学教育教学综合改革方案,同时结合《全国普通高等学校体育课程指导纲要》和《高等学校体育工作基本标准》,我校对公共体育课实施“课内外一体化”教学改
随着我国网球体育事业的发展和进步,网球这项运动受到了人们的更多喜爱,并且人们开始对少儿网球启蒙训练方面的工作产生更多重视.为了打好网球,培养出更高水平的网球运动员,
基于平板电脑的现代化教学实践已经得到大范围应用,在小学体育教学中的应用有利于提高学生的课堂参与度.本文将对传统教育模式下,小学体育教学学生参与度的主要制约因素进行
提高教学有效性是新时期小学体育教学的重要目标之一,但是由于传统的教学方法过于保守、单一与枯燥,难以激起学生参与体育教学的热情,阻碍了教学有效性的提高.而体育游戏是一
学术规范是期刊学术质量的有力保障,是保障学术质量和科学诚信的重要基础,为了有效地控制论文质量,国际上对期刊论文的规范性进行了一定程度的约束。然而,科学并不是完全纯粹的,权