话题聚类研究及其应用

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:myxing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几十年来,互联网行业蓬勃发展,网络信息量大大增加。涵盖事件多、涉及层面广的互联网新闻已经成为人们获取新闻消息的主流渠道。但是对于同一个话题,报道往往因媒体的立场和水平会有不同的侧重点,因此建立以话题为单位的信息存储形式、全面了解事件的起因、发展等已经成为当前的研究热点。针对网络新闻报道持续时间长、涉及层面广、涵盖事件多等特点,本课题主要研究如何建立一种面向网络新闻报道的话题检测模型,可以快速、准确地检测出新话题,并将同一话题类的相关报道汇聚在一起。论文的主要研究工作和创新点如下:第一,针对传统谱聚类算法需要人为输入尺度参数这一缺陷,提出了一种改进的自适应谱聚类算法。该算法可以根据样本空间自动确定尺度参数,不再需要人为输入。传统的谱聚类算法则需要人们不断地修改尺度参数值,然后选取最优解,具有一定的经验性,而且需要耗费大量的时间,不利于大数据量的处理。采用低维数据进行实验,算法的效率得到了提升,也取得了较好的聚类效果。第二,提出一种基于改进的自适应谱聚类算法的话题聚类算法,实验验证该算法的有效性。将论文提出的改进的自适应谱聚类算法用于话题聚类算法中。实验结果证明基于自适应谱聚类算法的话题聚类算法得到了更好的聚类结果,验证了自适应谱聚类算法对高维的新闻报道聚类同样有效。第三,提出一种基于在线增量式聚类算法的二级聚类策略,算法性能得到了提升。该策略在原有的话题层与报道层两层结构中加入子话题层,采用二级聚类方法,并将时间因子加入到聚类过程中,提出基于时间的预聚类,有效降低了聚类的计算复杂度。本文通过以上三点的研究工作,改进了谱聚类算法,提出了话题聚类的二级聚类策略,对于提升话题聚类的准确度具有一定的参考价值。
其他文献
该文详细探讨了小波变换在数据压缩领域中的应用,涉及到的主要问题有:小波变换的特性分析、小波变换静止图象编码和小波变换在运动图象中的应用.近年来,小波变换被认为比传统
由白粉菌Erysiphe graminis DC引起的小麦白粉病是我国小麦生产中的严重病害。它可导致大规模的粮食减产,严重地威胁着我国的粮食安全。因此,迫切需要应用现代分子生物学的方
本文对MAL1启动子克隆与功能分析及α-amy基因表达载体构建与分泌表达进行了研究。主要成果如下: 1.克隆了MAL1启动子,以Zeocin抗性基因为报告基因构建了一系列质粒,证明了这
本文介绍了项目管理方面的内容,包括项目管理特点,工程项目管理存在的问题,建筑工程施工过程中的解决方法等内容.
该文讨论了玻纤温度控制系统的主要组成,并对其各个环节进行了详细论述,评估了整个系统的最佳调节能数,分析了系统的稳定性,并对其实施方法进行了研究.该课题的实现,为解决玻
学位
随着我国社会的不断发展、改革的不断深入,国企作为我国经济重要的组成部分,也发生了很大的变化.企业文化是核心竞争力中最难被模仿的,也是凸显企业底蕴推进企业发展非常重要
随着国有企业的不断发展,基层党组织的作用日益突出,其发挥着凝聚人心、服务职工、推动发展、促进和谐的重要作用.在国有企业中,基层党建工作作为独特的政治资源,不仅能够发
随着我国经济的快速发展,化工行业发挥着越来越大的作用.化工行业属于一种高危行业,在生产及操作过程中潜在着许多危险因素.在化工生产操作中,由于化工生产原材料的易燃易爆