【摘 要】
:
在如今信息爆炸的时代,网络上的信息资源无所不有、无所不包,这也给人们如何能迅速、准确、全面地获得自己感兴趣的信息提出了很大的挑战。话题检测和跟踪技术就是在这种情况下
论文部分内容阅读
在如今信息爆炸的时代,网络上的信息资源无所不有、无所不包,这也给人们如何能迅速、准确、全面地获得自己感兴趣的信息提出了很大的挑战。话题检测和跟踪技术就是在这种情况下应运而生的,目前它已经成为自然语言处理中的一个研究热点,旨在帮助人们识别自己感兴趣的网络新闻话题和对已有的话题进行后续跟踪。本文在前人研究的基础上,对话题跟踪任务中一个更加细化的问题--文本话题演进进行了深入的研究和讨论,提出了解决话题演进的方案,主要的研究内容包括以下几个方面:
首先,本文深入探讨了国内外关于话题跟踪和话题演进技术的研究现状,重点分析了国内外对自适应话题跟踪的研究和国内学者对话题演进分析的研究。
然后,在前人研究的基础上,本文对已有的话题模型进行了改进,提出了基于话题多质心模型和新颖度计算思想的话题演进问题解决方案。使用多质心模型来表征话题随时间推移演进出来的各个重心,通过比较新来的报道与话题各个质心的相似度来判断报道是否属于某个话题;若属于某个话题,则找到与该报道最相近的话题质心,然后使用新颖度来计算新来报道的新颖特征项百分比,进而判断是否建立或者更新话题质心。另外,本文对新闻报道中重要的时间信息和命名实体加以利用,来提高话题跟踪的性能,提出了基于动态阈值的话题多质心模型。然后,结合Single Pass增量聚类算法,文中提出了文本话题演进分析的整套技术流程。
最后,本文通过实验对提出的基于时间信息的话题多质心模型和新颖度计算思想在解决话题演进问题中的有效性进行验证。总共设计了两个实验方案:实验一比较了基于动态阈值的多质心模型和基于固定阈值的多质心模型在话题跟踪任务中的性能差异;实验二验证了话题多质心模型在呈现话题演进中的有效性。实验证明,该套方案具有较好的话题跟踪的性能,并且能清晰地呈现话题演进的过程。
其他文献
以巴西的图书馆信息资源共享模式为研究背景,从巴西图书馆共享模式概况、组织形式及管理体制、联盟经费、技术标准、共享内容与成果等方面进行研究,总结分析巴西的图书馆信息
利用分类主题一体化的主题词表构建领域本体,并通过概念间的关系定义及语义相似度公式,引入调整因子,确定概念相似度算法,再通过余弦系数法进一步得到文献间的相似度。对于本
近年来,福建省实验动物科技工作在省科技行政部门直接领导下得到快速发展,但在前沿高精技术研究水平、人源化动物模型自主研发能力及“3R”研究等方面还存在一定差距.精准谋
阐述港澳地区公共图书馆应用“超市化”管理,具有舒适休闲的服务环境、人性化与情感化的服务管理、人工与自助兼备的服务形式、共建共享的服务资源、丰富多样的服务内容等服
本文主要对我国企业网络信息发布方式进行了研究。首先,文章介绍了网络信息发布方式,并将网络信息发布方式与传统信息发布方式进行了比较,接着对各种网络信息发布方式从主动
美国教育委员会是全美最具规模的大学协会,是大学国际化的重要参与者之一.为提升大学的国际竞争力,美国教育委员会提出全面国际化理念,通过为大学定制全面国际化方案、创建引
通过对2001年-2009年间发表在CSSCI期刊上的832篇电子政务学术论文进行分析,可以了解近年来电子政务在我国的研究现状和发展趋势。研究发现,研究内容主要集中于电子政务的技
针对当前高校图书馆网站前端加载速度缓慢,有时甚至拒绝访问等问题,利用Page Speed插件对我国20所“211工程”院校图书馆网站前端性能的现状进行调查与分析,总结高校图书馆网
我尝试把把常规的教学媒体和现代的电化教学媒体进行优化组合,发挥其各自最佳功能, 把包含教学信息的图片、动画、声音、影像、文字等,形象直观地呈现给学生,最大限度地刺 激学生的视听感官和大脑,并发挥媒体的交互性能,构建出具有教育性、创造性、实践性的教 学情境与活动,从而激发学生的兴趣,不断提高课堂教学效率,积累了一些科学使用多种媒体 的经验,愿与大家交流共享。 一、电教媒体技术为小学数学教学提供最理
在科学素养导航图的启发下提出信息素质导航图的概念,分析信息素质导航图的组成、功能以及研究基础。抽取、划分、关联知识单元是信息素质导航图的研究基础;分析用户典型工作