【摘 要】
:
话题发现与跟踪(Topic Detection and Tracking, TDT)是一项由国际公开评测驱动的研究,旨在依据事件对语音和文本信息进行分析和组织。自1996年启动以来,该研究受到普遍关注,
【机 构】
:
北京城市学院人工智能研究所,北京 100083
【出 处】
:
2007年全国网络与信息安全技术研讨会
论文部分内容阅读
话题发现与跟踪(Topic Detection and Tracking, TDT)是一项由国际公开评测驱动的研究,旨在依据事件对语音和文本信息进行分析和组织。自1996年启动以来,该研究受到普遍关注,取得巨大进步,也遇到诸多困难。大部话题发现与跟踪研究着眼于TDT评测的需要,以提高在TDT语料上的精度为目标,在面对实际数据时效果难以令人满意。本文将各种常用的聚类方法和比较策略组合起来形成四种实验方案,并针对四种实验方案在处理实际数据的表现进行比较分析。实验结果证明在面向实验数据时,带缓冲的改进single-pass方法和average-link的组合能取得较好的精度:分治聚类方法的引入则可以大幅度减少时间消耗。
其他文献
Blog作为一种新的网络传播方式,迅速兴起和发展,已经越来越受到用户的关注。因此,迫切需要找到一种自动将Blog网页区别于其它web页面的方法,以便针对Blog语料进行内容抽取、
近年来,乳腺癌治疗理念更加人性化、个体化。但以往谈论的个性化更多的是体现在分子分型基础上的内科治疗选择,化疗、内分泌治疗、靶向治疗、基因治疗的长足进步为此提供了良
本文通过对自然文本统计模型和特性的分析,指出隐藏消息后可能对文本统计特性带来的变化,并提出了基于AdaBoost的通用检测算法。文章抽取文本的5个基本统计特征量为分类特征,
无监督的聚类算法在中文网络信息处理中有着广泛的应用。由于存在大量的中文词语,适当的特征提取算法,可以降低计算资源消耗,提高聚类质量。但当前使用的无监督特征选取算法
在目前的Web信息提取技术中,很多都是基于HTML结构的,由于HTML结构的经常变化,使提取模板需要经常更新,而提取模板的更新需要很多领域知识。本文提出一种基于显示属性的Web信
WEB文档聚类在新闻信息检索领域起到重要的作用。但由于新闻领域不断涌现出一些新的名词。现有的技术在文档特征抽取和权重计算、类标签生成方面存在不足,导致聚类质量下降。
随着中文网络的快速发展,对于网络中海量中文数据的实时处理成为一个引人关注的话题,而中文文本的自动分词技术是中文信息处理系统的重要基础部分,直接关系到系统的处理效率
随着网络技术发展,根据用户兴趣进行网络信息过滤的需求越来越大。网络信息过滤的核心技术是分类算法的应用,即根据专家事先标记的样例建立用户兴趣描述模型,应用模型实现信
一九八○年四月英国第一次颁发国家书籍奖。这项奖是一九七九年六月份由艺术协会发起的。艺术协会是英国政府属下的一个机构,它的宗旨是支持和鼓励英国的作家、艺术家、音乐
汤草元:昨天晚上大家看了《红色宣传員》,这是一个很好的戏。剧本好,演出也好。看后感受一定很多。今天是上海市妇女联合会和中国戏剧家协会上海分会联合召开的座談会。邀請