一种改进K-means聚类算法在多文档文摘中的应用

来源 :第三届全国信息检索与内容安全学术会议 | 被引量 : 0次 | 上传用户：liguiming321

【摘要】

：

本文采用一种改进的K-means聚类算法自适应地发现多文档集合中的潜在子主题。该方法从整个文档集合的统计信息中获取必要的参数信息来确定初始类别数和初始聚类中心。它能克

【作者】

：

肖华松何婷婷邵伟胡珀

【机构】

：

华中师范大学计算机科学系武汉 430079

【出处】

：

第三届全国信息检索与内容安全学术会议

【发表日期】

：

2007年期

【关键词】

：

聚类算法多文档文摘初始聚类中心多文档集合类别数系统效率统计信息算法效率方法参数信息自适应子主题证明应用实验经验获取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文采用一种改进的K-means聚类算法自适应地发现多文档集合中的潜在子主题。该方法从整个文档集合的统计信息中获取必要的参数信息来确定初始类别数和初始聚类中心。它能克服传统的K-means算法需要靠人的主观经验确定初始类别数和初始聚类中心这个缺点，并保留了传统K-means算法效率高的优点，实验证明应用该方法生成的文摘效果较好，系统效率较高。

其他文献

使用支持向量机进行作弊页面识别

搜索引擎已经成为通过网络获取信息的重要工具。一些网页通过不正当的手段。提高在搜索引擎的结果列表中获得较高的排名以获得点击量，这就是网页作弊。作弊页面的种类非常多，本

会议

支持向量机搜索引擎页面网页通过网络内容特征获取信息正确率点击量种类识别工具方法

基于自然语言同现词汇的邮件过滤

本文研究自然语言同现现象在邮件过滤中的应用，采用同现词汇对作为邮件过滤特征，通过实验对其过滤性能和效果做了详细的分析，实验显示它可以有效改善邮件过滤的性能。

会议

自然语言词汇邮件过滤过滤性能实验过滤特征过滤中应用显示

一种多过滤器集成学习垃圾邮件过滤方法

垃圾邮件过滤就是在线对邮件做出Spam(垃圾)或Ham(非垃圾)的判断，这是一种根据客户反馈不断自学习的过程。本文通过抽取邮件的语言特征和行为特征构建多个简单过滤器，然后采用

会议

过滤器集成学习垃圾邮件邮件过滤学习方法学习的过程计算复杂性语言特征特征学习特征构建方法组合性能行为实验客户反馈抽取

浅谈荷花的生长习性

荷花是被子植物中起源最早的种属之一。荷花的根为须状不定根,主根退化,不定根成束状环绕排列在地下茎节的四周,长约8～20厘米。在生长期根呈白色或褐色,藕成熟后根为黑褐色。

期刊

荷花不定根生长习性地下茎生长前期茎节被子植物主根生长期后根

重复串特征提取算法在不良信息检测中的应用

根据同一类文档的主题相关性，利用文档实例集中频繁出现的一组重复子串作为该类文档的特征描述，设计了基于重复串的特征提取算法。该算法避免了分词处理。实验表明，能够降低特征

会议

特征维数提取算法信息检测文档特征描述分词处理相关性主题中频效率实验设计

基于浅层语义树kernel的阅读理解答案句抽取

本文提出一种利用浅层语义信息的英文阅读理解答案句抽取方法，首先将问题和所有候选句的语义角色标注结果表示成树状结构，用树kemel的方法计算问题和每个候选句之间的语义结构

会议

浅层语义树阅读理解方法语义角色标注结构相似度语义信息树状结构计算问题准确率匹配数语料英文选择融合抽取测试

基于E-Chunk问句实例库问答系统的研究

研究了一种基于E-Chunk的问句分析方法，设计了应用该方法时的各种语义知识及其表示，用Xml文档来管理领域知识，在这种知识库上设计了一种答案抽取的方法。在此基础上，开发了领域问

会议

实例库问答系统分析方法设计原型系统语义知识领域知识答案抽取准确率知识库召回率应用文档实验开发价值基础管理

面向中文新闻领域的移动摘要系统*

面向移动终端的自动摘要技术，对摘要本身提出了更严格的字数要求。本文设计了一个面向中文新闻领域的移动摘要系统，提取新闻网页中的最大重复串作为文档的关键词集合，利用编辑距

基于动态内容的文摘方法研究

随着互联网的发展，信息的更新越来越快，从而导致内容的动态演化性越来越明显。为了从不断更新的动态内容中生成文摘，本文提出了一种具有时序偏向的多文档文摘方法——动态文摘。

会议

动态内容多文档文摘相关研究解决方案建模方法演化性互联网性能信息时序基础

面向课程教学的中文问答系统研究

大规模开放式问答系统过于偏重于知识的广度，在面向课程教学的问答系统则对问题回答的针对性和准确性要求相关较高。在教与学的过程中，面向课程教学的具有智能化的中文问答系统

一种改进K-means聚类算法在多文档文摘中的应用

其他学术论文