【摘 要】
:
近年来,随着Internet技术的发展和信息传播手段的进步,人们可以从互联网上得到的信息越来越丰富,尤其可以获得数目惊人的文本文档。如何对这些文档进行有效的导航、总结、组
论文部分内容阅读
近年来,随着Internet技术的发展和信息传播手段的进步,人们可以从互联网上得到的信息越来越丰富,尤其可以获得数目惊人的文本文档。如何对这些文档进行有效的导航、总结、组织,以方便人们有效管理和检索海量的文本资源,已经成为计算机科学和信息科学急需解决的问题之一。随着文本聚类技术研究的深入和广泛的应用,基于关键词的经典文本向量空间的高稀疏性,文本中的同义词、近义词和多义词问题,在很大程度上影响了文本聚类算法的效率和聚类的效果。本体理论的应用成为解决这一问题的很好的途径。起源于哲学的本体论技术是人工智能领域中的一种先进的知识表示技术,它通过概念和概念间的关系,反映事物或现象的抽象本质,并建立抽象模型。近年来受到信息领域的广泛关注,被广泛地用于许多领域如语义网、搜索引擎、电子商务、自然语言处理、知识工程、信息提取、多Agent系统、数据库设计和数字图书馆等等。本文对中文文本聚类技术进行了探讨,提出了一种新的基于HowNet(知网)本体库的中文文本聚类方法。在文中,利用HowNet作为背景知识,对同义词、多义词进行处理,将单纯的词映射到概念,然后采用Chameleon(变色龙)聚类算法,将这些概念进行聚类,最终完成文本聚类。该算法采用了一种不断进行聚类,以达到最终完成文本聚类的思想。用概念代替单个词条表示文本,减少了文本特征之间的依赖关系,有效的降低了文本聚类的时间复杂度。
其他文献
数据挖掘是从大型数据库中提取隐含的、预先不知道的、潜在有用的信息。属性约简作为粒计算、粗糙集等软计算理论中关键的一部分,在数据挖掘起着非常重要的作用,一个好的属性约
6月4日,中央文明办、教育部、北京奥组委和中央电视台联合组织开展的“奥运加油、中国加油”赛场文明手势宣传推广活动正式启动。在体育赛场上,加油手势和口号是观众为自己
模式匹配是数据交换的重要组成。由于数据模型表达能力的欠缺,准确的语义信息只有模式设计者才能真正理解,模式匹配自动实现历来都是一个难以解决的问题。现有的模式匹配算法在
目的 分析并探讨哮喘-慢阻肺重叠综合征临床特征及防治措施.方法 选择我院2018年1月~2019年1月收治的82例哮喘-慢阻肺重叠综合征患者作为本次研究对象,采取随机分组的方法 将
论述通过发掘成熟的Web功能,实现具有专利权SCADA远程监视2011-1-14 14:32:35融合系统。
Discussed through the discovery of mature Web features to achieve a patent SC
本文分析了我国目前的成年人监护立法现状,提出应充分尊重身心障碍人的人格,在监护问题上尊重人们的自我决定权,应首先让被监护人自行选择监护人,如被监护人无法自行选择时,
随着科技的快速发展,如今大型复杂的三维模型已经十分常见,这些模型的数据量庞大,给存储、传输、显示与渲染带来很大难题。现有的模型简化算法在简化过程中,一旦需要极度减少
随着改革开放的深入,我国新闻业也取得了巨大的发展。与之相适应,报纸除了新闻容量的增加外,副刊在版面的设置与安排上也发生了一些根本变化。可以说,如今的报纸副刊已经是一
自然景物的模拟是计算机图形学中一个重要的研究内容。随着计算机图形技术的发展,利用计算机对自然界景物的模拟已经成为一个热点的研究课题,也正是因为如此,自然景物的模拟
随着微博这一社交平台的产生和发展,利用这一平台的网络营销也逐渐发展起来。本文将以新浪微博为例,微博营销的特点,弊端,以及如何利用新浪微博成功进行网络营销。
With the