【摘 要】
:
在机器学习、数据挖掘等领域得到普遍应用的k-means算法由于具有时间复杂度低的优点,在文本聚类领域也得到了广泛的应用。论文对文本聚类的相关技术与算法进行研究,针对文本
论文部分内容阅读
在机器学习、数据挖掘等领域得到普遍应用的k-means算法由于具有时间复杂度低的优点,在文本聚类领域也得到了广泛的应用。论文对文本聚类的相关技术与算法进行研究,针对文本数据高维性和稀疏性的缺点,改进了文本聚类中的特征选择方法,以及与k-means相关的算法,并在此基础上设计并实现了一个中文文本聚类原型系统。主要工作有:1)聚类领域进行特征选择时由于缺乏类信息而难以选择出最具类区分能力的特征词。在文档频率,单词贡献度两种特征选择方法的基础上,利用贪心算法对特征进行增量选择。实验表明改进的算法可以在保证聚类质量的前提下过滤更多的特征词。2)文本数据高维性和稀疏性的特点使得文本对象间的相似度不易度量,根据文本间的相似度为k-means算法选择的始聚类中心时可能不能很好的代表整个文本集。针对该缺点,对k-means算法中的初始化问题,提出一个改进的初始聚类中心选择方法。实验表明改进的方法选择到初始聚类中心比较分散且代表性好。3)为了提高聚类中簇的质量,通过引入共享最近邻相似度中邻居的概念,对bisecting k-means算法进行改进,实验结果表明该算法的聚类质量较原算法有一定的提高。在以上研究工作的基础上,实现了基于k-means的中文文本聚类原型系统。通过实验对系统中的各个算法进行了评测和比较。
其他文献
1999年国庆节,中央电视台第6频道(电影频道)播放了一批专门为电视而拍摄的新形式影片——“电视电影”。从此,“打开电视看电影”不仅成为亿万中国观众耳边时常响起的广告词,
介绍了龙固煤矿井下730区域的运输状况,根据巷道起伏较大和环节较多的特点,说明了无极绳绞车的特点和用途,科学地提出使用无极绳绞车的优越性,具有较高的安全效益和经济效益,
女性人力资本投资具有较高的个人收益率和社会收益。女性人力资本具有很强的持续性,对女性人力资本投资有利于社会的可持续发展。从我国女性受教育现状来看,对女性人力资本投
家庭暴力是一个国际社会普遍性的社会问题和人权问题,是对人权的极大侵害。近年来,世界范围内各国为遏制家庭暴力做了不少努力,但由于各种现实的因素,家庭暴力始终没有得到有
低碳旅游是顺应全球低碳经济的发展而提出的,低碳酒店作为低碳旅游的重要部分,在当代社会也发挥着重要的节能减排作用。通过对国内低碳酒店的现状调查,可以发现在酒店方面实
随着新闻评论的发展和改革的深入,平民化逐渐演变成为新闻评论的一种发展趋势。本世纪以来,随着新媒体时代的微博客的迅速兴起,不仅为新闻评论的平民化提供了一个更好的实现
读者对事物的相关假定依赖于他们的经历,在阅读文献中,背景知识通常被称为"图示",图示理论对阅读理解起着至关重要的作用。主要依据新课改后的英语教科书中所体现的阅读量大
改革开放以来,我国绝大部分私营企业都是靠家族化管理发展起来的,家族化管理大多取得过高效率并且有的还在继续创造着高效率。据调查,目前全国实行家族化管理的私营企业,约占
目的:为研究银杏叶提取物的辅助降血糖功能。方法:正常动物降糖实验:将大鼠分为1个对照组和1个剂量组(0.25g/kg体重)。剂量组动物每日灌胃给予受试样品,连续30天,检测两组动
<正>站在2016年的年末,回望智能家电热潮汹涌的三年,家电企业已经不再迷茫、不再焦虑。站在新的起点上,回归初心的家电业已经准备好继续向"智能"进发。市场端表现抢眼2016年,