论文部分内容阅读
随着科技的进步,互联网也迅速发展起来,中国网民数量以惊人的速度增加,并成为世界上网民人数最多的国家。互联网已经成为了继报刊、广播、电视之后的“第四媒体”,对人民生活产生了深远的影响。网络提供的方便促使越来越多的网民选择利用互联网来表达自己的看法,在网络上发表民意,逐渐形成了网络舆情。网络舆情的分析对于维护社会稳定、促进国家发展具有重要的意义。对于网络舆情的监测和控制,话题发现与热点发现是其中的重点,而文本的聚类效果则影响着最终网络舆情的检测结果,进而影响政府的最终决策。
本文首先对网络舆情研究的基本情况进行阐述,对于网络舆情的特点和舆情信息的形成与发展进行分析和总结,并对现有的一些网络舆情监测系统进行简单的介绍。然后对中文文本常用的聚类技术进行了详细的分析、研究和总结,列举了中文文本分词、文本特征表示等方面的一些基础研究工作,并且回顾了中文文本相似度和文本特征降维领域的已有结果,详细介绍了文本相似度计算和特征降维的各种方法。
在回顾已有的文本聚类方法的基础之上,本文针对基于向量空间模型的划分算法k-means存在的问题进行分析研究,在此方法基础上作出了相应的改进。改进后的算法不需要事先确定划分的类别数,而是根据文本之间的相似度自动聚合确定类别数目,并且不需要事先选择文本初始聚类中心。
在作出了对于k-means方法的相应改进之后,为了验证算法的有效性,本文使用了100篇文章进行实验,分别利用传统的k-means方法和改进后的聚类方法对文本集进行聚类。实验结果证明:传统k-means方法即使事先确定了正确的类别数,但如果初始聚类中心选择不当,聚类效果也只能达到局部最优;而改进的聚类方法只要相似度阈值选择恰当,则可以有效地自动将文本的类别数确定下来,并且消除了传统k-means方法中对初始聚类中心的依赖。