论文部分内容阅读
随着互联网的快速发展,网络舆情分析研究变得越来越重要.其中聚类是网络舆情分析中的一个非常重要的方法.传统的聚类算法都是基于词语来进行聚类,忽略了文本中可能隐含的信息.本文将TF-IDF和LDA主题模型分别计算的文本相似度进行线性结合来计算文本之间的相似度,从而进行更准确的聚类分析.在构建LDA主题模型时,通过Gibbs抽样来进行参数估计,通过贝叶斯统计的标准方法进行最优主题数的确定.在仿真实验中,通过耗费函数来确定文本相似度的融合系数,同时通过F-measure值来对聚类实验结果进行评估.实验结果表明,该方法不仅能够提高聚类结果的准确度,同时保证多次聚类的结果有比较高的稳定性.