论文部分内容阅读
在基于聚类的话题检测方法上提出了一种基于SVM过滤的检测方法,该方法在聚类前将微博文本特征抽象成用于输入向量机的向量,对微博文本进行过滤,降低了计算量.并针对微博聚类的长尾现象提出了基于高频词排序的改进单遍聚类方法,能很好地检测孤立点的存在.实验表明,该方法在海量微博数据中能有效地检测出新闻话题.