论文部分内容阅读
要对语料库中的海量文章的主题进行识别和归类,要占用大量的空间资源和时间。为了节省空间资源和时间资源,提高主题识别和归类的效率和准确性,有必要对语料库中的数据进行降维处理,并转换成合乎SVM的数据格式。每篇文章中都含有大量的停止词和无关紧要的高频词,它们与主题无关,却占用了大量的资源,应该对这类词进行处理,提高主题识别和归类的效率和准确性。通过对这两类词语的处理,大大降低了语料库所占用的空间,并且提高了主题识别和归类的速率。