论文部分内容阅读
随着互联网的飞速发展,信息资源数量急剧增大,人们面对海量的数据往往无所适从。从海量的、不确定的应用数据中提取出人们所需要的信息和知识的现代技术--文本分类技术应运而生。然而,面对高维的文本特征,如若处理不当会造成“维度灾难”、反而大大影响分类效果,对特征选择的研究就显得必要而有意义。
本文主要在常用的文本特征选择方法的基础上做了以下几个方面的创新与研究工作:
第一,改进和实现了短文本过滤中的特征选择算法。主要通过监督学习利用词频特征和分布特征提取出关键词,从而获得稀疏模型,用以解决短文本分类、短文本聚类和短文本统计特征挖掘的问题。
第二,针对TREC中的博客检索评测,设计并实现了博客检索系统。主要针对博客长文本的特点,在词特征选择的基础上加入情感词的因素。对比实验表明,特征选择的加入明显提高了分类结果的准确度。
第三,本文提出一种词对关联特征的选择算法。不同于常用的基于单个词的特征选择方法,该算法以词对作为基本的特征单位进行特征选择,主要根据在训练文本中词对共现的频率、词对间激活力和词对共现的信息增益等方法进行关联特征选择。实验结果证明,这三种方法都具有可行性和有效性。
第四,设计和实现了特征选择系统,将常用的特征选择方法构建到一个系统中,用户只需要配置相应的属性即可方便快速地得到特征选择的结果,同时也便于针对具体的语料选择最佳的特征选择方法,该系统也具备良好的扩展性。