【摘 要】
:
为提高文本向量对文本概念的逼近程度,通过将具有相同语法语义特征的词进行聚类,提取概念簇,利用空间变换将文本向量由词空间变换到概念簇空间上来表达文本。实验比较了基于TF-IDF、IG、TF-IDF-IG、LSA以及它们结合概念簇后对文本分类的效果,证明了基于概念簇的文本向量构建方法能提高文本向量对文本概念逼近的准确程度,同时也提高了不同类型文本之间的区分度。
【机 构】
:
北京理工大学信息与电子学院信息安全与对抗技术实验室
【基金项目】
:
国家242计划基金资助项目(2005C48),,北京理工大学基础研究基金资助项目(20060142014),北京理工大学研究生科技创新基金资助项目(GC200802)~~