论文部分内容阅读
潜在语义索引(LSI)是一种有效的信息查询方法,同时也被成功地应用到了文本分类中。LSI能解决同义和多义的问题.通过降低原始文档一术语矩阵的噪声来凸现出词条和文档之间的语义关系。为了识别和过滤有害的、不期望的定题的信息或Email.在双语言环境下(包括中文和英文),提出了一个基于改进的LSI方法的定题邮件类信息过滤系统,该系统采用潜在语义模型来表示被过滤的信息类.通过奇异值分解和正例监护学习方法,选择支持向量机(SVM)来识别和分类预定义的定题信息。变验结果表明:基于LSI的特征选择的SVM分类算法是一种