论文部分内容阅读
本文在对维文垃圾网页特征分析基础上,利用卡方检验方法提取网页特征,并采用最小二乘估计方法,设计了维吾尔文垃圾网页识别模型.为检测不同特征对模型性能的影响,本文分别对网页维文字符个数及关键词进行对比实验.结果表明,在特征包含网页维文字符长度,特征词个数在5—20个之间时,模型识别精确度达90%左右,网页维文字符个数在维吾尔文垃圾网页模型构建中具有重要作用.