论文部分内容阅读
为了研究不对称数据集下,分类算法敏感网页后验错误率高,实时性不足的问题,提出了一种基于网页结构化倾向的网页分类算法。首先,选取网页结构化内容,将计算得到的倾向性作为分类特征;其次,采用决策树以倾向特征作为分类特征对网页分类。仿真试验表明,在互联网环境中正负样本不对称情况下,在保证分类速度的同时,分类的敏感网页后验错误率为0.6456,较传统的基于关键字分类模型有较大幅度降低。