论文部分内容阅读
数据源中的离群点是由于系统受外部干扰而形成,它会直接影响模型的拟合精度,甚至会得到一些虚假的结论。在模型构建前期的数据预处理阶段,为有效检测样本中的离群点,采用聚类算法,按稠密度抽取非最稀疏的那些类进行剪枝后,利用箱线图进行离群点检测。经过实验验证该离群点检测算法具有较好的泛化性,检测结果符合预期。