论文部分内容阅读
异常识别具有重要的研究价值,并广泛应用在诸多领域。随着大数据时代的到来,数据样本量和维度呈现爆炸式增长趋势,传统的异常识别方法已不足以应对如此大规模数据的异常识别问题。本文以基于密度的异常识别方法为基础,利用无监督式的双向抽样组合策略,将大规模数据集异常识别问题转化为任务独立的若干小数据集的异常识别问题。通过理论推导、实验验证证明了在抽样率满足一定条件时,应用双向抽样组合方法开展面向大规模数据的异常识别,能有效解决其面临的样本量大和维度高的问题,不仅可扩展性较强,而且具有重要的参考价值。