论文部分内容阅读
社交网络作为web2.0时代兴起的一种互联网应用服务,将线下的社交活动拓展到了线上,允许用户通过注册的账户在网络上进行社交活动。社交网络平台虽然提倡良好的线上社交行为,但是通过社交网络账号进行恶意行为的情况时有发生。由于社交网络的开放性与即时性,这些恶意行为产生的影响能够迅速的广泛传播。因此,针对专门用于进行恶意行为的异常帐号进行检测,对维护网络环境安全具有重要作用。传统的异常检测技术通过维护一套规则集对恶意行为进行拦截。一方面,硬性规则很容易被绕过;另一方面,对规则集的构造和维护门槛和成本不断提升。而基于机器学习技术的新一代web异常检测技术有望为社交网络平台对抗攻击带来新的发展和突破。本文透彻分析了异常检测技术的现状和机器学习技术的应用现状,提出了改进的自动编码器模型来进行社交网络异常帐号的检测。并且,针对社交网络日志的庞大数据量以及对运算性能的要求,本文深入研究了分布式计算技术。本文选择Spark分布式计算平台对数据进行处理,可以突破单机性能限制,更加高效准确的完成大体量数据下的计算,进而完成更复杂有效算法模型的训练。本文还针对社交网络异常检测这一场景对系统模型和计算平台进行了分析,研究了分布式计算的性能调优,并提出了对实际问题的优化方案,实现对真实生产环境的参考价值。