论文部分内容阅读
随着互联网在生活的普及和人们使用程度的深入,互联网应用的数量越来越多,产生了海量的数据,网络结构也变得复杂,与此同时,人们期望更快的网络响应速度和良好的用户上网体验,这对网络建设提出了更高要求。因此分析网络流量特性,研究网络流量管理技术,从而优化现有网络很有意义。 本文围绕网络流量管理技术中的流量感知技术、流量预测模型以及流量负载均衡的调度算法三个方面进行研究。流量感知部分旨在测量网络关键的数据信息,是流量管理的基础。本文详细介绍了流量感知平台的设计架构,包括流量感知平台的网络拓扑结构和基于探针的被动式的流量监测技术,以及Spark分布式处理框架下的流量分析系统设计和实现。流量感知平台最终获得网络带宽使用情况的时间序列,作为流量预测的数据源。流量预测模型必须能够捕捉重要的流量统计特征,本文采用经济学领域的线性时间序列ARIMA模型预测未来时刻的带宽估计均值与标准差,提出了带宽预留方案,流量预测技术与感知平台集成在一起,通过真实的网络仪表数据验证表明95%的流量感知值落在预测算法提供的95%置信区间内,模型有效。 在线云存储流量的调度问题是当前网络的研究热点。本文以Dropbox为例详细讨论了云存储系统的流量与带宽管理,提出了基于贪心算法和二次随机选择算法的负载均衡算法,并将其和流量预测、带宽预留技术结合在一起,设计了一套流量负载均衡和带宽预留算法。基于贪心算法的负载均衡技术能够取得良好的性能,但是复杂度高、系统开销较大、可扩展性较差;二次随机选择算法复杂度低并且显著减少了系统通信开销。性能分析表明二次随机选择算法能够保证较高的负载均衡性能、可扩展性良好。通过Dropbox真实流量数据和大规模仿真数据的实验,表明二次随机选择算法能够实现接近于贪心算法性能的均衡流量调度。基于预测的带宽预留技术保证了服务质量,提高了网络资源利用率。 另外,针对在线云存储系统中的文件上传请求调度问题,现有方案很少满足为用户提供不同带宽保证这一需求。本文针对不同付费级别用户要求不同带宽保证的服务场景,设计了基于请求队列长度的最大权重调度机制以及实际中可用的分布式二次随机选择调度算法,旨在实现系统服务器的流量均衡,同时最大化系统吞吐量。本文证明了最大权重调度机制能够保证系统稳定性,并且最大化系统吞吐量。实验结果表明,二次随机选择算法能够获得接近于最大权重调度机制的性能,较小的时间延迟和较大的系统吞吐量。其性能优于传统的Round-Robin调度算法。