论文部分内容阅读
随着新兴的人工智能、HPC云、基于NVMe-over-Fabric的分布式存储、实时大数据分析等应用发展,RDMA技术正广泛应用于数据中心。通过传输层的硬件卸载及OS-bypass的数据路径,RDMA技术大幅降低了主机端协议栈开销和延迟,将数据中心网络的性能需求带入微秒量级,同时也促进了25G、100G甚至400G高带宽网络的应用发展。然而RDMA技术需要承载在无损数据中心网络之上。当前增强型以太网、InfiniBand等无损数据中心网络,仅满足了无丢包的需求,在兼顾高吞吐、低延迟方面面临严峻挑战。 无损数据中心网络的最大挑战来自于网络拥塞。为实现链路级零丢包,无损数据中心网络采用了链路层反压流控。一旦发生网络拥塞,交换机缓存队列的队头阻塞导致拥塞逐级反压,最终形成拥塞树,影响网络整体性能。而数据中心普遍存在的微突发流量会进一步加剧该挑战。本文以无损数据中心网络的网络拥塞作为研究对象,以追求低延迟高吞吐的无损网络性能为目标,对网络拥塞管理机制展开了深入研究。论文创新性工作包括如下: (1)开发了一款基于OMNeT++框架的弹性数据中心网络模拟器FlexDCNSim。该模拟器支持可配置的服务器节点和网络部件,支持丰富的网络拓扑和协议,可运行无修改的TCP/IP网络协议栈,具有高准确性和良好的扩展性。 (2)针对拥塞控制的及时性问题:提出了一种局部拥塞控制机制(RCC),将传统端到端拥塞控制下移至点到点基于交换机的逐跳拥塞控制。为了及时检测并有效控制拥塞,该机制在交换机同时对输入、输出队列进行拥塞测量,并同时对造成拥塞的数据流进行精确识别;一旦检测到拥塞,该机制将产生拥塞通知并连同拥塞流D(如五元组)立即传递给邻居交换机;各交换机将根据局部的拥塞程度,采用基于窗口的速率控制对拥塞流进行拥塞控制,而不损害非拥塞流的性能。实验结果表明,RCC可以及时、公平地响应微突发拥塞,一旦拥塞解除能够快速恢复速率,显著降低延迟敏感的老鼠流流完成时间达11%~24%,同时对吞吐敏感的大象流几乎无影响。 (3)针对网络负载均衡问题:提出了一种局部拥塞感知的逐跳数据包分发方法(CPS)。每台交换机基于RCC提供的局部网络状态信息,选择可用的轻载路径逐包分发,尽可能地均匀分配负载而不增加交换机复杂度;同时在末端增加乱序包重排序,减小乱序数据包对上层应用地影响。实验结果表明,CPS具有较小的数据包乱序重排序的情况下,提供了优于近期典型的负载平衡机制的网络性能。在60%的网络注入率下,CPS相比于当前典型的负载均衡机制,可以减小95%的流完成时间,吞吐率提高约32%;应对Incast流量模式,CPS可以减小23%的Incast流FCT的尾延迟。 (4)针对动态流量热点问题:提出了一种局部拥塞感知的自适应路由方法(SAR)。该机制通过识别拥塞区域并在拥塞区域边缘实施自适应路由,根据局部网络拥塞状态,动态地调度静态路由上的非拥塞流量绕开拥塞热点,通过拥塞程度较低的等价多路径进行转发,充分利用网络低利用率的带宽。实验结果表明,该方法在典型数据中心负载下,背景流网络带宽可以提升12%,老鼠流的流完成时间可以降低38%。