基于DPU-m视频加速平台的均衡调度技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:shening
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着互联网视频规模的不断增大,为了加速视频在服务器的编解码速度,提升系统性能和服务质量,视频硬件加速技术不断发展。DPU-m是一款高通量多核视频加速芯片,主要用于服务器视频的编解码处理。为了有效地利用加速芯片的负载能力,均衡调度算法的研究就显的尤为重要,调度算法的好坏直接影响到视频的响应速度和编解码速度。  对于DPU-m视频加速平台均衡调度技术的研究具有两个方面的意义:第一,通过资源的均衡分配来提高DPU-m的处理性能;第二,通过分层调度技术来改善DPU-m的负载均衡情况,减少单点过载和视频等待的现象发生。  DPU-m具有这样的层次结构:服务器上具有多个DPU-m加速卡,每一个加速卡中具有5个可以进行视频加速处理的VPU IP核,一个VPU核可以同时处理多路视频。本文基于DPU-m这样一个结构环境,自底向上,建立了三层均衡调度模型:VPU层均衡调度、DPU-m加速卡层均衡调度和服务器层均衡调度。每一层调度算法的研究都建立在前一层最优算法的基础之上。服务器层的调度算法的效果代表了整个DPU-m平台的均衡调度效果。本文首先研究和设计了VPU层的均衡调度算法,研究了并行化在VPU多视频实例调度上的应用。然后针对DPU-m加速卡层,研究了固定实例数算法、轮询算法和最大剩余能力算法。对于更高层次的服务器层,研究了多DPU-m加速卡的调度算法,提出了直接最大剩余能力算法和间接最大剩余能力算法。  本文对三个层次的均衡调度算法进行了实现和实验评估。首先针对VPU层的并行优化进行了实验验证,实验结果证明了多路视频的并行化处理能够有效地提高一个VPU的解码速度,相对于串行化的加速比达到了1.96。然后对DPU-m加速卡上的固定实例数法、轮询算法和最大剩余能力算法进行评估和分析,评估结果说明了最大剩余能力算法的均衡效果优于轮询算法和固定实例数算法。通过对服务器层的直接最大剩余能力算法和间接最大剩余能力算法的评估,发现间接最大剩余能力算法可以让多个DPU-m加速卡的视频任务分配和资源分配更加均衡。  最后,本文对整个三层均衡调度模型的性能做了分析,改进后的三层均衡调度算法使视频任务的处理速度提高到原来的2.22倍,视频等待时间缩短到原来的13.29%,视频等待时间在总任务时间的占比也缩小到原来的27.85%。这一结果充分说明了三层均衡调度算法模型比原来的DPU-m平台的调度算法更加有效,能够更加均衡的分配视频任务,减小视频等待时间,提高视频的处理速度。
其他文献
随着现代科技的发展,越来越多的儿童有机会接触到计算机等现代科技设备。面向儿童的编程研究为儿童提供了一个学习体验编程过程的机会。传统编程语言中的语法、复杂指令及大量
在现代信息社会,政府、企事业单位相继建立了各自的信息管理系统,这些独立的系统创建之初没有统一的规划,彼此之间数据的存储环境和存储形式差异大,很难实现有效的数据交换和共享
随着三维图形技术的迅猛发展,三维网格被广泛的应用在计算机图形和仿真中逼近三维模型。为了支持这些应用,三维网格的传输量也越来越大。同时,随着众多成熟的三维扫描和建模技术
无线通信的快速发展,嵌入式应用的日益复杂,对基带DSP(Digital Signal Processor)的处理能力提出了更高的要求,同时又需要满足一定的功耗、面积等设计约束,使得DSP的结构复杂度和
伴随互联网新型应用的广泛普及和飞速发展,传统程序设计方式面临着多核化、网络化等硬件变革所带来的分布并发程序设计的挑战。为了应对上述挑战,支撑互联网新型应用的高效开发
现在的数据中心每天必须处理成千上万的独立用户所产生的请求和数据,云计算和大数据类的应用负载使得数据中心的内部流量和外部流量占比发生了巨大的变化,占比已经从原来的5∶9
微博分类作为处理和组织大量微博数据的关键技术,可以很大程度上解决微博信息爆炸的现象。但由于微博文本具有长度短、口语化等特点,传统的文本分类技术对微博文本不太适用。随
图像配准是图像处理中的一个重要课题,也是图像融合首先要解决的问题,在许多实际应用中具有重要意义,是医学图像分析、遥感图像处理和目标识别的基本组成部分。随着新型传感
无线传感器网络中的节点一般采用电池供电,如何提高能量的有效性成为其主要研究内容。ZigBee是一种新兴的短距离、低速率、低功耗无线网络技术,主要用于近距离无线连接。本课题
虽然网络安全技术发展迅速,但由于网络拥有复杂的结构、庞大的规模以及广阔的地域分布,加上网络攻击技术不断提升,目前网络安全形势仍十分严峻。传统网络安全技术偏重被动静态防