论文部分内容阅读
5G时代,面对通信业务的爆炸式增长,网络应当能够同时支持大量来自垂直行业的多样化业务场景,因而网络切片技术应运而生。该技术通过在同一物理网络中建立多个逻辑虚拟网络,为不同业务场景提供定制化服务。由于物理资源的有限性和业务请求的动态性,不合理的资源分配将导致系统时延增加,用户体验下降,因此亟需建立高效新颖的智能资源管理机制,能够根据系统环境的变化动态调整资源分配策略。因此,本文的工作重点是在网络切片环境下优化资源管理方案,主要研究内容和创新工作总结如下:针对5G网络切片环境下由于业务请求的随机性和未知性导致的资源分配不合理从而引起的系统高时延问题,提出了一种基于迁移演员-评论家(Actor-Critic,A-C)学习的切片资源管理方案。首先,该方案建立基于VNF放置以及计算资源、链路带宽资源和前传网络资源联合分配的时延最小化模型,并将其转化为离散时间马尔科夫决策过程(Markov Decision Process,MDP)。然后,在该MDP中采用A-C学习算法与环境进行不断交互动态调整服务功能链(Service Function Chain,SFC)资源分配策略,优化系统时延。进一步,为了实现并加速该A-C学习方案在其他相似目标任务中(如业务请求到达率普遍更高)的收敛过程,采用迁移A-C学习算法实现利用源任务学习的SFC资源分配知识快速寻找目标任务中的资源分配策略。仿真结果表明,该方案能够减小且稳定SFC业务数据包的队列积压,优化系统时延,并提高资源利用率。针对接入网切片场景下用户终端(User Equipment,UE)的移动性和数据包到达的动态性导致的资源管理方案优化问题,并考虑到网络全局信息在优化过程中的必需性和难以获悉的实际情况,提出了一种基于异步优势演员-评论家(Asynchronous Advantage Actor Critic,A3C)学习的切片资源管理方案。首先,该方案建立基于区块链的资源管理机制,通过区块链技术实现可信地共享并更新网络全局信息,监督并记录SFC资源分配过程。然后,建立UE移动和数据包到达时变情况下的无线资源、计算资源和带宽资源联合分配的时延最小化模型,并进一步将其转化为MDP问题。最后,在所建立MDP中采用A3C学习方法,实现资源分配策略的求解。仿真结果表明,该方案能够更加合理高效地利用资源,优化系统时延并保证各个UE的需求。