论文部分内容阅读
随着5G时代的来临,其低功耗、高速率、低成本以及延时低的特性,对物联网行业带来了积极且巨大的改变。而物联网日益增加的规模,给集中式云计算数据中心的能耗、传输带宽和处理时延带来了不小的挑战。前者正朝着由网络中心节点移往具有较短延迟的边缘节点的方向发展,即边缘计算。边缘计算能够分担云的工作减轻压力,同时满足用户对于实时性服务的需求,而迁移决策和资源调度问题是边缘计算领域的热点研究问题之一。本文对移动边缘计算的迁移决策和资源调度问题以及深度强化学习理论基础进行了介绍,对当前已有的迁移决策和资源调度方案和算法进行了总结分析。在此基础上,重点研究了多小区多用户完全迁移和单小区多用户部分迁移两种实际场景下如何利用深度强化学习算法对迁移决策和资源调度进行优化。主要的创新工作包括以下两个方面:(1)针对多小区多用户完全迁移的迁移决策和资源调度问题,首先从网络架构、应用类型、本地和迁移计算四个方面建立系统模型;然后根据系统模型,对资源调度的优化问题进行建模,分析原始优化问题的难以求解性,选取基于值函数的深度强化学习方式,建立能够优化问题的MFBDQN算法;接着,根据实际问题,为MFBDQN算法设定用于迭代的状态、动作,以及用于生成新状态和反馈奖励值的环境;最后,结合原始深度强化学习算法,为边缘计算资源调度问题编写合适的迭代步骤;(2)针对单小区多用户部分迁移的迁移决策和资源调度问题,首先从网络架构、应用类型、本地和迁移计算四个方面建立系统模型;然后根据系统模型,对资源调度的优化问题进行建模,分析原始优化问题的难以求解性,选取基于策略梯度的深度强化学习方式,建立能够优化问题的SPBDDPG算法;接着,根据实际问题,为SPBDDPG算法设定用于迭代的状态、动作,以及用于生成新状态和反馈奖励值的环境;最后,结合原始深度强化学习算法,为边缘计算资源调度问题编写合适的迭代步骤。(3)通过使用基于Python的Tensor Flow软件库,仿真对比验证了本文提出的优化方案的性能。结果表明,针对多小区多用户完全迁移的迁移决策和资源调度问题提出的MFBDQN优化算法,在不同的用户设备数量下,都可以取得相较于Q-Learning算法和随机迁移方案更低的能耗,即获得更优的资源调度方案;针对单小区多用户部分迁移的迁移决策和资源调度问题提出的SPBDDPG优化算法,在不同的用户设备数量、不同的所有用户所能容忍最大时延约束8(6)、不同的边缘计算服务器计算能力上限((8)下,都可以取得相较于REINFORCE算法和最小迁移方案更低的能耗,即获得更优的迁移决策和资源调度方案。正文中共使用图20幅,表2个,参考文献50篇。