论文部分内容阅读
多输入多输出(MIMO,Multiple-Input Multiple-Output)系统是一种目前己知的频谱利用率最高的通信系统,能量收集(EH,Energy Harvesting)技术是指通信设备中具有一个能量收集装置,这个装置可以收集太阳能、电磁能和风能等可再生能源的能量。令能量收集技术与MIMO系统相结合,可以达到无线通信系统的节能目的并解决频谱资源短缺问题,是未来绿色通信的发展趋势之一。我们对EH-MIMO无线通信系统中的资源分配问题展开了深入的研究,主要工作如下:(1)由于通信系统的能量收集是突发且随机的,同时信道具有衰落和多变的性质,所以我们无法获得关于信道和能量到达的统计信息,也就是说我们很难预测未来信道和能量到达的状态,因此经典的基于非因果信息的离线算法不再适用。为了使通信系统的容量和能量收集利用效率提高,在EH-MIMO系统中我们采用基于表格的强化学习算法研究了资源分配问题。首先我们将这个多时隙优化问题转换为一个马尔可夫决策过程。接着采用基于表格的强化学习算法,学习环境和智能体之间的映射关系。通过训练表格得到次优的传输策略,解决了这个系统吞吐量最大化的优化问题。最后,仿真实验表明,该算法可以达到收敛的状态,并且平均吞吐量性能仅次于离线算法而优于其它的传输策略。(2)基于表格的强化学习算法通过智能体和环境之间不断交互能够得到一个收敛的Q表,然后发射端可以根据Q表得到次优的传输策略。然而,当EH-MIMO系统中天线数增加,状态空间维数随着呈指数增长,这将占用发射端中大量的内存从而降低系统的性能。由于维数的快速增加,算法复杂度也呈指数增长,甚至可能导致“维数灾难”。针对这一问题,我们采用一种值函数近似SARSA算法。利用Tile-Coding原理和系统中优化问题的主要特征,我们构造了三组基函数。通过基函数与其权重的向量积我们可以得到一个近似动作值函数。近似SARSA算法利用近似动作值函数可以得到状态和动作的映射关系,从而寻找到次优的传输策略。仿真实验表明,近似SARSA算法也可以得到一个次优的传输策略。与SARSA相比该算法有更快的收敛速度,且由于不需要储存表格,所以不占用发射端的过多内存,更适用于状态空间维数无限且连续的通信模型中。