[论文笔记]Spectrum Sharing in Vehicular Networks Based on Multi-Agent Reinforcement Learning
本研究旨在解决车载网络中频谱资源的分配问题。具体而言是通过共享多对多的信道资源来提升 V2I 链路性能的同时实现 V2V 链路间的高效共存。由于车载设备周围环境动态变化剧烈,在基站处集中采集 CSI 信息的传统方法已难以有效管理频率资源。为此我们采用一种基于指纹识别的分布式深度 Q 学习算法来进行资源共享建模与优化设计。该算法通过节点间的协作能够实时更新 Q 网络从而优化信道分配策略。实验结果表明在分布式架构下本方案能够显著提升 V2I 链路容量的同时也提高了 V2V 链路的数据传输速率。
概况
本文旨在探讨车联网系统中频谱接入设计问题。该系统由车对基础设施(V2I)与车对车(V2C)连接构成,在遵循3GPP标准所提出的基于蜂窝技术的架构框架下运行于第4模式(Mode 4),该模式允许车辆能够自主选择合适的通信资源池使用。在确保干扰得到有效控制的前提下,在车对车链路与车对基础设施链路之间实现频率资源的有效共享能够显著提升网络的整体效率;通过进一步优化车辆间通信信道分配策略与功率管理方案不仅能够满足系统的服务质量要求还能充分扩大其承载能力;针对如何在消息生成周期内有效应对小型规模范围内的信道失活问题本研究提出了一种优化方法。
研究背景
传统的V2X资源分配方案存在一些局限性。首先,在动态变化的信道环境下进行资源分配会面临较大的不确定性,并且新的V2X应用对服务性能的要求更为严格。这些特点使得建模变得更加复杂,并且基于强化学习(RL)的方法能够在不确定条件下提供解决方案,并可能实现分布式算法的应用[12]。目前已有若干解决方案致力于应对信道状态变化迅速的问题[13]:其中一种通过启发式的空频重用方案降低了对 CSI(信道状态信息)的需求[14];另一种通过最大化 V2I(车辆与基础设施之间的通信)链路吞吐量以适应大规模时变信道衰落的情况[15];还有一种允许 V2V(车辆间通信)链路间的频谱共享[16]:该方案通过结合 QoS(服务质量)与节点间的邻近度优化了资源共享方式,并采用基于 Lyapunov 的随机优化框架实现了时延与可靠性需求[17];此外还有一种结合了大尺度衰落信息以提升 V2I 链路遍历容量的方法[18];以及一种结合 CSI 周期性反馈机制的方法同样达成了目标[19]。
RL方法也已被采用以解决V2X网络中的资源分配问题([20][21][22])。通过[22]的研究发现,在车辆云环境中使用基于强化学习(RL)的方法能够有效满足云节点对资源分配和服务质量的需求;此外,在[23]中提出了一种基于软件定义网络的框架来优化无线资源传输过程;文献[24]则展示了深度学习(DL)与强化学习结合的应用效果;研究显示,在[25]中通过强化学习优化电池RSU的调度策略可显著提升服务效率;文献[26]进一步探讨了基于深度增强学习(D₂C)的方法设计调度策略;同时,在[27]中开发了一种分布式用户关联算法以适应异构BS场景;最后,在文献[28]中提出了针对异构车联网环境下的切换控制方法
本文特点之一在于致力于提升V2V(即在规定时间内成功发送一定体积数据包的比例);为了解决这一技术难题,在此基础上我们提出了一个基于多代理机制的人工智能优化算法。该算法通过促进各参与者间的协作关系实现了系统性能的整体提升
系统模型

D2D车辆通信网络
在上图中包含M条车辆到基站点的链路以及K条车辆间互连链路。其中,车辆到基站点的链路(V2I)通过Uu接口实现高数据率服务的提供;而车辆间互连的链路(V2V)则采用PC5协议进行周期性更新。
将V2I链路的集合记作

={1, ..., M},V2V链路的集合记作

= {1, ..., K}。假设我们采用固定功率将M个V2I链路预先分配到正交频谱子带上,并且其中m号V2I链路占据m号频谱子带作为基础配置。因此我们的核心任务在于设计一种高效频谱分配策略,在满足性能指标的前提下尽量减少信号开销。
OFDM可将频选信道转化成在不同子载波上的平坦信道。几个连续的子载波分到一个频谱子带中,并假定一个子带内的衰落近似,不同子带间则独立。在一个相干时间内,通过m号子带传输的k号V2V链路的信道功率增益为,其中h表征与频率相关的小尺度衰落,alpha表征与频率无关的大尺度衰落。
类似的,方括号中为信道编号,角标代表发送/接收端。符号整理如下

m-序标示符下的用户-基础设施(UIC)通信通道与第v-序标示符下的车辆间通信通道之间的相互影响及增益情况
m号V2I在BS的SINR为:

经由m号子带传输的k号V2V在接收端的SINR为:

其中P为发射功率,

是噪声功率。
(4),其中

为bool,表示k号V2V链路是否在m号RB上传输。m号V2I链路在m号子带上的容量为
,k号V2V链路在m号子带上的容量为
,其中W为子带频谱的带宽。
因为V2I链路主要用于高数据率的娱乐服务,因此其设计目标是最大化总容量
,V2V链路主要用于周期性的安全信息传输,将其速率建模为在时间T内大小为B的包的传输速率
(7)。其中B表示V2V生成的周期性的消息的大小,

为信道相干时间,C中的t说明k号V2V链路在不同时隙是不同的。
本算法的目标为:通过设计V2V的频谱分配(以布尔量

表示)和传输功率(以

表示),最大化V2I链路纵容量和V2V的传输速率(7)。
强烈的移动特性使得在车辆密集区域难以在中央控制器处获取完整的CSI;为此,建议采用分布式V2V资源分配方案。合理配置这些资源将有助于优化整体性能成为一个挑战。
资源分配的多代理强化学习
把每个V2V链路当作agent来处理,在这些agent之间实现共同的频谱分配优化和功率控制策略调整。为了避免它们之间的竞争干扰,我们设计了一个统一的奖励机制来促进整个网络性能的最大化。
学习采用了集中式架构,在学习过程中每个agent获得系统级奖励,并基于深度求解器(DQN)来调整策略;而实施采用了分布式架构,在此过程中每个agent仅获取局部环境信息,并根据经过训练的DQN模型选择与小规模衰落同步的动作序列。
状态和观察空间
该问题可通过建立一个MDP模型来描述(如图2所示)。在时间步长t时,在环境中获取状态S;每个智能体通过观测模型O获取环境观测值Z,并采取相应的行动。

,多个agent的行动共同组成

agent随后会接收到奖励R,并且环境S发生变动(以概率p的方式)。在此时阶段每个agent随后会获得新的观测数据Z。

环境值S内含所有的信道状态和agent的动作,这对每个agent是隐藏的,agent只能通过观测函数了解环境。观测空间包含:当前agent的信道信息
,除V2V到BS的干扰增益以外的所有信道增益信息都可在V2V的接收端均可得到;V2V到BS的干扰增益将在BS得到并广播到所有其覆盖范围内的车。m号子带上的接收干扰
由V2V接收器测量并加入其观测空间。此外,局部观测空间还包括剩余的V2V负载

,剩余时延

。局部观测空间表示为:

其中
。
基于指纹的方法可应用于解决多智能体强化学习问题。然而该方法存在收敛性较差的问题。当将深度Q网络(DQN)与独立Q学习(IQL)相结合时效果会更加糟糕。为了应对这一挑战我们采用指纹特征这一创新性方法。其核心思想是尽管单个智能体的行为准则在其他智能体状态频繁变化时容易受到影响但可以通过估计其他智能体的行为策略来扩展个体的感知空间这也是超Q学习的基础原理。值得注意的是动作-行为得分函数不应包含其他智能体的参数作为输入这是因为每个智能体都拥有高维的状态空间以避免这种情况我们引入了一个低维的指纹特征这一特征能够反映群体中其他智能体行为策略的变化趋势从而有效提升算法性能这是因为动作-行为得分函数不稳定主要源于群体内策略的变化而非策略本身的变化经过进一步分析发现每个智能体的行为策略变化与其所处迭代次数以及探索率(例如随机选择动作的概率)之间存在高度相关性因此我们将这些信息整合到智能体的状态观测空间中

动作空间
这里的动作等同于V2V链路中的频谱子带选择以及功率控制。为此处的学习与管理方便起见,在功率控制方面设置了四个级别(即离散量),具体数值列为[23, 10, 5, -100]dBm(其中-100 dBm表示无信号输出)。由此可知,在该系统中动作空间的大小被设定为了4×M维度,在每一个动作中都对应着特定频率子带的选择以及相应的功率水平。
奖励设计
奖励函数的精细调校是应对复杂优化挑战的关键手段。我们的目标明确分为两个:在规定的时间段内实现V2I容量的最大化,并通过改进技术确保V2V传输过程的高度可靠性。
首先看第一个目标,V2I链路的总容量的瞬时值为
;为实现第二个目标,可通过V2V剩余负载Bk是否大于0判断信息是否成功交付。由此得到V2V链路在每个时间步t的奖励为
(10)
其中的

具体说明成功交付后所获得的奖励情况;而前面提到的公式是未成功交付时的情况,则此时获得的奖励为V2V传输速率。为了使成功交付获得更大的激励应设定相应的参数。

大于最大的V2V传输速率。
学习的目标是找到一个优化准则

(即由状态到动作的映射),最大程度提高回报期望

,他是单步奖励的加权和,权重为

(称为折现率,0~1)得到:【此式也可称为 状态-价值函数】

(11)
对于这里的

当其趋近于1时,则意味着直到传输完成的所有奖励与当前奖励将同等对待;在这种情况下,系统旨在最大化累计奖励的期望时会导致V2V链路传递更多的数据
此外,提高(10)中的

也可提高奖励。但(10)的\beta是一个超参数,其代表了设计目标时对 奖励 和 学习效率 之间的权衡。如果只是想最大化奖励,那么可以设置\beta为0,但是这将给学习造成麻烦,因为此时agent无法在训练的开头获得任何有用的知识。这里我们可以在奖励中引入一些先验知识,比如V2V传输速率。奖励函数如下所示:

其中的

是V2I和V2V指标成分的权重。
学习算法
每个情景均需遵循预设的时间限制T进行V2V通信传递。每个情景均基于所有车辆链路的初始传输功率与信道状态的组合构成一个随机初始化的环境状态,并包含完整的V2V负载内容直至时间段T结束。小规模的衰落变化将导致系统环境状态发生变化并驱动自适应学习过程。
训练过程
使用带有经验重播的DQL进行学习。动作-价值函数为:在状态s根据策略

采取动作a的过程:

其中

(状态-价值函数)被定义为(11)。最优策略将影响或决定动作价值函数。(参考文献[6])研究表明,在学习率的随机近似条件下以及所有状态-动作函数持续不断更新的情况下,Q学习算法学到的动作-价值函数几乎必然趋近于最佳的动作-值功能量表. 在Deep Q Learning (DQL)框架下, 动作值功能量表由深度神经网络确定, 并被称为DQN.
每个V2V agent拥有一个DQN模型,在接收当前观测值Z后会估计所有可能动作的价值函数。在训练阶段中,在遵循概率化策略(例如采用ε-greedy algorithm这一方法时),每个agent会根据可能使价值最大化的动作进行状态-动作空间的探索。随着环境的变化情况不断变化,在每一阶段中系统都会从经验回放内存中抽取小批量样本,并利用随机梯度下降方法来更新参数。

,以最小化平方和误差。

其中

表示目标Q网络的关键参数θ_k会周期性地从Q网络的整体参数集θ中被复制并更新两次。通过记忆库中的样本多次提取(即重复采样),经验重放能够显著提升数据利用率的同时,在持续迭代过程中有效消除数据相关性以保持学习稳定性。训练过程如算法1所示

分布式实施
对于每一个时间步t,在每个agent将估算其信道状态的同时建立局部观测数据集Z,并采取行动A以期达到最大化的回报;在此之后的所有V2V链路都将依据该行动所涉及的功率分配和频谱分配来进行传输
需注意的是,在算法1中所提到的训练不仅适用于多种场景,在离线环境下同样能够实现良好的效果。也就是说,在这种情况下意味着这种训练可以在离线环境下完成。只有在环境特征出现显著变化的情况下(建议每月或每周一次),才需要对受训的DQN进行相应的更新和维护
需注意的是,在算法1中所提到的训练不仅适用于多种场景,在离线环境下同样能够实现良好的效果。也就是说,在这种情况下意味着这种训练可以在离线环境下完成。只有在环境特征出现显著变化的情况下(建议每月或每周一次),才需要对受训的DQN进行相应的更新和维护
仿真结果
本节基于3GPP TR36.885标准中所定义的城市案例参数构建了模型,并对该模型进行了详细的设计与分析研究。该系统中的M辆智能型车载设备会通过各自的本地化区域发送 V2I 通信请求,并与邻近的 K 辆其他智能型车载设备建立起了多点对多点(V2V)通信连接;此外,在仿真过程中还采用了若干典型场景配置用于验证系统的性能表现;如表1所示,在仿真过程中采用了一系列典型参数配置;如表2所示,则详细列出了不同场景下的 V2V 和 V2I 链路配置参数设置


该系统采用了三层全连接神经网络架构来构建每个智能体(agent)的行为模型(Q网络)。具体而言,在第一层包含了5百个神经元、第二层包含2.5百个神经元以及第三层由1.2百个神经元构成;其中激活函数采用ReLU形式并基于RMSProp方法作为优化器;设定的学习速率为千分之一。为了提高训练效率,在每一轮次交互训练过程中将每个智能体的学习过程进行了三轮次交互训练;其中探索率设置为初始值为一并在前二十四轮次中以线性退火的方式逐步降低至最低值为二十分之一并维持恒定状态;在此过程中我们修复了大规模参数衰减问题从而实现了算法稳定性;在实际应用中发现车辆间通信的有效承载能力达到了约两千万字节但为了验证算法鲁棒性我们在测试环节对该值进行了相应调节。

如图3、4所示,对比分析了多代理强化学习算法(MARL)、单一代理强化学习算法(SARL)以及基于随机策略的对比基准(Random Baseline),同时比较了所提方法在理论性能边界上的表现。具体而言,在计算过程中采用完全禁止所有V2V链路使用的方式作为第一个理论边界;第二个理论边界则假设不考虑用户与接入网之间的需求关系,并通过多步分步优化将受限于时间约束T的B字节数据传输转换为对单个用户可变速率的最大化求解。在此设定下,所有智能体的动作空间被搜索以找到最大化单用户可变速率的动作。该方法需要在集中式架构下获取全局信道状态信息(CSI),因此命名为max-V2-V算法。此外,在后续方法中展示的是所提方案能够接近理论性能边界的能力。
如图三所示,在分析了不同情况后发现:当V2V负载变化时对V2I容量的影响是一个值得探讨的问题;随着 V₂𝑉 负载量的增大导致了对 V₂𝐼 容量的显著下降;其主要原因在于:当 V₂𝑉 载荷增多会导致其传输时间更长、发射功率更大;这将使得在 V₂𝐼 链路中产生更强的干扰;从而降低了其容量;尽管如此;MARL方案仍然展现出比其他两个基准方案更好的性能水平;尽管他采用了两块 1060 纯显卡进行训练;但当 N 值不断增加时也展现出了良好的鲁棒性特性;尽管如此;在 N=6×1060 的情况下表现却不如前几项测试情况理想;总体而言;Centralized max-V₂𝑉 曲线的表现非常有趣:尽管该方案完全忽略了 V₂𝐼 链路的需求;但在这种特殊情况下仍能获得较好的 V₂𝐼 容量性能表现:这可能是由于集中式架构在极大提升了 V₂𝑉 链路的数据传输速率的基础上还实现了对该链路的有效管理与协调工作结果:这个发现提醒我们进一步探索如何在 V₂𝐼 和 V₂𝑉 链路之间实现更好的性能平衡点
如图4所示,在不同传输负载下进行分析可以发现:其中最大值单点的V2V传输成功率始终保持在1。然而马尔可夫随机算法(MARL)的表现略逊色于另外两种策略之一——即仅考虑最大值(max)的策略(即单点的最优情况)。尽管如此,在某些情况下其性能仍然优于剩余两种方法中的至少一个方案。值得注意的是当系统载荷较低时(如N=1, 2)成功率达到100%而当系统载荷进一步增加至N=3, 4时其性能依然维持在较高水平接近完美状态那么在系统载荷超过某个阈值的情况下(例如超过四点)为何会出现这种现象呢?

图5展示了累计奖励随迭代次数变化的趋势。通过观察该图表可以看出该算法具有良好的收敛特性。初步观察到,在训练过程中累计奖励数值持续增加,在训练达到2000次时趋于稳定(尽管信道衰落导致其呈现出一定程度的波动)。进一步评估发现:将迭代次数设置成了3000次。


为了探究为何该算法能够表现出色, 我们采用了所有V2V链路均成功交付包含2120字节数据包的迭代结果. 图6展示了施加约束后各V2V链路剩余数据包的变化情况. 在多代理强化学习场景(a图)中,在线节点迅速完成数据传输任务的同时其他三个节点也基本同步完成任务. 在随机基准测试(b图)中,在线节点提前完成任务; 然而节点3与4的表现则较为糟糕.
图7详细描绘了受时间限制条件下的V2V短时带宽的变化情况。在多代理RL(a子图)中进行比较时发现,在经过优化后设计出的系统架构下,在相同的时间窗口内完成的数据量显著高于传统方案。然而,在这种架构下,并非所有的链路都表现出相同的性能特征——通过详细分析发现,在某些特定条件下部分节点的数据传输效率明显低于预期值。通过详细分析发现,在某些特定条件下部分节点的数据传输效率明显低于预期值。通过深入研究发现,在这些特殊场景下出现的问题主要集中在节点间的通信协调机制上——它们似乎采用了循环轮换的方式传送数据,并且这种机制能够有效避免资源竞争问题的发生。值得注意的是,在面对易受干扰的情况时——相比之下,在面对易受干扰的情况时——随机baseline(b子图)的表现并不理想。
