📖《Stacked Autoencoder-Based Deep Reinforcement Learning for Online Resource Scheduling in Large-Scale MEC Networks》

🎯需求

近年来，移动电话和物联网（IoT）设备等用户设备（UE）的数量正在迅速增长。同时，增强现实（AR）、虚拟现实（VR）、实时游戏、人脸识别、自然语言处理等资源密集型应用不断涌现。但是，上述有吸引力的应用程序通常需要大量的计算资源，并且对延迟敏感。由于UE的规模和资源有限，可能无法在规定的时间内完成上述任务或满足服务质量（QoS）要求。
移动边缘计算（MEC）旨在使UE能够将上述任务卸载到边缘服务器，并引起了学术界和工业界的广泛关注。应用 MEC 来协助 UE 有两个主要优势。
- 首先，UE可以降低本地能耗，因为UE可以将计算密集型任务卸载到MEC。
- 其次，响应时间可以缩短，因为 MEC 通常比本地设备拥有更多的计算资源，因此可以比本地设备更快地完成任务，从而显着增加用户体验。
但是，当我们拥有大量用户时，一个 MEC 可能不够强大，因此可以部署多个 MEC。
- 那么，这里的关键问题是我们如何决定用户关联和资源分配，特别是在大规模环境中。

🚧现状

已经提出了一些工作来优化基于MEC的延迟敏感服务，即VR应用程序。如：
- 部分人员提出了低延迟 MEC 系统的安全卸载优化框架。
- 部分人员研究了具有缓存辅助低延迟系统的MEC。
- 此外，部分人员还研究了资源分配的延迟优化。
- 此外，部分人员提出了异构多层MEC系统的时延最优任务分配和资源分配方法。
上述问题通常被认为是混合整数非线性规划（MINLP），因为卸载决策始终是整数变量，而资源分配是连续变量。提出了一些传统的方法来解决上述MINLP问题，如：
- 动态规划、分支和边界方法和博弈论。
  - 然而，这些方法通常具有很高的计算复杂性，尤其是在大规模场景中。
- 此外，还提出了一些启发式搜索和基于凸的松弛，
  - 但这些算法通常需要多次迭代才能收敛，因此可能不适合快速决策过程。
在具有多用户场景的多MEC系统中，时变无线信道在很大程度上影响了最优决策过程，这对于上述传统算法来说非常具有挑战性，因为一旦环境发生变化，这些传统解决方案通常需要重新运行算法。
幸运的是，基于机器学习（ML）的解决方案在通过应用自适应建模和智能学习来解决上述问题方面显示出巨大的潜力。一旦训练完成，通常可以很快获得解决方案，因为只需要少量的代数计算。最近，一些基于ML或深度学习（DL）的算法被提出并应用于MEC系统，如：
- 深度神经网络（DNN）、长短期记忆（LSTM）、CNN、Q-学习、DQN 和 DDPG。
  - 然而，一方面，基于深度学习的模型（如DNN、LSTM和CNN）具有出色的预测和推理能力，但它们需要大量的标记训练数据。
  - 另一方面，当 MEC 系统的规模扩大时，基于强化学习（RL）的模型（例如，Q-learning、DQN和DDPG）无法收敛，最终结果不稳定。

🛩创新

在上述背景下，本文提出了一个综合框架，用于在部署了多个UE的大规模MEC系统中共同优化计算卸载和资源分配。
- 我们的目标是获得一种在线调度算法，以最小化所有 UE 的加权任务延迟总和。
- 为此，我们提出了一个基于深度强化学习（DRL）的框架，该框架包含以下三个组件，即相关和正则化堆叠自编码器（2r-SAE）、自适应模拟退火方法（ASA）以及保留和优先体验回放（2p-ER）。
  - 1）首先，应用一种具有无监督学习的相关正则化堆叠自编码器（2r-SAE）对高维信道质量信息（CQI）数据进行数据压缩和表示，从而减小DRL的状态空间。
  - 2）其次，我们提出了一种自适应模拟退火方法（ASA）作为DRL的动作搜索方法，其中自适应h-mutation 用于引导搜索方向，并提出自适应迭代以提高 DRL 过程中的搜索效率。
  - 3）第三，引入保留优先体验回放（2p-ER），帮助DRL训练策略网络，找到最优的卸载策略。数值结果表明，与现有基准相比，所提算法在实现接近最优性能的同时，显著缩短了计算时间。
与现有作品相比，我们有以下贡献。
- 1）首先，我们提出了一种具有无监督学习的2r-SAE，用于对高维信道质量数据进行数据压缩和表示。
  - 2r-SAE可以为DRL模型提供紧凑的数据表示，从而减少状态空间，提高DRL的学习效率。此外，我们将每个UE的相对误差项添加到损失函数的误差项中，可以同时考虑相对误差和绝对误差，减少特征提取过程中每个UE的信息损失。我们还在损失函数中添加了一个正则化项，以提高 SAE 的泛化性。此外，增量学习用于更新 SAE，以跟踪真实场景的变化。
- 2）然后，我们提出了一种ASA方法作为启发式搜索方法，以找到DRL模型的最优动作，以生成具有相应状态的卸载决策。
  - 在ASA中，我们引入了两种自适应机制：
    - 一方面，后续解根据信道质量信息（CQI）自适应地变异。
    - 另一方面，根据DRL的损耗减少，自适应地调整迭代次数。
  - 这两种机制可以在不影响系统性能的情况下，提高SA的效率，减少求解原始优化的时间。
- 3）最后，提出了一种2p-ER方法在DRL框架中训练DNN。
  - 具体而言，我们使用保留策略来保护接近当前卸载策略的转换。
  - 我们还采用优先策略来选择对损失函数的减少做出更大贡献的过渡。
  - 这两种策略可以加速DRL的收敛，这对于大规模网络非常重要。

📊效果

数值结果表明，与现有基准相比，所提算法在实现接近最优性能的同时，显著缩短了计算时间。
结果表明，所提框架能够高精度地同时优化计算卸载和资源分配，使大规模MEC系统的实时资源调度成为可能。

🧠疑问

所提到的“大规模”具体有多大？
论文穿肠过，空气心中留🥲。如何能让论文内容真正内化成知识？通过对比总结将一批论文统一编码？

希望这篇博客对你有帮助！如果你有任何问题或需要进一步的帮助，请随时提问。
如果你喜欢这篇文章，欢迎动动小手给我一个follow或star。

🗺参考文献

[1] F. Jiang, K. Wang, L. Dong, C. Pan and K. Yang, “Stacked Autoencoder-Based Deep Reinforcement Learning for Online Resource Scheduling in Large-Scale MEC Networks,” in IEEE Internet of Things Journal, vol. 7, no. 10, pp. 9278-9290, Oct. 2020, doi: 10.1109/JIOT.2020.2988457.

Fre5h1nd's Blog

【论文】略读笔记26-经典-深度强化学习在大规模MEC网络中在线资源调度

📖《Stacked Autoencoder-Based Deep Reinforcement Learning for Online Resource Scheduling in Large-Scale MEC Networks》

🎯需求

🚧现状

🛩创新

📊效果

🧠疑问

🗺参考文献