📖《Multi-agent deep reinforcement learning for online request scheduling in edge cooperation networks》

🎯需求

边缘计算作为云计算的一种补充模式，通过在网络边缘为移动用户提供多样化服务而受到越来越多的关注。然而，日益复杂的移动应用给边缘网络带来了更大的负荷。
- 随着新一代通信技术的发展，连接的智能设备呈指数级增长，加剧了骨干网络的拥塞。边缘计算应运而生，它通过在网络边缘提供计算、存储和内容资源，来满足智能设备产生的相对复杂的应用（也称为用户请求）。
- 边缘计算作为云计算的有力补充，可以避免对延迟敏感的用户请求进行长距离数据传输，这些请求被表示为有向无环图（DAG）。这些用户请求可以分解成一系列具有逻辑关系和时间依赖性的任务。
- 一般来说，应为这些用户请求有效调度和分配资源，以满足它们的各种约束条件。
如何为并发请求提供高质量的服务处理是一项挑战，尤其是当边缘网络处于动态变化时。

🚧现状

传统的离线或静态技术试图根据精确的任务执行时间和当前系统状态信息，找到基于 DAG 的请求调度问题的最优解，其中所有子任务的调度决策都是事先生成的。
- 虽然从不同角度看，这种不考虑系统动态的策略简单有效，但通常无法实现资源优化利用的目标。
  - 一方面，边缘网络中的各种资源是分布式的，边缘节点的可用资源随时间动态变化，如何通过分布式边缘节点之间的合作提高网络性能是一个挑战。
  - 另一方面，与目前大多数关注原子任务的工作不同，基于 DAG 的用户请求调度难度更大。用户请求的复杂结构和并发特性大大增加了边缘网络的工作量。
本文努力探索动态环境下的在线调度和资源分配方法，以提高分布式网络的长期性能。
在线策略通常是动态系统中更有效的调度方法，因为它是为处理边缘系统中网络和计算资源的动态特性以及并发用户请求问题而开发的。根据运行时获得的状态信息对任务进行调度决策，动态地实现系统的全局优化。
- 由于在线策略可以提高资源利用率，因此有研究探讨了边缘网络中在线方式的资源管理和用户请求调度优化，并提出了集中式策略和分布式策略两种主要技术。
  - 在面向集中式策略的研究中，边缘网络资源管理和用户请求调度需要完整的边缘网络环境状态信息和请求负载信息。
    - 然而，当边缘节点数量较多时，收集大规模状态信息会消耗更多网络资源。
  - 与集中式策略相比，在分布式策略中，边缘节点有自己的策略，只收集本地环境状态信息来帮助请求调度决策，这有效减轻了骨干网络的信息传输负担。
    - 但由于边缘节点的部分可观测特性，这也增加了提高边缘网络整体性能的难度。
此外，在目前的研究中，在线调度技术都是针对单个基于 DAG 的请求，如何处理大量并发的用户请求仍是一个难题。

🛩创新

为了缓解上述问题，本文研究了边缘合作网络中的在线并发用户请求调度优化问题。
- 我们将其建模为一个在线多阶段决策问题，其中请求被划分为一组独立且逻辑相关的子任务。
- 我们提出了一种基于集中训练分布式执行的多代理深度强化学习技术，以实现边缘节点间的隐式合作调度决策策略学习。
  - 在该机制的集中训练阶段，采用了基于值分解的策略学习技术，以提高系统的长期性能；
  - 而在分布式执行阶段，各边缘节点仅需本地环境状态信息（如何实现？）即可做出请求调度决策。
- 我们提出了一种在线分布式请求调度优化机制。具体来说，
  - 首先建立一个全局任务队列，及时处理并发用户请求中可执行的部分子任务。
  - 然后，应用基于间接交互的多代理深度强化学习算法，确保分布式任务调度的实施，有效降低网络中的数据传输成本，提高边缘系统的稳定性和鲁棒性。
本文的主要贡献总结如下：
- 我们试图解决具有分布式资源部署特征的边缘网络中并发用户请求的调度问题。我们为提出的问题构建了一个多目标优化函数，以最小化边缘网络的长期平均延迟和能耗，同时最大化用户请求的吞吐率。
- 我们提出了一种名为 “价值分解多代理 DQN（VD-MADQN）”的在线并发用户请求调度机制。所提出的机制以集中培训和分布式执行（CTDE）的方式运行，它利用了整体环境状态信息，实现了边缘节点之间的隐式合作。
- 为了评估所提出的机制，我们基于真实世界的开源数据集进行了广泛的实验，并将其与其他基于学习的决策算法在不同的用户请求结构类型下进行了比较。

📊效果

我们进行了广泛的实验，仿真结果表明，所提出的机制在降低长期平均系统延迟和能耗方面优于其他请求调度机制，同时提高了系统的吞吐率。

🧠疑问

如何通过“仅需本地环境状态信息”实现全局调度？
如果每个agent只负责决定子任务放到哪个节点，谁来保证任务间的依赖关系？仅靠黑盒神经网络？
为什么每个时间段t内，一个agent只给每个节点分配1个任务？
深度强化学习可以实现仅使用有限信息做出全局较优决策？如果真如此，那这个点还挺有意思。
1. 集中训练分布执行CTDE思路下，不需要什么特殊设计就能实现全局较优决策？
论文缺乏“和全局集中式方法”对比这部分实验。（好像也解释得通，因为所需信息比集中式少得多，所以不和他们比。隐含的意思是在质量方面肯定比不过。但最好肯定还是做一下实验并展现出在效率方面的优势。）

希望这篇博客对你有帮助！如果你有任何问题或需要进一步的帮助，请随时提问。
如果你喜欢这篇文章，欢迎动动小手给我一个follow或star。

🗺参考文献

[1] Yaqiang Zhang, Ruyang Li, Yaqian Zhao, Rengang Li, Yanwei Wang, Zhangbing Zhou, Multi-agent deep reinforcement learning for online request scheduling in edge cooperation networks, Future Generation Computer Systems, Volume 141, 2023, Pages 258-268.

Fre5h1nd's Blog

【论文】略读笔记29-前沿-边缘多Agent深度强化学习调度

📖《Multi-agent deep reinforcement learning for online request scheduling in edge cooperation networks》

🎯需求

🚧现状

🛩创新

📊效果

🧠疑问

🗺参考文献