📖《Deep and reinforcement learning for automated task scheduling in large-scale cloud computing systems》

🎯需求

无可否认，云计算正在成为当今主要工作负载的主要计算和存储平台。从物联网和工业 4.0 工作负载到大数据分析和决策工作，云系统每天都会收到大量需要同时有效映射到云资源的任务。
- 云计算是一个基于互联网的平台，向用户和公司大规模提供软件、数据库、服务器、存储、分析和网络等计算服务。云计算主要因其降低运营成本的能力和始终在线的可用性而受到赞誉。物联网 (IoT) 在许多应用（例如智能交通系统、医疗保健管理等）以及相关应用中的日益普及前所未有的海量数据的产生导致人们越来越依赖云技术以资源高效且经济高效的方式存储和分析此类数据。
- 云计算以虚拟机 (VM) 的形式在虚拟平台上运行所有这些应用程序，其中每个资源维度（例如 CPU、内存、带宽等）都在不同的 VM 之间划分。这些应用程序需要以并行方式执行，以便有效地利用不同的云资源。
因此，需要一种合适的任务调度机制，既能最大限度地减少任务执行延迟，又能最大限度地减少云资源利用率。
- 需要规划和排序不同应用程序的执行，以保证最佳的资源利用率和执行性能。由于云平台上需要同时调度的应用程序数量巨大，手动分配这些应用程序变得越来越困难。这是一项几乎不可能完成的任务。
最近，出现了云自动化的概念，以减少大规模云计算工作负载中的人工干预并改善资源管理。
- 云自动化是一个新兴概念，它利用人工智能领域的蓬勃发展，最大限度地减少调度和管理云计算工作负载的手动工作。它包括设计在虚拟化之上执行的自动化技术和工具。云环境在资源分配和管理方面做出实时决策。

🚧现状

云计算环境中的任务调度主题已在文献中得到广泛讨论。目前的调度方法可以分为两大类，即传统方法和智能方法。
- 传统方法侧重于调整和扩展传统调度方法，例如先进先出、最短作业优先 (SJF)、循环 (RR)、min-min 和 max-min，以适应云计算设置。传统方法的主要限制是它们只能支持有限数量的参数（例如，完工时间）进行优化。这使得它们不适合云计算环境，在云计算环境中，任务Makespan和CPU、内存和带宽成本等许多参数需要同时优化。
- 另一方面，智能方法利用模糊逻辑、粒子群优化 (PSO) 和遗传算法 (GA) 等人工智能技术来设计更可靠的调度技术，同时优化多个参数。然而，与传统方法类似，智能调度方法通过在接收到特定任务时尝试优化一系列参数来以离线方式运行。这会导致执行时间较长，从而导致物联网和大数据分析任务等延迟关键型任务效率低下。
最近，人们进行了许多尝试，以利用机器学习（尤其是深度学习）领域的蓬勃发展来实现云系统中资源管理流程的自动化。这些方法主要基于检查虚拟机的历史资源数据以预测未来工作负载的想法。目标是改善资源管理并避免供应不足和过度的情况。
- 在本文中，我们研究了四种深度学习和强化学习方法的应用，以实现云上任务调度过程的自动化。
- 在这项工作的初步版本中，我们提出了一种智能技术，可以帮助云提供商以最小化资源利用率和总体成本的方式安排任务。
- 本文基于并扩展了我们之前的工作，通过设计、开发和比较不同的云自动化模型，使云提供商能够在可用云资源上自动调度大规模工作负载，同时最大限度地减少任务、执行延迟和云资源利用率。

🛩创新

在本文中，我们利用云自动化这个概念，提出了四种基于深度强化学习的调度方法，以自动化将大规模工作负载调度到云计算资源上的过程，同时减少资源消耗和任务等待时间。目标是分析和确定最合适的技术，以最好地提高任务执行性能，同时最大限度地降低云系统上的资源成本。
- 这些方法是：强化学习（RL）、深度 Q 网络、循环神经网络长短期记忆（RNN-LSTM）以及深度强化学习与 LSTM 相结合（DRL-LSTM）。
  - 第一种调度方法基于强化学习（RL）。
    - 我们的 RL 网络的状态空间代表了托管任务的虚拟机上的可用资源量，包括 RAM、CPU、磁盘存储和带宽。动作空间表示接收到的任务集的调度。奖励函数（在我们的例子中是成本）代表在虚拟机上执行任务的 RAM、CPU、磁盘存储、带宽和等待时间的成本。
  - 第二种调度方法使用深度 Q 网络 (DQN)。
    - DQN 是一种深度强化学习 (DRL) 方法，它采用神经网络来近似 Q 值（即最大化奖励函数的状态-动作对）。
  - 第三种调度方法基于长短期记忆 (LSTM)，这是一种循环神经网络 (RNN) 架构。
    - RNN-LSTM 的主要思想是跟踪任务的资源需求与虚拟机上的可用资源之间的历史长期依赖关系，以提取每个状态-动作对对最终执行成本的影响。从技术上讲，我们的 RNN-LSTM 单元由一个单元和三个门组成。该单元是 LSTM 的内存部分，因为它跟踪输入组件之间存在的依赖关系（在我们的例子中是调度任务的资源要求和虚拟机的资源规范）。输入门负责确定新值足以保留在存储单元中的有用程度。另一方面，遗忘门确定现有值应保留在存储单元中或丢弃的程度。最后，输出门决定了应该利用存储单元中的某个值来计算 LSTM 单元的输出激活函数的程度。
  - 第四种也是最后一种调度方法是 DRL-LSTM，使用 DQN 和 LSTM 的 DRL 组合。
    - 具体来说，添加 LSTM 单元作为 DRL 的第一层，以帮助捕获数据中的长期历史依赖性。

📊效果

使用 Google Cloud Platform 的真实数据集进行的实验表明，DRL-LSTM 的性能优于其他三种方法。实验还表明，与最短作业优先 (SJF) 相比，DRL-LSTM 将 CPU 使用成本降至 67%，与循环 (RR) 和改进的粒子群优化 (PSO) 方法相比，CPU 使用成本降低高达 35% 。此外，我们的 DRL-LSTM 解决方案与 SJF 相比，将 RAM 内存使用成本降低了 72%，与 RR 相比，降低了 65%，与改进的 PSO 相比，降低了 31.25%。

🧠疑问

创新性在于？
说是大规模，为啥不比较时间？
任务长什么样？价格与什么有关？不同决策为什么会有不同的成本？

希望这篇博客对你有帮助！如果你有任何问题或需要进一步的帮助，请随时提问。
如果你喜欢这篇文章，欢迎动动小手给我一个follow或star。

🗺参考文献

[1] Rjoub, G, Bentahar, J, Abdel Wahab, O, Saleh Bataineh, A. Deep and reinforcement learning for automated task scheduling in large-scale cloud computing systems. Concurrency Computat Pract Exper. 2021; 33:e5919. https://doi.org/10.1002/cpe.5919

Fre5h1nd's Blog

【论文】略读笔记19-经典-大规模云计算系统智能学习调度

📖《Deep and reinforcement learning for automated task scheduling in large-scale cloud computing systems》

🎯需求

🚧现状

🛩创新

📊效果

🧠疑问

🗺参考文献