【论文】略读笔记60-前沿-跨地域成本感知调度

【论文】略读笔记60-前沿-跨地域成本感知调度

Fre5h1nd Lv5

📖《A Global Cost-Aware Container Scheduling Strategy in Cloud Data Centers》

2022 年发表于 CCF-A 类期刊 TPDS。

🎯需求

  • 在数据中心运行的大型互联网应用通常是作为一组容器实例化的。
    • 在数据中心(DC)的建设和运营成本中,超过60%是耗电量。随着 5G、边缘计算、区块链等新技术的发展,2020 年至 2021 年期间,中国数据中心的总用电量也将超过 2000 亿度电,并在接下来的几年中快速增长,到 2023 年将超过 2500 亿度电。预计2011年至2035年之间全球对直流电的电力需求将增加超过66%。
      • 传统的数据中心通常会将云资源打包成不同类型的虚拟机 (VM) 并提供给用户。这些数据中心存在功耗高、资源利用率低等问题。因此,云服务提供商迫切需要推动传统数据中心向具有更高计算能力和能效的新型数据中心演进。
      • 近年来,容器云平台作为 VM 的轻量级替代品,因其启动速度快、资源利用率高、弹性扩展等优点而大受欢迎。容器简化了构建、部署和运行应用程序的过程。借助容器,应用程序可以共享操作系统,并且凭借其轻量级属性,可以在数据中心部署数百万个容器。现代云平台必须同时处理大量并发容器请求。一些流行的开源容器编排工具,包括 Google Kubernetes、Docker Swarm 和 Apache Mesos,正在为容器的自动化部署和配置提供基本服务。对 Google 集群跟踪的分析表明,调度器在高峰时段每秒需要做出数百次放置决策。这无疑对容器调度器提出了更高的要求。
  • 将容器分配给亲和机器可以降低通信和运输成本,而将其分配给反亲和机器则可能影响容器的正常运行。
    • 容器技术的兴起也推动了大型 Internet 应用程序的抽象化,其中大型 Internet 应用程序的多个实例通常需要部署在集群中的多个不同服务器上。这要求应用程序在部署时可以轻松访问所需的计算、存储和网络资源,并且应用程序不能在不合格的服务器上部署其容器实例。因此,某些云服务通常允许用户为应用程序指定关联性/反关联性要求,以便他们可以根据其计算机的特性为应用程序选择合适的主机集。
      • 具体来说,亲和性是指由于性能或合规性,应用程序需要部署在具有特定内核版本的机器上或特定的资源池中,例如,只有具有高 IOPS 磁盘的主机才能用于 IO 密集型应用程序。
      • 反亲和性意味着无法在某些不具备应用程序所需软件和硬件条件的计算机上安装应用程序。例如,出于立法原因或为了确保某些服务靠近最终用户,可能不允许在特定区域内和外托管。
  • 综上所述,为了提高数据中心和应用的运行效率并节省电力成本,我们面临着以下挑战:
    • 1)当集群状态稳定时,调度算法的一项重要任务是能够最大化相同数量的机器的价值,或者用更少的机器支持当前的应用程序规模。
    • 2)合理的调度算法可以在一定程度上缓解数据中心的电力负担。如何为要部署的所有容器选择更节能的机器是一个值得考虑的问题。
    • 3)由于应用程序的容器实例与不同服务器之间存在亲和/反亲和关系,调度器面临着拥有足够机器资源但无法使用它们的挑战。

🚧现状

  • 现有的集装箱调度方法无法满足以上要求。

🛩创新

  • 为了降低数据中心的运维成本,本文重点研究了异构服务器集群中的容器实例分配问题,并提出了一种全局成本感知调度算法(GCCS)来解决这个问题。其目的是从全局角度最大限度地降低集群的总功耗,同时尽量满足应用程序的亲和/反亲和要求。
    • 在这项工作中,我们提出了一种全球成本感知的集装箱调度方法 (GCCS)。
      • 进化种群动力学思想的启发,我们将状态变量表示为应用程序在每台机器上放置的容器数量与该应用程序的容器总数。
      • 我们模拟不同应用程序之间的策略交互,同时考虑到应用程序的资源需求和计算机的容量限制。
      • 此外,我们还支持指定应用程序和计算机之间的亲和性/反亲和性关系,以适应它们各自的性能。
      • 目标是最大限度地降低集群的总成本,并平衡服务器集群的总功耗与应用程序的整体关联性满意度。
  • 本文的主要贡献如下:
    • 1)基于进化种群动力学的思想,研究了应用程序选择的每台服务器的容器数量,计算了聚类的总成本,提出了整数线性规划 (ILP) 问题,得到了迭代解。然后,提出了一种启发式残差搜索算法 (RSA) 将容器分布的数量修复为整数次优可行解。因此,最终的次优放置方案是间接获得的。
    • 2)贝叶斯优化器用于为所提出的算法提供亲和成本系数的自动选择。经过多次的开发和探索,贝叶斯优化器最终为我们的实验推荐了一个权衡功效优化比和亲和力满足比的最优成本系数。
    • 3)所有步骤都总结在论文中提出的容器调度算法 GCCS 中。GCCS 的性能是通过大量模拟来评估的。与现有算法相比,GCCS 可以显著降低集群的总功耗,并在不同的集群环境和应用程序请求下保持较高的亲和性满足率。

📊效果

  • 最后,实验结果表明,GCCS 可以显著降低集群的总功耗,同时保持较高的亲和满足率。

⛳️未来机会

  • 我们计划扩展资源分配的维度,以实现多个资源的容器分配。

🧠疑问

  1. 创新性在于考虑了亲和性/反亲和性,但对此似乎没有提出什么特别的解决方案?


  • 希望这篇博客对你有帮助!如果你有任何问题或需要进一步的帮助,请随时提问。
  • 如果你喜欢这篇文章,欢迎动动小手 给我一个follow或star。

🗺参考文献

[1] S. Long, W. Wen, Z. Li, K. Li, R. Yu and J. Zhu, “A Global Cost-Aware Container Scheduling Strategy in Cloud Data Centers,” in IEEE Transactions on Parallel and Distributed Systems, vol. 33, no. 11, pp. 2752-2766, 1 Nov. 2022, doi: 10.1109/TPDS.2021.3133868.

  • 标题: 【论文】略读笔记60-前沿-跨地域成本感知调度
  • 作者: Fre5h1nd
  • 创建于 : 2024-09-17 23:06:56
  • 更新于 : 2024-09-18 13:52:15
  • 链接: https://freshwlnd.github.io/2024/09/17/literature/literatureNotes60/
  • 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。
评论