【论文】略读笔记62-前沿-雾计算下仿真支持的动态编排
📖《COSCO: Container Orchestration Using Co-Simulation and Gradient Based Optimization for Fog Computing Environments》
2022 年发表于 CCF-A 类期刊 TPDS。
🎯需求
- 雾计算是分布式系统中的一种新兴模式,它包括物联网(IoT)层(地理分布式传感器和执行器)和云层(远程云平台)之间的所有中间设备。它可以通过将计算、网络和存储服务置于更接近终端用户的位置来减少延迟,从而带来诸多好处。
- 然而,雾环境在与现实世界的应用集成时会带来一些挑战。由于现代工作负载应用的高度不稳定性,以及用户对低能耗和响应时间的敏感要求,在大规模雾平台中对任务进行智能安排和管理具有挑战性。
- 例如,许多应用,尤其是医疗保健、机器人和智能城市领域的应用,都要求超低响应时间,特别是对服务水平目标(SLO)敏感的应用。
- 其他涉及能量回收边缘设备和可再生资源的应用则需要在执行任务时实现最高能效。
- 现代应用工作负载高度动态,主机资源能力不稳定,这使得实现低响应时间和低能耗的挑战变得更加复杂。
🚧现状
- 为了缓解这一问题,容器协调平台应运而生.
- 现有技术要么使用启发式方法快速做出调度决策,要么使用人工智能驱动的方法(如强化学习和进化方法)来适应动态场景。前者往往无法在高度动态的环境中快速适应,而后者的运行时间则慢得足以对响应时间产生负面影响。
- 为了提供快速、节能的解决方案,之前的许多工作都侧重于开发智能策略,以调度雾主机上的计算任务。
- 1)这些方法主要采用启发式技术。
- 优点:这些方法的调度时间短,在一般情况下效果良好;
- 缺点:但由于存在稳态或静态假设,在具有动态工作负载的非稳态异构环境中性能较差。
- 2)为了解决这个问题,之前的一些方法采用了基于进化方法和强化学习的更智能、更自适应的方案。
- 优点:这些方法能适应不断变化的场景,为动态优化提供了广阔的前景。
- 缺点:然而,由于这些方法的建模准确性差、可扩展性低,因此也无法有效管理多变的雾环境。
- 3)为了对雾环境进行精确和可扩展的建模,许多研究都使用了基于深度学习的局部搜索或神经网络学习模型,
- 优点:这些模型可以逼近目标函数,如能耗或响应时间。由于这些神经网络近似优化问题的目标函数,因此通常被称为 “神经近似器”。具体来说,由于遗传算法(GA)和策略梯度学习等优化方法的通用性,许多最新技术主要使用这些方法来优化 QoS 参数。
- 缺点:然而,由于采用非定向搜索方案,像遗传算法这样的无梯度方法收敛到最优状态的速度很慢。此外,策略梯度学习需要时间来适应环境的突然变化,而且同样存在调度开销大的问题。这种高调度时间限制了可能改善延迟的程度,进而限制了对 SLO 的违反。这不适用于主机和工作负载特性可能会突然发生不稳定变化的高波动环境。
- 1)这些方法主要采用启发式技术。
- 因此,需要一种不仅能快速适应多变环境,而且调度开销低的方法,以有效处理现代工作负载需求。
- 4)要解决这个问题,一个自然的选择是使用定向方案,如 A* 搜索或基于梯度的优化策略。
- 优点:尽管这类策略的收敛速度已被证明比无梯度方法快得多,
- 缺点:但由于现实世界问题中的搜索空间高度非线性,可能导致这类方法陷入局部最优,因此之前的研究并没有使用这类策略。
- 5)此外,之前的研究也没有利用最近的进步,比如均方根传播、动量梯度下降和退火梯度下降,这些都有助于防止局部最优问题。
- 4)要解决这个问题,一个自然的选择是使用定向方案,如 A* 搜索或基于梯度的优化策略。
- 为了提供快速、节能的解决方案,之前的许多工作都侧重于开发智能策略,以调度雾主机上的计算任务。
- 有鉴于此,我们相信,通过利用神经网络的优势来精确逼近 QoS 参数,我们可以将基于梯度的算法与减少此类方法陷入局部最优的可能性的先进技术结合起来应用。
- 先前的工作还证明,神经近似器能够利用反向传播精确模拟目标函数相对于输入的梯度,从而使我们能够在基于梯度的方法中使用它们,实现快速收敛。
- 将这一系列方法结合在一起,就能提供快速高效的优化方法。我们特别提出了一种基于梯度的优化算法(GOBI),它可以计算神经网络相对于输入的梯度,从而利用先进的基于梯度的优化策略优化 QoS 参数。我们通过实验证明,与最先进的方法相比,我们的方法为雾调度提供了更快、更可扩展的优化策略。
- 然而,仅仅使用基于梯度的优化是不够的,因为数据驱动的神经模型有时会饱和。这时,向神经模型输入更多数据并不能提高性能。在这种情况下,很难进一步优化 QoS,需要更智能的方案。
- 6)耦合仿真(也称协同仿真或共生仿真)和任务执行已被证明是在不久的将来快速获得 QoS 参数估计的一种可行方法。具体来说,耦合模拟允许我们在后台运行模拟器与调度算法,以促进决策制定。不过,之前的工作是利用它来辅助搜索方法,而不是生成更多数据来促进人工智能模型的决策制定。后者需要在调度程序和模拟器之间开发新的接口。
🛩创新
- 我们开发了 COSCO: 耦合仿真与容器编排框架,以利用仿真结果获得更好的服务质量。COSCO 框架是首个允许在雾环境中对容器迁移决策进行单步或多步模拟的框架。它能让调度员在未来间隔结束时获得 QoS 参数的估计值,从而进行更好的预测,进而优化调度。容器迁移是指在不同的物理或虚拟主机之间移动应用程序,并在目标主机上恢复计算的过程。这样,我们就可以运行 GOBI 方法,模拟计划(使用预测的工作量模型),并将目标值提供给另一个神经近似器,后者可以更好地近似目标函数,从而提高性能。我们将这种新颖的优化循环称为 GOBI(下图)。GOBI 和 GOBI 之间的交互式动态训练有助于后者快速收敛并适应多变的环境。
- 总之,本文的主要贡献是:
- 1)我们提出了一个新颖的框架 COSCO,这是首个允许在雾环境中进行耦合模拟和容器协调的框架。
- 2)我们提出了一种基于梯度的反向传播优化方法(GOBI),用于快速、可扩展的调度,并证明它优于最先进的调度器。
- 3)我们还提出了一种扩展方法(GOBI*),利用 COSCO 运行 GOBI 决策的模拟结果,以较低的调度开销提供更好的预测和调度决策。
- 4)利用真实世界的基准数据在物理设置上对 GOBI 和 GOBI* 进行验证后发现,GOBI 的性能低于 GOBI。不过,GOBI 更适合资源有限的雾代理,因为它的计算要求较低。另一方面,GOBI 更适合具有关键 QoS 要求和功能强大的雾代理的设置。
📊效果
- 使用 GOBI 和 GOBI* 方法对真实世界的雾应用数据进行的实验表明,与最先进的算法相比,该方法在能耗、响应时间、服务水平目标和调度时间方面分别提高了 15%、40%、4% 和 82%。
⛳️未来机会
- 我们建议对 COSCO 框架进行扩展,以允许无服务器计算的工作流模型。扩展到无服务器将使我们能够执行细粒度的自动缩放,提高生产率并改善灵活性和物流。
- 对于反向传播方法,我们希望扩展我们的方法,以考虑层类型和激活,如递归、卷积或具有整流线性单元(ReLU)的残差。这是因为此类非可变函数正越来越多地用于逼近各种目标函数。更先进的层类型还能让我们模拟环境的时间和空间特征。
🧠疑问
- 本文解决的到底是迁移问题还是调度问题?
- 本文对现状的分类很清晰。但其中,梯度+神经网络的创新点的实际意义还不太了解?原本的神经网络不用定向梯度下降吗?
- 本文核心亮点是:定向搜索+避免局部最优+利用模拟生成更多数据供AI训练?
- 如果放到大规模场景下存在什么问题?智能方法调度效率太低?模拟效率太低?
- 根据实验结果,仅50个主机情况下,调度就需要10s以上,现有其他算法更是慢到200s以上。
- 大规模属性在于?动态变化的环境
- 希望这篇博客对你有帮助!如果你有任何问题或需要进一步的帮助,请随时提问。
- 如果你喜欢这篇文章,欢迎动动小手给我一个follow或star。
🗺参考文献
- 标题: 【论文】略读笔记62-前沿-雾计算下仿真支持的动态编排
- 作者: Fre5h1nd
- 创建于 : 2024-09-23 15:06:19
- 更新于 : 2024-10-08 11:39:55
- 链接: https://freshwlnd.github.io/2024/09/23/literature/literatureNotes62/
- 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。
评论