【论文】略读笔记49-前沿-异构感知的资源配置、调度、伸缩联合

【论文】略读笔记49-前沿-异构感知的资源配置、调度、伸缩联合

Fre5h1nd Lv5

📖《Heterogeneity-aware Proactive Elastic Resource Allocation for Serverless Applications》

2024 年发表于 CCF-A 类期刊 TSC。

🎯需求

  • 无服务器计算是一种流行的云计算模式,它提供按需分配资源和”即用即付”的应用执行方式。
    • 无服务器计算通过实现弹性扩展、按需配置和经济高效的执行,简化了工作流应用程序的管理。开发人员可以专注于业务开发,而云服务提供商(CSP)则负责处理创建、部署和扩展等任务。这使得无服务器计算成为实施复杂工作流的一个极具吸引力的选择。
  • 相关工作评估了无服务器计算为复杂工作流带来的成本效益。然而,应用和服务器正变得越来越异构,工作负载模式也更加多变,
    • 应用复杂性包括业务拓扑、功能数量、功能和非功能属性,
    • 服务器复杂性包括服务器软硬件类型和物理架构;
    • 工作负载模式复杂性包括请求到达、变化趋势和变化幅度。

🚧现状

  • 因此,如何分配异构工作流是 CSP 面临的一项重大挑战,CSP 可能会以次优方式为应用程序分配资源,从而违反服务质量 (QoS) 目标(如响应时间和成本预算),并产生额外的基础设施成本。需要解决现有问题:
      1. 资源配置估算不准确、效率低大多数方法使用实验室测试、简单统计、人工经验或详尽搜索来估算资源配置。这些方法忽略了运行时日志,导致动态和异构场景中的供需不匹配。少数方法使用历史或现场日志,面对同质服务器或应用程序。这些方法假设有足够的日志可用,但无法确保模型的可用性。此外,现场日志收集效率较低,导致初始化时间过长。
      1. 功能间的高延迟间接通信方式:当今的服务器采用非统一内存访问架构(NUMA),但通信时间往往被忽视,尽管它对数据密集型应用非常重要。有些方法通过考虑功能间通信来优化工作流执行时间。不过,这些方法只采用外部存储作为通信介质,或者缺乏介质按需选择。
      1. 被动扩展服务器导致资源就绪时间过长:CSP 可根据应用需求扩展服务器,以优化资源成本、能源和资源就绪时间。大多数方法假设服务器持续激活或被动扩展。少数方法采用基于回归的方法(如 ARIMA 和 LSTM)来估计请求到达数,这些方法使用连续值,无法捕捉特定时段内的突然变化。而高度波动的请求到达数很容易造成高估或低估的问题。

🛩创新

  • 因此,我们提出了异构感知的主动无服务器工作流弹性分配方法(PLOEA)来解决这些问题,从配置估计实例分配再到服务器扩展,在满足开发者个性化需求的同时降低了 CSP 的基础设施成本,并保持了无服务器计算中的透明管理。具体来说,
    • 我们为异构工作流应用提出了一种资源配置估算方法,该方法建立了一个集合多任务专家分类器,用于分析个性化和共性资源需求模式,确保估算的准确性和效率。
    • 此外,我们还为多个应用提出了分组分配策略,通过考虑分配的紧迫性、功能之间的通信亲和性以及服务器的多核架构,优化实例的时空分布。
    • 此外,我们还提出了一种主动式服务器弹性扩展方法,该方法可感知工作负载特征,包括工作负载水平、趋势和幅度变化,并将其与 CSP 的注意力差异相结合,以指导服务器扩展规模。
  • 主要贡献如下
    • 1)我们提出了一种工作流资源配置估算方法,利用随机森林构建多任务专家分类器,并行识别服务器类型与资源容量之间的双目标耦合关系,避免了大量搜索,并集成了分类器分析单个和多源共性资源需求模式,避免了对部分日志的敏感性。
    • 2)我们提出了一种时空联合实例分配算法,该算法考虑了功能分配紧迫性、功能间通信亲和性和服务器 NUMA 架构。它通过启发式排序、分组、检查和分配具有三种通信介质的实例,优化了开发人员满意度和 CSP 成本。
    • 3)我们提出了一种前瞻性服务器弹性扩展方法,该方法采用融合 GRU 模型,利用工作负载水平、趋势和振幅特征预测工作负载模式。该方法动态分配注意力权重以指导缩放大小,解决了对可变工作负载模式不敏感的问题。
    • 4)通过一系列实验,证明了 PLOEA 在预测精度、平均满意度、服务器租用成本和运行开销方面的优势。

📊效果

  • 最后,基于公共数据集的实验证明,与现有方法相比,PLOEA 能提供更好的服务质量和成本效益。

⛳️未来机会

  • 未来,我们计划开发一个无服务器编排系统,实现对 Docker 实例或 WebAssembly 实例之间的三种通信介质的支持,以实现我们的 PLOEA 方法的应用。
  • 此外,我们还计划研究funcion实例的动态迁移,以避免面临更多动态云环境的实例在运行时出现资源竞争和资源短缺。

🧠疑问

  1. serverless场景的特点是什么?
  • 更异构:应用、服务器、工作负载模式三个方面。
  1. 三个现状不足之间的关系是什么?
  • 时间顺序:先设定所需资源量,再调度资源位置,最后动态伸缩。
  1. 核心难点是什么?似乎不够亮?
  2. 调度与伸缩是否冲突?还是说是长期的请求?三者联合是否存在额外难点?
  3. 也许一篇好论文亮点不止在于“发现新问题”,也在于“巧妙地解决问题”,不过从这篇文章的引言似乎还看不出来解法的巧妙性,还需要进一步精读。


  • 希望这篇博客对你有帮助!如果你有任何问题或需要进一步的帮助,请随时提问。
  • 如果你喜欢这篇文章,欢迎动动小手 给我一个follow或star。

🗺参考文献

[1] B. Feng, Z. Ding, X. Zhou and C. Jiang, “Heterogeneity-aware Proactive Elastic Resource Allocation for Serverless Applications,” in IEEE Transactions on Services Computing, doi: 10.1109/TSC.2024.3350711.

  • 标题: 【论文】略读笔记49-前沿-异构感知的资源配置、调度、伸缩联合
  • 作者: Fre5h1nd
  • 创建于 : 2024-07-10 00:29:28
  • 更新于 : 2024-07-12 11:07:59
  • 链接: https://freshwlnd.github.io/2024/07/10/literature/literatureNotes49/
  • 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。
评论