【论文】略读笔记51-前沿-主动式动态集成服务管理

【论文】略读笔记51-前沿-主动式动态集成服务管理

Fre5h1nd Lv5

📖《Proactive Elastic Scheduling for Serverless Ensemble Inference Services》

2024 年发表于 CCF-B 类会议 ICWS。

🎯需求

  • 人工智能推理服务采用了集成(ensemble)架构,其先进的性能得到了广泛认可和使用。
    • 当前,机器学习和人工智能的迭代和发展为解决各行各业的复杂问题创造了新的可能性,从而推动了各行各业的创新。
    • 推理服务是指部署在服务器或云环境中的机器学习模型,这些模型接收来自客户端的实时请求,并对接收到的数据进行预测或推理。
    • 集成学习作为先进的人工智能技术之一,已广泛应用于在线推理服务。它综合了多个基础学习器的结果,从而得到最终结果,具有减少偏差、方差和过拟合风险的效果。采用集成架构的推理服务已广泛应用于图像分类、自然语言处理、医学成像、时间序列预测等领域。

🚧现状

  • 传统集成推理服务主要采用平台即服务(PaaS)的模式创建和管理,具有静态的集成服务架构僵化被动的持久资源分配。这就使得高度异构的推理请求依赖于基础学习器的固定组合和人工同构资源管理,导致精度不足资源浪费管理成本高昂
  • 以 “功能即服务”(FaaS)为代表的无服务器计算可以实现对开发者透明的按需分配资源,适用于集成推理服务。
    • 因此,为了实现开发人员从资源管理的挑战中解脱出来,无服务器计算中最常用的服务交付模式–FaaS 成为越来越受欢迎的服务方式。无服务器技术具有弹性扩展、按需供应和即用即付定价模式等特点,为优化服务质量和成本效率奠定了基础。
  • 然而,目前的集成推理服务仍存在以下不足。
    • 1)集成推理服务的静态架构:推理服务的请求工作量极不稳定,大多数集成推理服务都是基于固定或依赖精度的基础学习器组合构建的,忽略了模型精度和开销的波动性和异构分布,难以适应工作量的波动性和异构性。
    • 2)被动、僵化的基础学习器资源分配:无服务器功能采用按需分配资源的方式,现有的大多数工作都是被动地为基础学习器创建容器,并根据请求到达情况进行僵化的资源分配,导致基础学习器的准备时间和请求排队时间较长,不同基础学习器的运行时间不均衡,服务性能不足,资源浪费较多。
    • 3)人工运维管理效率低:由于集成推理服务的复杂性和特殊性,目前的人工智能服务框架和无服务器平台不支持集成推理服务的自动运维,往往需要开发者参与模型选择和资源配置,导致运维效率低、管理成本高。

🛩创新

  • 因此,我们为集成推理服务提出了一种无服务器主动弹性调度解决方案PESEI。
    • 1)提出了一种具有联合模型精度和开销感知的两级分层动态集成服务框架,该框架描述了精度和开销分布的特征,并创建了两级选择器,通过维护动态队列自动选择模型,实现动态集成架构,以适应工作负载的波动性和异质性。
    • 2)提出了一种动态感知工作负载模式的基础学习器主动弹性资源分配算法,该算法基于长短时记忆模型(LSTM),考虑了多步超前请求工作负载的多种变化特征,按需主动分配弹性空间资源,并对基础学习器进行预热,缩短服务准备时间。
    • 3)设计并开发了无服务器集成推理服务系统,该系统遵循管理-分析-计划-执行(MAPE)循环,实现了集成推理服务生命周期的自主运维。

📊效果

  • 在公共数据集上进行的真实集群实验证明了PESEI的有效性和鲁棒性,尤其是验证了 PESEI 在推理服务精度、运行性能和成本效益方面的优势。,为构建无服务器集成推理服务提供了新的解决方案。

⛳️未来机会

  • 今后,我们将考虑更多异常情况下的资源分配问题。
    • 组织 CPU 和内存资源方面的差异可能会导致主动模型资源分配行为的不同。
    • Kubernetes 会自动管理CPU时间片,以在CPU资源需求较高的情况下维持系统运行;但在内存资源需求较高的情况下,超出内存资源限制则可能引发内存不足(OOM)事件,从而可能导致系统崩溃。

🧠疑问

  1. 现状核心不足是什么?
  • a. 推理服务的精度和开销异构且存在波动性,现有研究没有考虑这些区别,仅静态选择。(波动性是为什么?因为服务器资源争用?)
  • b. 请求到来时才被动调整资源。(那现有的主动式方案有什么问题?)
  • c. AI方面尚不支持自动运维。


  • 希望这篇博客对你有帮助!如果你有任何问题或需要进一步的帮助,请随时提问。
  • 如果你喜欢这篇文章,欢迎动动小手 给我一个follow或star。

🗺参考文献

[1] Proactive Elastic Scheduling for Serverless Ensemble Inference Services

  • 标题: 【论文】略读笔记51-前沿-主动式动态集成服务管理
  • 作者: Fre5h1nd
  • 创建于 : 2024-07-11 22:00:29
  • 更新于 : 2024-07-12 11:11:00
  • 链接: https://freshwlnd.github.io/2024/07/11/literature/literatureNotes51/
  • 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。
评论