【论文】略读笔记43-前沿-可解释级联依赖感知资源管理
📖《Sinan: ML-Based and QoS-Aware Resource Management for Cloud Microservices》
🎯需求
- 云应用正逐渐从大型单体服务转向大量松散耦合的专用微服务。
- 近年来,云应用已逐渐从单体服务转变为由数百个单一用途和松散耦合的微服务组成的图。这种转变正变得越来越普遍,亚马逊、Twitter、Netflix 和 eBay 等大型云提供商已经采用了这种应用模式。
- 尽管微服务在促进开发、部署、模块化和隔离方面具有优势,但由于它们之间的依赖关系会带来反向压力效应和级联式 QoS 违规行为,因此会使资源管理变得更加复杂。
- 尽管微服务具有模块化、灵活开发和快速迭代等优势,但它也带来了新的系统挑战,尤其是在资源管理方面。因为微服务依赖关系的复杂拓扑结构加剧了排队效应,并引入了难以及时发现和纠正的级联服务质量(QoS)违规行为。
🚧现状
- 当前的集群管理器是为单体应用或由几个管道层组成的应用而设计的,其表现力不足以捕捉微服务的复杂性。鉴于 EBay、Netflix、Twitter 和亚马逊等越来越多的生产型云服务现在都设计成了微服务,解决它们的资源管理难题已成为当务之急。
- 我们采用数据驱动的方法来解决微服务给资源管理带来的复杂性问题。在以前的工作中,类似的机器学习(ML)驱动方法已经有效地解决了大规模系统的资源管理问题。遗憾的是,这些系统并不能直接适用于微服务,因为它们是为单体服务设计的,因此没有考虑到微服务之间的依赖关系对端到端性能的影响。
🛩创新
- 我们介绍的 Sinan 是一款数据驱动的集群管理器,适用于交互式云微服务,具有在线和QoS感知功能。
- Sinan 不要求用户或云操作员推断微服务之间依赖关系的影响,而是利用一组可扩展且经过验证的机器学习模型来确定微服务之间的依赖关系对性能的影响,并以保持端到端尾部延迟目标的方式为每个层分配适当的资源。
- Sinan 首先使用一种高效的空间探索算法来检查可能的资源分配空间,尤其是重点关注会导致违反服务质量的角落情况。
- 这就产生了一个用于训练两个模型的训练数据集:一个用于详细预测短期性能的卷积神经网络(CNN)模型,以及一个用于评估长期性能演变的助推树模型。
- 这两个模型的结合使 Sinan 既能检查资源分配的近期结果,又能考虑到系统在建立队列时的惯性,其准确性高于同时检查两个时间窗口的单一模型。
- Sinan 可在线运行,根据服务的运行状态和端到端服务质量目标动态调整每层资源。
- 最后,”Sinan”是作为一个集中式资源管理器实施的,它对集群和应用状态具有全局可见性,每个节点的资源代理可跟踪每个层的性能和资源利用率。
- Sinan 首先使用一种高效的空间探索算法来检查可能的资源分配空间,尤其是重点关注会导致违反服务质量的角落情况。
- 此外,”Sinan”中的技术是可以解释的,这意味着云运营商可以从智能模型中获得如何更好地部署和设计应用程序的见解,从而降低不可预测的性能。
- 我们展示了 Sinan 模型的可解释性优势,深入探讨了这些模型对大规模系统设计的启示。具体来说,我们以 Redis 的日志同步为例,说明 Sinan 帮助确定了数十个相互依赖的微服务中性能不可预测的根源,从而表明该系统可以为集群提供实用而有洞察力的解决方案,因为集群的规模使得以往的经验方法变得不切实际。
- Sinan 不要求用户或云操作员推断微服务之间依赖关系的影响,而是利用一组可扩展且经过验证的机器学习模型来确定微服务之间的依赖关系对性能的影响,并以保持端到端尾部延迟目标的方式为每个层分配适当的资源。
📊效果
- 我们使用 DeathStarBench 中的两个端到端应用对 Sinan 进行了评估,这两个应用是用交互式微服务构建的:一个社交网络和一个酒店预订网站。
- 我们将 Sinan 与传统的经验方法(如自动扩展)和之前基于队列分析的多层服务调度研究(如 PowerChief)进行了比较。
- 我们证明,无论在性能还是资源效率方面,Sinan 都优于之前的研究成果,能在不同负载模式下成功满足两个应用的 QoS 要求。
- 在较简单的酒店预订应用中,Sinan 平均节省了 25.9%的资源,比其他满足 QoS 的方法最多节省了 46.0% 的资源。
- 在更复杂的社交网络服务中,抽象应用的复杂性更为重要, Sinan 平均可节省 59.0% 的资源,最高可节省 68.1%,基本上每秒可容纳两倍的请求量,而无需更多资源。
- 我们还在谷歌计算引擎(GCE)上对约 100 个容器实例进行了大规模实验,验证了 Sinan 的可扩展性,并证明在本地集群上部署的模型只需稍作调整即可在 GCE 上重复使用,而无需重新训练。
- 我们的研究表明,”Sinan”总能满足服务质量要求,同时还能保持较高的集群利用率,这与之前导致性能不可预测或牺牲资源效率的工作形成了鲜明对比。
🧠疑问
- 本文对现状的介绍很简单,也不像传统结构在introduction最后部分总结创新点。但本文的实验非常充分,介绍也很详细,也许是因为这个亮点导致前面的缺点可以被忽略?
- 希望这篇博客对你有帮助!如果你有任何问题或需要进一步的帮助,请随时提问。
- 如果你喜欢这篇文章,欢迎动动小手给我一个follow或star。
🗺参考文献
- 标题: 【论文】略读笔记43-前沿-可解释级联依赖感知资源管理
- 作者: Fre5h1nd
- 创建于 : 2024-07-02 14:08:08
- 更新于 : 2024-10-08 11:39:55
- 链接: https://freshwlnd.github.io/2024/07/02/literature/literatureNotes43/
- 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。
评论