本文基于Apple与DaoCloud工程师的分享,对三种K8s调度器(Kueue、Volcano、YuniKorn)性能对比分析进行总结。
【集群】云原生批调度实战:调度器测试与监控工具 kube-scheduling-perf
本文深入解析 kube-scheduling-perf 项目的自动化测试流程,详细剖析 Makefile 设计、各目录结构、核心目标调用关系及其背后的自动化原理,助你一键对比 Kueue、Volcano、YuniKorn 等主流调度器的性能。
【论文】精读笔记7-前沿-Meta跨地域ML训练MAST-B-相关工作发展脉络梳理
《MAST: Global Scheduling of ML Training across Geo-Distributed Datacenters at Hyperscale》,MAST:跨地理分布式数据中心的超大规模 ML 训练的全局调度
【集群】云原生批调度实战:Volcano 安装与初试
本文记录了 Volcano 调度器的简单背景回顾、安装部署以及使用测试过程,适合需要了解和使用 Volcano 进行大规模离线作业调度的同学参考。
【论文】精读笔记6-前沿-字节跳动统一调度架构Gödel-D-实验梳理
《Gödel: Unified Large-Scale Resource Management and Scheduling at ByteDance》,哥德尔:字节跳动的统一大规模资源管理和调度
【论文】略读笔记85-前沿-GPU碎片调度
《Beware of Fragmentation: Scheduling GPU-Sharing Workloads with Fragmentation Gradient Descent》,小心碎片:利用碎片梯度下降调度 GPU 共享工作负载
【集群】云计算集群调度数据集整理
本文整理了云计算集群管理领域的三个重要数据集:阿里巴巴集群数据集、谷歌集群数据集以及字节跳动最新的VM碎片重调度数据集。这些数据集对于研究集群调度、资源优化和性能分析具有重要价值。
【集群】YARN 与 Mesos 调度架构深度解析:两级式与单体式的本质区别
本文深入剖析了业界主流集群调度架构 YARN 与 Mesos,厘清了“两级式”与“单体式”调度的本质差异,并结合阿里 Fuxi 2.0、字节 Godel 等论文,系统梳理了相关概念、典型流程及演进背景,帮助读者全面理解大规模资源调度系统的设计思想。
【集群】云原生批调度实战:Volcano 深度解析(二):Volcano调度流程与调度状态
详细解析 Volcano 在 Kubernetes 上的批处理作业调度流程与核心调度状态,帮助理解其高效调度机制。
【集群】云原生批调度实战:Volcano 深度解析(一):批处理背景需求与Volcano特点
介绍为什么需要在 Kubernetes 上引入批处理调度系统 Volcano,分析高性能计算、大数据、AI 等场景下的调度需求与挑战。