本文初步解析Kubernetes Webhook的基本概念、工作原理和在调度器中的应用。从Webhook的起源出发,分析其在K8s中的应用场景,探讨QPS限制机制,为理解大规模集群中的性能瓶颈提供理论基础。
【操作系统】计算机硬件架构基础:CPU执行原理与架构演进
本文深入解析计算机硬件架构的基础知识,包括CPU执行程序的原理、32/64位架构的区别、x86/x64/ARM64架构的演进历程。基于小林coding的优质内容,系统梳理计算机硬件的工作原理和架构发展脉络。
【集群】云原生批调度实战:调度器测试与监控工具 kube-scheduling-perf 实操注意事项说明
本文详细记录了 kube-scheduling-perf 项目在实际部署过程中可能遇到的各种技术难题及其解决方案,包括网络访问、系统兼容性、权限配置等问题。本文为实际部署篇,与理论介绍文档形成互补,助您顺利部署和使用调度器性能测试工具。
【集群】K8s调度器性能对比分析:Kueue vs Volcano vs YuniKorn
本文基于Apple与DaoCloud工程师的分享,对三种K8s调度器(Kueue、Volcano、YuniKorn)性能对比分析进行总结。
【集群】云原生批调度实战:调度器测试与监控工具 kube-scheduling-perf
本文深入解析 kube-scheduling-perf 项目的自动化测试流程,详细剖析 Makefile 设计、各目录结构、核心目标调用关系及其背后的自动化原理,助你一键对比 Kueue、Volcano、YuniKorn 等主流调度器的性能。本文为理论介绍篇,实际部署使用请参考注意事项说明文档。
【论文】精读笔记7-前沿-Meta跨地域ML训练MAST-B-相关工作发展脉络梳理
《MAST: Global Scheduling of ML Training across Geo-Distributed Datacenters at Hyperscale》,MAST:跨地理分布式数据中心的超大规模 ML 训练的全局调度
【集群】云原生批调度实战:Volcano 安装与初试
本文记录了 Volcano 调度器的简单背景回顾、安装部署以及使用测试过程,适合需要了解和使用 Volcano 进行大规模离线作业调度的同学参考。
【论文】精读笔记6-前沿-字节跳动统一调度架构Gödel-D-实验梳理
《Gödel: Unified Large-Scale Resource Management and Scheduling at ByteDance》,哥德尔:字节跳动的统一大规模资源管理和调度
【论文】略读笔记85-前沿-GPU碎片调度
《Beware of Fragmentation: Scheduling GPU-Sharing Workloads with Fragmentation Gradient Descent》,小心碎片:利用碎片梯度下降调度 GPU 共享工作负载
【集群】云计算集群调度数据集整理
本文整理了云计算集群管理领域的三个重要数据集:阿里巴巴集群数据集、谷歌集群数据集以及字节跳动最新的VM碎片重调度数据集。这些数据集对于研究集群调度、资源优化和性能分析具有重要价值。