本文整理了云计算集群管理领域的三个重要数据集:阿里巴巴集群数据集、谷歌集群数据集以及字节跳动最新的VM碎片重调度数据集。这些数据集对于研究集群调度、资源优化和性能分析具有重要价值。
【集群】YARN 与 Mesos 调度架构深度解析:两级式与单体式的本质区别
本文深入剖析了业界主流集群调度架构 YARN 与 Mesos,厘清了“两级式”与“单体式”调度的本质差异,并结合阿里 Fuxi 2.0、字节 Godel 等论文,系统梳理了相关概念、典型流程及演进背景,帮助读者全面理解大规模资源调度系统的设计思想。
【集群】云原生批调度实战:Volcano 深度解析(二):Volcano调度流程与调度状态
详细解析 Volcano 在 Kubernetes 上的批处理作业调度流程与核心调度状态,帮助理解其高效调度机制。
【集群】云原生批调度实战:Volcano 深度解析(一):批处理背景需求与Volcano特点
介绍为什么需要在 Kubernetes 上引入批处理调度系统 Volcano,分析高性能计算、大数据、AI 等场景下的调度需求与挑战。
【论文】精读笔记5-前沿-字节跳动统一调度架构Gödel-C-研究方案梳理
《Gödel: Unified Large-Scale Resource Management and Scheduling at ByteDance》,哥德尔:字节跳动的统一大规模资源管理和调度
【集群】K8S集群搭建记录——kwok搭建轻量测试环境
本文记录了在服务器上通过 kwok 快速搭建一个轻量级的 k8s 测试环境的详细步骤,适合需要测试大规模集群性能的同学参考。
【集群】K8S集群重启问题排查记录
本文记录了在服务器重启后,k8s 集群无法连接的排查过程,包括权限问题、服务启动问题及解决方案。
【集群】K8S集群搭建记录——kind搭建隔离测试环境
本文记录了在服务器上通过 kind 快速搭建一个独立的 k8s 虚拟集群的详细步骤,适合需要隔离测试环境的同学参考。
【论文】略读笔记84-前沿-大规模模拟器LGDCloudSim
《LGDCloudSim: A Resource Management Simulation System for Large-Scale Geographically Distributed Cloud Data Center Scenarios》,LGDCloudSim:大规模地理分布式云数据中心场景的资源管理模拟系统
【论文】略读笔记83-前沿-Eva考虑干扰的任务共置成本优化
《Eva: Cost-Efficient Cloud-Based Cluster Scheduling》,具有成本效益的基于云的集群调度Eva