《GPU-Disaggregated Serving for Deep Learning Recommendation Models at Scale》,大规模深度学习推荐模型的 GPU 分解服务
【集群】云原生批调度实战:Volcano 数据收集方法深度解析与Prometheus Histogram误差问题
深入分析audit-exporter与传统Prometheus监控方法的本质差异,澄清数据收集vs数据处理阶段的误区,并探讨Prometheus histogram的bucket分布假设与误差来源。
【集群】云原生批调度实战:Volcano 自定义镜像与二次压测
演示如何验证修改算法后调度器性能变化情况,包括 Fork Volcano 源码、构建本地镜像、替换 Deployment 并再次执行性能测试,实现算法改动的快速回归。
【集群】云原生批调度实战:Volcano 指标采集与可视化
延续上一篇测试流程拆解,本文聚焦 kube-apiserver 审计日志如何被导出、转化为 Prometheus 指标并在 Grafana 面板上呈现。
【集群】云原生批调度实战:Volcano 测试流程拆解
本文是针对 kube-scheduling-perf 项目中 Volcano 调度器测试流程的第一篇解析,手把手带你读懂一次 make prepare-volcano → start-volcano → end-volcano 的全过程。
【集群】云原生批调度实战:本地环境测试结果与视频对比分析
本文记录了在本地环境中使用 kube-scheduling-perf 工具对 Kueue、Volcano、YuniKorn 三大调度器进行性能测试的实际结果,并与 KubeCon 技术分享中的视频结果进行对比分析。
【集群】Kubernetes Webhook 实战:Kueue 调度器准入控制故障排除与性能优化
本文基于调度器性能测试项目中的实际故障案例,深入解析 Kueue 调度器的 Webhook 机制。从理论到实践,从故障现象到解决方案,提供完整的 Webhook 准入控制实战指南,助您快速定位和解决 Kubernetes 集群中的 Webhook 相关问题。
【集群】Kubernetes Webhook入门:准入控制机制与性能瓶颈分析
本文初步解析Kubernetes Webhook的基本概念、工作原理和在调度器中的应用。从Webhook的起源出发,分析其在K8s中的应用场景,探讨QPS限制机制,为理解大规模集群中的性能瓶颈提供理论基础。
【操作系统】计算机硬件架构基础:CPU执行原理与架构演进
本文深入解析计算机硬件架构的基础知识,包括CPU执行程序的原理、32/64位架构的区别、x86/x64/ARM64架构的演进历程。基于小林coding的优质内容,系统梳理计算机硬件的工作原理和架构发展脉络。
【集群】云原生批调度实战:调度器测试与监控工具 kube-scheduling-perf 实操注意事项说明
本文详细记录了 kube-scheduling-perf 项目在实际部署过程中可能遇到的各种技术难题及其解决方案,包括网络访问、系统兼容性、权限配置等问题。本文为实际部署篇,与理论介绍文档形成互补,助您顺利部署和使用调度器性能测试工具。