本文详细介绍了如何通过修改kube-scheduling-perf的Makefile来禁用Volcano的webhook功能,分析了webhook对调度性能的影响,并探讨了未来通过CRD替代webhook的可能性。通过实验发现,即使禁用webhook,在Job数量较多时仍然存在Pod创建瓶颈,这为后续的调度器优化提供了重要参考。
【集群】云原生批调度实战:Volcano版本修改与性能测试优化
本文回顾了本地测试与视频测试结果差异的问题,发现可能的原因在于Volcano调度器版本不同。文章详细介绍了如何查看测试所用的Volcano版本,如何将测试版本更换到1.12.0-alpha.0版本,以及如何验证版本升级效果。
【集群】云原生批调度实战:Volcano Pod创建数量不足问题排查与Webhook超时修复
本文详细记录了在测试Volcano调度器时发现Pod创建数量始终少于10000,仅达到1000的问题排查过程。通过分析4.9GB的审计日志,发现大量Pod创建请求因Webhook超时而失败。文章介绍了如何修改Webhook超时时间。
【集群】云原生批调度实战:Volcano调度器enqueue功能禁用与性能测试
本文详细介绍了如何禁用Volcano调度器的enqueue功能,包括配置修改、环境搭建、功能验证、性能测试和结果分析。通过禁用enqueue,可以观察调度器在资源分配阶段的性能表现,为调度器性能优化提供参考。
【论文】略读笔记86-前沿-DLRM的CPU-GPU分解调度
《GPU-Disaggregated Serving for Deep Learning Recommendation Models at Scale》,大规模深度学习推荐模型的 GPU 分解服务
【集群】云原生批调度实战:Volcano 数据收集方法深度解析与Prometheus Histogram误差问题
深入分析audit-exporter与传统Prometheus监控方法的本质差异,澄清数据收集vs数据处理阶段的误区,并探讨Prometheus histogram的bucket分布假设与误差来源。
【集群】云原生批调度实战:Volcano 自定义镜像与二次压测
演示如何验证修改算法后调度器性能变化情况,包括 Fork Volcano 源码、构建本地镜像、替换 Deployment 并再次执行性能测试,实现算法改动的快速回归。
【集群】云原生批调度实战:Volcano 指标采集与可视化
延续上一篇测试流程拆解,本文聚焦 kube-apiserver 审计日志如何被导出、转化为 Prometheus 指标并在 Grafana 面板上呈现。
【集群】云原生批调度实战:Volcano 测试流程拆解
本文是针对 kube-scheduling-perf 项目中 Volcano 调度器测试流程的第一篇解析,手把手带你读懂一次 make prepare-volcano → start-volcano → end-volcano 的全过程。
【集群】云原生批调度实战:本地环境测试结果与视频对比分析
本文记录了在本地环境中使用 kube-scheduling-perf 工具对 Kueue、Volcano、YuniKorn 三大调度器进行性能测试的实际结果,并与 KubeCon 技术分享中的视频结果进行对比分析。



