Fre5h1nd's Blog

【集群】云原生批调度实战：Volcano Webhook禁用与性能瓶颈分析
本文详细介绍了如何通过修改kube-scheduling-perf的Makefile来禁用Volcano的webhook功能，分析了webhook对调度性能的影响，并探讨了未来通过CRD替代webhook的可能性。通过实验发现，即使禁用webhook，在Job数量较多时仍然存在Pod创建瓶颈，这为后续的调度器优化提供了重要参考。
2025-08-22
技术
>
云计算
Webhook
| 调度器
| 性能优化
阅读全文【集群】云原生批调度实战：Volcano Webhook禁用与性能瓶颈分析
【集群】云原生批调度实战：Volcano版本修改与性能测试优化
本文回顾了本地测试与视频测试结果差异的问题，发现可能的原因在于Volcano调度器版本不同。文章详细介绍了如何查看测试所用的Volcano版本，如何将测试版本更换到1.12.0-alpha.0版本，以及如何验证版本升级效果。
2025-08-20
技术
>
云计算
调度器
| 性能优化
| Volcano
阅读全文【集群】云原生批调度实战：Volcano版本修改与性能测试优化
【集群】云原生批调度实战：Volcano Pod创建数量不足问题排查与Webhook超时修复
本文详细记录了在测试Volcano调度器时发现Pod创建数量始终少于10000，仅达到1000的问题排查过程。通过分析4.9GB的审计日志，发现大量Pod创建请求因Webhook超时而失败。文章介绍了如何修改Webhook超时时间。
2025-08-18
技术
>
云计算
Webhook
| 调度器
| Volcano
阅读全文【集群】云原生批调度实战：Volcano Pod创建数量不足问题排查与Webhook超时修复
【集群】云原生批调度实战：Volcano调度器enqueue功能禁用与性能测试
本文详细介绍了如何禁用Volcano调度器的enqueue功能，包括配置修改、环境搭建、功能验证、性能测试和结果分析。通过禁用enqueue，可以观察调度器在资源分配阶段的性能表现，为调度器性能优化提供参考。
2025-08-17
技术
>
云计算
调度器
| Volcano
| K8s
阅读全文【集群】云原生批调度实战：Volcano调度器enqueue功能禁用与性能测试
【论文】略读笔记86-前沿-DLRM的CPU-GPU分解调度
《GPU-Disaggregated Serving for Deep Learning Recommendation Models at Scale》，大规模深度学习推荐模型的 GPU 分解服务
2025-08-13
论文
>
略读
>
云计算
AI-Infra
| DLRM
阅读全文【论文】略读笔记86-前沿-DLRM的CPU-GPU分解调度
【集群】云原生批调度实战：Volcano 数据收集方法深度解析与Prometheus Histogram误差问题
深入分析audit-exporter与传统Prometheus监控方法的本质差异，澄清数据收集vs数据处理阶段的误区，并探讨Prometheus histogram的bucket分布假设与误差来源。
2025-08-10
技术
>
云计算
Volcano
| K8s
| 性能测试
阅读全文【集群】云原生批调度实战：Volcano 数据收集方法深度解析与Prometheus Histogram误差问题
【集群】云原生批调度实战：Volcano 自定义镜像与二次压测
演示如何验证修改算法后调度器性能变化情况，包括 Fork Volcano 源码、构建本地镜像、替换 Deployment 并再次执行性能测试，实现算法改动的快速回归。
2025-08-08
技术
>
云计算
Volcano
| K8s
| 性能测试
阅读全文【集群】云原生批调度实战：Volcano 自定义镜像与二次压测
【集群】云原生批调度实战：Volcano 指标采集与可视化
延续上一篇测试流程拆解，本文聚焦 kube-apiserver 审计日志如何被导出、转化为 Prometheus 指标并在 Grafana 面板上呈现。
2025-08-07
技术
>
云计算
Volcano
| K8s
| 性能测试
阅读全文【集群】云原生批调度实战：Volcano 指标采集与可视化
【集群】云原生批调度实战：Volcano 测试流程拆解
本文是针对 kube-scheduling-perf 项目中 Volcano 调度器测试流程的第一篇解析，手把手带你读懂一次 make prepare-volcano → start-volcano → end-volcano 的全过程。
2025-07-27
技术
>
云计算
调度器
| Volcano
| K8s
阅读全文【集群】云原生批调度实战：Volcano 测试流程拆解
【集群】云原生批调度实战：本地环境测试结果与视频对比分析
本文记录了在本地环境中使用 kube-scheduling-perf 工具对 Kueue、Volcano、YuniKorn 三大调度器进行性能测试的实际结果，并与 KubeCon 技术分享中的视频结果进行对比分析。
2025-07-23
技术
>
云计算
调度器
| Volcano
| K8s
阅读全文【集群】云原生批调度实战：本地环境测试结果与视频对比分析

123 4…17