基于大量实验数据和源码分析,重新梳理Volcano中CREATE和SCHEDULE卡顿现象的根本原因:两大批对K8s API-Server的请求排队导致的争用,而非简单的协程数不足问题。
【AI】AI-Infra框架初识:从vLLM到SGLang、Aibrix与Mooncake的性能革命
介绍AI推理基础设施框架的发展历程
【论文】略读笔记87-经典-vLLM
《Efficient Memory Management for Large Language Model Serving with PagedAttention》,针对大型语言模型服务的分页注意力高效内存管理
【集群】云原生批调度实战:Volcano 深度解析(四):CREATE 阶段瓶颈追踪与优化思考
深入剖析禁用 Webhook 后仍旧存在的 CREATED 阶段性能瓶颈,通过代码略读定位 JobController 中的批量创建逻辑,分析关键相关参数影响并提出可行的优化方向。
【集群】云原生批调度实战:Volcano 深度解析(三):核心流程解析与架构设计
深入解析Volcano的核心架构和Job创建到Pod调度的完整流程,通过代码分析揭示Volcano如何实现高效的批处理调度。
【集群】云原生批调度实战:Volcano性能瓶颈猜想验证与实验总结
本文总结了针对Volcano调度器性能测试结果异常的四种猜想及其验证实验,包括enqueue功能、webhook超时、版本差异和webhook处理瓶颈。通过系统性的实验验证,我们成功识别了webhook超时和webhook处理是主要的性能瓶颈,为调度器优化提供了重要参考。
【集群】云原生批调度实战:Volcano Webhook禁用与性能瓶颈分析
本文详细介绍了如何通过修改kube-scheduling-perf的Makefile来禁用Volcano的webhook功能,分析了webhook对调度性能的影响,并探讨了未来通过CRD替代webhook的可能性。通过实验发现,即使禁用webhook,在Job数量较多时仍然存在Pod创建瓶颈,这为后续的调度器优化提供了重要参考。
【集群】云原生批调度实战:Volcano版本修改与性能测试优化
本文回顾了本地测试与视频测试结果差异的问题,发现可能的原因在于Volcano调度器版本不同。文章详细介绍了如何查看测试所用的Volcano版本,如何将测试版本更换到1.12.0-alpha.0版本,以及如何验证版本升级效果。
【集群】云原生批调度实战:Volcano Pod创建数量不足问题排查与Webhook超时修复
本文详细记录了在测试Volcano调度器时发现Pod创建数量始终少于10000,仅达到1000的问题排查过程。通过分析4.9GB的审计日志,发现大量Pod创建请求因Webhook超时而失败。文章介绍了如何修改Webhook超时时间。
【集群】云原生批调度实战:Volcano调度器enqueue功能禁用与性能测试
本文详细介绍了如何禁用Volcano调度器的enqueue功能,包括配置修改、环境搭建、功能验证、性能测试和结果分析。通过禁用enqueue,可以观察调度器在资源分配阶段的性能表现,为调度器性能优化提供参考。