Fre5h1nd's Blog

【集群】云原生批调度实战：Go 项目解析与并发编程实践
深入解析 kube-apiserver-audit-exporter 项目架构，从 Go 语言项目结构到并发编程实践，全面掌握云原生监控工具的开发模式。
2025-09-09
技术
>
云计算
K8s
| Go
| 并发编程
阅读全文【集群】云原生批调度实战：Go 项目解析与并发编程实践
【集群】云原生批调度实战：Volcano 深度解析（五）：CREATE/SCHEDULE 阶段“卡顿”现象解析与协程数优化实验
基于大量实验数据和源码分析，重新梳理Volcano中CREATE和SCHEDULE卡顿现象的根本原因：两大批对K8s API-Server的请求排队导致的争用，而非简单的协程数不足问题。
2025-09-04
技术
>
云计算
Kubernetes
| 调度器
| 性能优化
阅读全文【集群】云原生批调度实战：Volcano 深度解析（五）：CREATE/SCHEDULE 阶段“卡顿”现象解析与协程数优化实验
【AI】AI-Infra框架初识：从vLLM到SGLang、Aibrix与Mooncake的性能革命
介绍AI推理基础设施框架的发展历程
2025-09-03
技术
>
人工智能
AI基础设施
| 推理优化
| vLLM
阅读全文【AI】AI-Infra框架初识：从vLLM到SGLang、Aibrix与Mooncake的性能革命
【论文】略读笔记87-经典-vLLM
《Efficient Memory Management for Large Language Model Serving with PagedAttention》，针对大型语言模型服务的分页注意力高效内存管理
2025-09-02
论文
>
略读
>
AI-infra
大模型,推理优化,vLLM
阅读全文【论文】略读笔记87-经典-vLLM
【集群】云原生批调度实战：Volcano 深度解析（四）：CREATE 阶段瓶颈追踪与优化思考
深入剖析禁用 Webhook 后仍旧存在的 CREATED 阶段性能瓶颈，通过代码略读定位 JobController 中的批量创建逻辑，分析关键相关参数影响并提出可行的优化方向。
2025-08-26
技术
>
云计算
Kubernetes
| 调度器
| 性能优化
阅读全文【集群】云原生批调度实战：Volcano 深度解析（四）：CREATE 阶段瓶颈追踪与优化思考
【集群】云原生批调度实战：Volcano 深度解析（三）：核心流程解析与架构设计
深入解析Volcano的核心架构和Job创建到Pod调度的完整流程，通过代码分析揭示Volcano如何实现高效的批处理调度。
2025-08-25
技术
>
云计算
Kubernetes
| 调度器
| Volcano
阅读全文【集群】云原生批调度实战：Volcano 深度解析（三）：核心流程解析与架构设计
【集群】云原生批调度实战：Volcano性能瓶颈猜想验证与实验总结
本文总结了针对Volcano调度器性能测试结果异常的四种猜想及其验证实验，包括enqueue功能、webhook超时、版本差异和webhook处理瓶颈。通过系统性的实验验证，我们成功识别了webhook超时和webhook处理是主要的性能瓶颈，为调度器优化提供了重要参考。
2025-08-24
技术
>
云计算
调度器
| K8s
| 性能测试
阅读全文【集群】云原生批调度实战：Volcano性能瓶颈猜想验证与实验总结
【集群】云原生批调度实战：Volcano Webhook禁用与性能瓶颈分析
本文详细介绍了如何通过修改kube-scheduling-perf的Makefile来禁用Volcano的webhook功能，分析了webhook对调度性能的影响，并探讨了未来通过CRD替代webhook的可能性。通过实验发现，即使禁用webhook，在Job数量较多时仍然存在Pod创建瓶颈，这为后续的调度器优化提供了重要参考。
2025-08-22
技术
>
云计算
Webhook
| 调度器
| 性能优化
阅读全文【集群】云原生批调度实战：Volcano Webhook禁用与性能瓶颈分析
【集群】云原生批调度实战：Volcano版本修改与性能测试优化
本文回顾了本地测试与视频测试结果差异的问题，发现可能的原因在于Volcano调度器版本不同。文章详细介绍了如何查看测试所用的Volcano版本，如何将测试版本更换到1.12.0-alpha.0版本，以及如何验证版本升级效果。
2025-08-20
技术
>
云计算
调度器
| 性能优化
| K8s
阅读全文【集群】云原生批调度实战：Volcano版本修改与性能测试优化
【集群】云原生批调度实战：Volcano Pod创建数量不足问题排查与Webhook超时修复
本文详细记录了在测试Volcano调度器时发现Pod创建数量始终少于10000，仅达到1000的问题排查过程。通过分析4.9GB的审计日志，发现大量Pod创建请求因Webhook超时而失败。文章介绍了如何修改Webhook超时时间。
2025-08-18
技术
>
云计算
Webhook
| 调度器
| K8s
阅读全文【集群】云原生批调度实战：Volcano Pod创建数量不足问题排查与Webhook超时修复

12 3…17