💡简介

在调度器性能对比分析中，我们发现Webhook可能在大规模情况下成为Volcano创建Job的限制因素。为了深入理解这一现象，本文将从Webhook的基本概念出发，系统梳理其在Kubernetes生态系统中的作用机制和性能影响。

🖼️背景

问题背景

在调度器性能测试中，我们发现了一个有趣的现象：Volcano调度器在大量Job创建时会出现阶段性阻塞，其中一个可能的原因是Webhook QPS限制。这引发了我们对Webhook机制的深入思考：

核心问题

大背景：Webhook的起源是什么？为什么Kubernetes需要这种机制？
小背景：Webhook在K8s/Volcano中是如何应用的？
出发点：在K8s中应用Webhook时是否有什么参数存在限制，如跟--kube-api-qps有什么关系？为什么要设计这种限制？
挑战：什么情况下会成为瓶颈限制性能？

🧠问题回答

问题一：Webhook的起源是什么？

Webhook概念的起源

Webhook一词最早出现在2007年，由Jeff Lindsay提出^[1]。它描述了一种”反向API调用”的机制，即服务器在特定事件发生时主动向客户端发送HTTP请求，而不是客户端主动轮询服务器。

什么是Webhook？一个简单的比喻

想象一下闹钟的工作原理^[7]：

你在手机上定了一个明天早上6点的闹钟（注册webhook），当时间来到第二天早上6点时，手机闹钟响起（触发webhook），你就会被叫醒（你的服务器收到通知并执行相应操作）。

Webhook就是这样一种”反向通知”机制：

传统方式：你每隔几分钟就问一次”有新消息吗？”（周期性拉取）
Webhook方式：有新消息时，系统主动告诉你”有新消息了！”（触发式推送）

Webhook在不同场景下的应用

1. 传统应用场景（事件驱动）

钉钉机器人：当有重要事件发生时，钉钉主动向你的webhook地址发送消息
支付系统：支付成功后，支付平台主动通知商家系统
GitHub代码推送：代码推送后，GitHub主动通知CI/CD系统

2. Kubernetes应用场景（请求拦截）

准入控制：当用户创建Pod时，API服务器主动调用Webhook进行检查
资源验证：验证Pod是否符合集群的安全策略
资源修改：给Pod添加默认标签或注解

在Kubernetes中的应用

在Kubernetes中，Webhook被用作准入控制器（Admission Controller）的一种实现方式^[2]。准入控制器是Kubernetes API服务器的一个插件机制，用于在资源创建、修改或删除之前进行拦截和处理。

为什么需要Webhook？

想象一下海关检查的工作^[8]：

当有货物要进入国家时，海关会检查：
这个货物符合进口规定吗？（验证）
需要添加标签或修改包装吗？（修改）
有安全隐患吗？（安全验证）

Kubernetes的Webhook就像这个海关：

扩展性需求：Kubernetes需要支持各种自定义的验证和修改逻辑
动态配置：Webhook可以在不重启API服务器的情况下动态添加新的验证规则
外部集成：允许外部系统参与Kubernetes的资源管理决策
安全增强：提供额外的安全验证层

为什么K8s下的Webhook和其他场景的Webhook看起来似乎不一样？

关键理解：Webhook的本质都是HTTP回调机制，区别在于触发时机和处理方式：

场景	触发时机	处理方式	目的
传统应用	事件发生时	异步通知	推送信息
Kubernetes	请求到达时	同步拦截	验证/修改

相同点：

都是基于HTTP的回调机制（触发式推送而非周期性拉取）
都是服务器主动调用外部服务
都支持自定义处理逻辑

不同点：

触发条件：事件驱动 vs 请求驱动
处理方式：异步推送 vs 同步拦截
响应要求：无响应要求 vs 必须返回结果

问题二：Webhook在K8s/Volcano中是如何应用的？

Kubernetes中的Webhook类型

1. 验证性Webhook（Validating Webhook）

作用：验证资源是否符合特定规则
时机：在资源被持久化到etcd之前
结果：允许或拒绝请求

2. 修改性Webhook（Mutating Webhook）

作用：修改资源内容
时机：在验证性Webhook之前
结果：返回修改后的资源

工作流程

1	用户创建Pod → API服务器接收请求 → 修改性Webhook → 验证性Webhook → 持久化到etcd

具体例子：

用户提交一个Pod创建请求
API服务器收到请求后，先调用修改性Webhook
修改性Webhook可能会给Pod添加默认标签
然后调用验证性Webhook检查Pod是否符合规则
如果验证通过，Pod被保存到etcd；如果失败，请求被拒绝

问题三：Webhook的QPS限制机制

QPS限制参数

1. `--kube-api-qps`

含义：API服务器向Webhook服务发送请求的速率限制
默认值：通常为50 QPS
作用范围：所有Webhook请求的总和

2. `--kube-api-burst`

含义：突发请求的最大数量
默认值：通常为100
作用：允许短时间的突发流量

与`--kube-api-qps`的关系

关系说明：

--kube-api-qps控制API服务器向所有外部服务（包括Webhook）发送请求的速率
Webhook请求也受到这个限制的约束
当Webhook服务响应慢时，会占用更多的QPS配额

为什么设计这种限制？

1. 保护API服务器

防止Webhook服务过载影响API服务器性能
避免资源耗尽导致系统崩溃

2. 公平性保证

确保不同Webhook服务获得公平的处理机会
防止单个Webhook占用过多资源

问题四：什么情况下会成为瓶颈？

瓶颈场景分析

1. 大规模Job创建

1
2
3

场景：同时创建1000个Job，每个Job包含100个Pod
影响：需要调用100,000次Webhook
瓶颈：Webhook QPS限制导致请求排队

2. Webhook服务响应慢

1
2
3

场景：Webhook服务处理单个请求需要100ms
影响：即使QPS限制为50，实际吞吐量可能只有10 QPS
瓶颈：Webhook服务成为性能瓶颈

3. 复杂的验证逻辑

1
2
3

场景：Webhook需要查询外部数据库进行验证
影响：每次验证都需要网络调用，增加延迟
瓶颈：网络延迟和外部服务响应时间

生活中的类比

想象一下银行柜台的场景^[9]：

银行有10个柜台，每个柜台每分钟最多处理2个客户（QPS限制）。
正常情况下：客户排队，柜台按顺序处理
高峰期：大量客户同时到达，柜台处理不过来，排队时间变长
柜台效率低：即使有10个柜台，如果每个客户处理时间很长，整体处理能力也会下降

Webhook的瓶颈就像这个银行柜台：

QPS限制：就像柜台数量有限
处理时间：就像每个客户的处理时间
排队等待：就像客户在银行排队

🏥反思

目前仅有粗浅地了解，接下来会进一步开展后续研究，例如：

Webhook最佳实践
- 性能优化策略
- 错误处理机制
- 监控和告警
调度器集成
- Volcano Webhook实现细节
- 其他调度器的Webhook使用
- 性能对比分析
大规模集群优化
- Webhook在高并发场景下的表现
- 瓶颈识别和解决方案
- 最佳配置参数

希望这篇博客对你有帮助！如果你有任何问题或需要进一步的帮助，请随时提问。
如果你喜欢这篇文章，欢迎动动小手给我一个follow或star。

🗺参考文献

[1] Webhook - Wikipedia

[2] Kubernetes 中的准入控制 - 官方文档

[3] Volcano Webhook Implementation - GitHub

[4] Admission Webhook 良好实践 - Kubernetes官方文档

[5] Webhook Mode - Kubernetes官方文档

[6] Kubernetes API Server 参数 - 官方文档

[7] 什么是Webhook？工作原理？如何实现？缺点？ - 掘金

[8] 详细介绍一下webhook技术 - 知乎

[9] Webhook 是什么？详解其工作原理 - CSDN

[10] 什么是 Webhook？ - RedHat

[11] kubernetes的webhook开发 - 博客园

Fre5h1nd's Blog

【集群】Kubernetes Webhook入门：准入控制机制与性能瓶颈分析

💡简介

🖼️背景

问题背景

核心问题

🧠问题回答

问题一：Webhook的起源是什么？

Webhook概念的起源

什么是Webhook？一个简单的比喻

Webhook在不同场景下的应用

1. 传统应用场景（事件驱动）

2. Kubernetes应用场景（请求拦截）

在Kubernetes中的应用

为什么需要Webhook？

为什么K8s下的Webhook和其他场景的Webhook看起来似乎不一样？

问题二：Webhook在K8s/Volcano中是如何应用的？

Kubernetes中的Webhook类型

1. 验证性Webhook（Validating Webhook）

2. 修改性Webhook（Mutating Webhook）

工作流程

问题三：Webhook的QPS限制机制

QPS限制参数

1. `--kube-api-qps`

2. `--kube-api-burst`

与`--kube-api-qps`的关系

为什么设计这种限制？

1. 保护API服务器

2. 公平性保证

问题四：什么情况下会成为瓶颈？

瓶颈场景分析

1. 大规模Job创建

2. Webhook服务响应慢

3. 复杂的验证逻辑

生活中的类比

🏥反思

🗺参考文献

Fre5h1nd's Blog

【集群】Kubernetes Webhook入门：准入控制机制与性能瓶颈分析

💡简介

🖼️背景

问题背景

核心问题

🧠问题回答

问题一：Webhook的起源是什么？

Webhook概念的起源

什么是Webhook？一个简单的比喻

Webhook在不同场景下的应用

1. 传统应用场景（事件驱动）

2. Kubernetes应用场景（请求拦截）

在Kubernetes中的应用

为什么需要Webhook？

为什么K8s下的Webhook和其他场景的Webhook看起来似乎不一样？

问题二：Webhook在K8s/Volcano中是如何应用的？

Kubernetes中的Webhook类型

1. 验证性Webhook（Validating Webhook）

2. 修改性Webhook（Mutating Webhook）

工作流程

问题三：Webhook的QPS限制机制

QPS限制参数

1. --kube-api-qps

2. --kube-api-burst

与--kube-api-qps的关系

为什么设计这种限制？

1. 保护API服务器

2. 公平性保证

问题四：什么情况下会成为瓶颈？

瓶颈场景分析

1. 大规模Job创建

2. Webhook服务响应慢

3. 复杂的验证逻辑

生活中的类比

🏥反思

🗺参考文献

1. `--kube-api-qps`

2. `--kube-api-burst`

与`--kube-api-qps`的关系