SGLang Main Branch 每日 Commit 总结 (2026-04-07)
统计时间范围:UTC+8 2026-04-07 00:00 ~ 24:00
共统计 30 个 commit,涉及 81 个文件变更
一、新模型支持
昨日新增了以下模型的支持:
| Commit Message |
总结 |
PR 链接 |
[New Model] Gemma 4 (#21952) |
新增 Google Gemma 4 模型支持,包括模型定义、MoE 配置、函数调用检测器等 |
PR #21952 |
model: support qwen3-asr (#22073) |
新增 Qwen3-ASR 语音识别模型支持,包含模型配置、处理器和转录服务 |
PR #22073 |
二、性能优化
| Commit Message |
总结 |
PR 链接 |
[Perf] Restore torch.compile fusion for topk postprocessing (#21771) |
恢复 topk 后处理的 torch.compile 融合优化,提升 MoE 路由性能 |
PR #21771 |
[diffusion] perf: replace Conv3d with reshape + F.linear in PatchEmbed (#21014) |
在 Diffusion 模型的 PatchEmbed 中用 reshape + F.linear 替代 Conv3d,提升推理性能 |
PR #21014 |
Move hash utils out of hicache_storage to break CUDA import chain (#22214) |
将 hash 工具从 hicache_storage 移出,打破 CUDA 导入链,减少不必要的 CUDA 初始化开销 |
PR #22214 |
Clean up req_time_stats: reduce overhead and simplify (#22186) |
清理请求时间统计代码,降低性能开销并简化逻辑 |
PR #22186 |
三、Bug Fix
| Commit Message |
总结 |
PR 链接 |
fix(pcg,mm): fix zeroing of input_embeds when replay PCG (#22229) |
修复 PCG 重放时 input_embeds 归零的问题 |
PR #22229 |
fix qwen2_5_math_rm_72b (#21295) |
修复 Qwen2.5-Math-RM-72B 模型的问题 |
PR #21295 |
fix(grok): adapt huihui-ai/grok-2 (#21522) |
适配 huihui-ai/grok-2 模型的修复 |
PR #21522 |
Cache sub-objects in __getitem__ to ensure identity stability (#22184) |
缓存子对象以确保 getitem 中的对象身份稳定性 |
PR #22184 |
Fix extra calls to get_numa_node_if_available to clean up logs (#21781) |
修复多余的 get_numa_node_if_available 调用,清理日志输出 |
PR #21781 |
tiny fix chain-style multi layer eagle comments (#22206) |
修复 chain-style 多层 Eagle 的注释问题 |
PR #22206 |
[sgl] potential chained spec v2 fixes (#22041) |
修复 chain-style 推测解码 v2 的潜在问题 |
PR #22041 |
四、server_args.py 新增参数
| 参数名 |
类型 |
说明 |
相关 PR |
enable_http2 |
bool |
启用 HTTP/2 服务器支持,默认 False |
PR #22203 |
speculative_dflash_block_size |
Optional[int] |
DFlash 推测解码的块大小配置 |
DFlash 特性 |
speculative_dflash_draft_window_size |
Optional[int] |
DFlash 推测解码的草稿窗口大小配置 |
DFlash 特性 |
五、新增环境变量
| 环境变量 |
类型 |
默认值 |
说明 |
SGLANG_CACHE_DIR |
EnvStr |
~/.cache/sglang |
模型权重和其他数据的缓存目录 |
SGLANG_USE_SGL_FA3_KERNEL |
EnvBool |
true |
使用 sgl-kernel 实现的 FlashAttention v3 |
SGLANG_GRANIAN_PARENT_PID |
EnvInt |
None |
HTTP/2 服务器使用的 Granian 父进程 ID |
六、其他重要变更
6.1 推测解码 (Speculative Decoding)
| Commit Message |
总结 |
PR 链接 |
[Spec][Ngram] Support multiple SAMs with dynamic HTTP API (#22203) |
支持通过动态 HTTP API 管理多个外部 SAM(Speculative Acceptance Model) |
PR #22203 |
[Spec][Ngram] Add output-as-corpus accept length benchmark for external SAM (#22199) |
为外部 SAM 添加 output-as-corpus 接受长度基准测试 |
PR #22199 |
6.2 Disaggregation 与 NIXL
| Commit Message |
总结 |
PR 链接 |
[Disagg][NIXL] Support Mamba state slice transfer for heterogeneous TP (Step 2/2 for Qwen3.5) (#22240) |
支持 Mamba 状态切片传输用于异构 TP,为 Qwen3.5 支持的第二步 |
PR #22240 |
[Disagg][NIXL] Fix heterogeneous TP KV transfer for non-MLA models (Step 1/2 for Qwen3.5 support) (#22145) |
修复非 MLA 模型的异构 TP KV 传输,为 Qwen3.5 支持的第一步 |
PR #22145 |
[VLM]: allow Qwen3.5 models for encoder disaggregation (#21849) |
允许 Qwen3.5 模型用于 encoder disaggregation |
PR #21849 |
6.3 Attention 与 Linear Attention
| Commit Message |
总结 |
PR 链接 |
Add registration API for external linear attention backend (#21983) |
添加外部 linear attention backend 的注册 API |
PR #21983 |
6.4 NPU 支持
| Commit Message |
总结 |
PR 链接 |
[NPU] Support dp-attention for MiniMax2.5 (#20919) |
为 MiniMax2.5 模型在 NPU 上支持 dp-attention |
PR #20919 |
6.5 Apple Silicon / MLX
| Commit Message |
总结 |
PR 链接 |
[Apple Silicon] [MLX] Add mlx and mlx-lm dependencies (#22162) |
添加 mlx 和 mlx-lm 依赖,支持 Apple Silicon 推理 |
PR #22162 |
6.6 CI / 测试
| Commit Message |
总结 |
PR 链接 |
[AMD] Add Qwen3.5-397B FP8 nightly perf benchmarks for MI30x and MI35x (#21669) |
为 AMD MI30x/MI35x 添加 Qwen3.5-397B FP8 夜间性能基准测试 |
PR #21669 |
[diffusion] CI: add consistency test (#15236) |
为 Diffusion 模型添加一致性测试 |
PR #15236 |
[diffusion] CI: fix consistency check (#22251) |
修复 Diffusion CI 一致性检查 |
PR #22251 |
[CI] Add basic unit test for Minimax-M2.5 (#21792) |
为 Minimax-M2.5 添加基本单元测试 |
PR #21792 |
[CI] Relax transformers MMLU threshold from 0.65 to 0.64 (#22210) |
将 transformers MMLU 阈值从 0.65 放宽到 0.64 |
PR #22210 |
Move ring test to nightly (#22267) |
将 ring 测试移至夜间运行 |
PR #22267 |
[Qwen3-Specv2]: Fix flaky ci (#22194) |
修复 Qwen3-Specv2 的 flaky CI 测试 |
PR #22194 |
6.7 文档
| Commit Message |
总结 |
PR 链接 |
[HiSparse]: Add readme docs for HiSparse Feature (#22238) |
添加 HiSparse 特性的 readme 文档 |
PR #22238 |
6.8 其他
| Commit Message |
总结 |
PR 链接 |
[misc] update CI_PERMISSIONS.json (#22207) |
更新 CI 权限配置 |
PR #22207 |
七、总结
昨日 SGLang main 分支的主要更新包括:
- 新模型支持:Gemma 4 和 Qwen3-ASR 语音识别模型
- 性能优化:topk 融合恢复、Diffusion PatchEmbed 优化、CUDA 导入链优化
- Bug 修复:PCG 重放修复、多个模型适配修复
- 新特性:HTTP/2 支持、DFlash 推测解码、外部 linear attention 注册 API
- Disaggregation:NIXL 异构 TP 传输支持,为 Qwen3.5 做准备
- 环境变量:新增 SGLANG_CACHE_DIR、SGLANG_USE_SGL_FA3_KERNEL、SGLANG_GRANIAN_PARENT_PID