SGLang Main Branch 每日 Commit 总结 (2026-04-07)

统计时间范围:UTC+8 2026-04-07 00:00 ~ 24:00
共统计 30 个 commit,涉及 81 个文件变更


一、新模型支持

昨日新增了以下模型的支持:

Commit Message 总结 PR 链接
[New Model] Gemma 4 (#21952) 新增 Google Gemma 4 模型支持,包括模型定义、MoE 配置、函数调用检测器等 PR #21952
model: support qwen3-asr (#22073) 新增 Qwen3-ASR 语音识别模型支持,包含模型配置、处理器和转录服务 PR #22073

二、性能优化

Commit Message 总结 PR 链接
[Perf] Restore torch.compile fusion for topk postprocessing (#21771) 恢复 topk 后处理的 torch.compile 融合优化,提升 MoE 路由性能 PR #21771
[diffusion] perf: replace Conv3d with reshape + F.linear in PatchEmbed (#21014) 在 Diffusion 模型的 PatchEmbed 中用 reshape + F.linear 替代 Conv3d,提升推理性能 PR #21014
Move hash utils out of hicache_storage to break CUDA import chain (#22214) 将 hash 工具从 hicache_storage 移出,打破 CUDA 导入链,减少不必要的 CUDA 初始化开销 PR #22214
Clean up req_time_stats: reduce overhead and simplify (#22186) 清理请求时间统计代码,降低性能开销并简化逻辑 PR #22186

三、Bug Fix

Commit Message 总结 PR 链接
fix(pcg,mm): fix zeroing of input_embeds when replay PCG (#22229) 修复 PCG 重放时 input_embeds 归零的问题 PR #22229
fix qwen2_5_math_rm_72b (#21295) 修复 Qwen2.5-Math-RM-72B 模型的问题 PR #21295
fix(grok): adapt huihui-ai/grok-2 (#21522) 适配 huihui-ai/grok-2 模型的修复 PR #21522
Cache sub-objects in __getitem__ to ensure identity stability (#22184) 缓存子对象以确保 getitem 中的对象身份稳定性 PR #22184
Fix extra calls to get_numa_node_if_available to clean up logs (#21781) 修复多余的 get_numa_node_if_available 调用,清理日志输出 PR #21781
tiny fix chain-style multi layer eagle comments (#22206) 修复 chain-style 多层 Eagle 的注释问题 PR #22206
[sgl] potential chained spec v2 fixes (#22041) 修复 chain-style 推测解码 v2 的潜在问题 PR #22041

四、server_args.py 新增参数

参数名 类型 说明 相关 PR
enable_http2 bool 启用 HTTP/2 服务器支持,默认 False PR #22203
speculative_dflash_block_size Optional[int] DFlash 推测解码的块大小配置 DFlash 特性
speculative_dflash_draft_window_size Optional[int] DFlash 推测解码的草稿窗口大小配置 DFlash 特性

五、新增环境变量

环境变量 类型 默认值 说明
SGLANG_CACHE_DIR EnvStr ~/.cache/sglang 模型权重和其他数据的缓存目录
SGLANG_USE_SGL_FA3_KERNEL EnvBool true 使用 sgl-kernel 实现的 FlashAttention v3
SGLANG_GRANIAN_PARENT_PID EnvInt None HTTP/2 服务器使用的 Granian 父进程 ID

六、其他重要变更

6.1 推测解码 (Speculative Decoding)

Commit Message 总结 PR 链接
[Spec][Ngram] Support multiple SAMs with dynamic HTTP API (#22203) 支持通过动态 HTTP API 管理多个外部 SAM(Speculative Acceptance Model) PR #22203
[Spec][Ngram] Add output-as-corpus accept length benchmark for external SAM (#22199) 为外部 SAM 添加 output-as-corpus 接受长度基准测试 PR #22199

6.2 Disaggregation 与 NIXL

Commit Message 总结 PR 链接
[Disagg][NIXL] Support Mamba state slice transfer for heterogeneous TP (Step 2/2 for Qwen3.5) (#22240) 支持 Mamba 状态切片传输用于异构 TP,为 Qwen3.5 支持的第二步 PR #22240
[Disagg][NIXL] Fix heterogeneous TP KV transfer for non-MLA models (Step 1/2 for Qwen3.5 support) (#22145) 修复非 MLA 模型的异构 TP KV 传输,为 Qwen3.5 支持的第一步 PR #22145
[VLM]: allow Qwen3.5 models for encoder disaggregation (#21849) 允许 Qwen3.5 模型用于 encoder disaggregation PR #21849

6.3 Attention 与 Linear Attention

Commit Message 总结 PR 链接
Add registration API for external linear attention backend (#21983) 添加外部 linear attention backend 的注册 API PR #21983

6.4 NPU 支持

Commit Message 总结 PR 链接
[NPU] Support dp-attention for MiniMax2.5 (#20919) 为 MiniMax2.5 模型在 NPU 上支持 dp-attention PR #20919

6.5 Apple Silicon / MLX

Commit Message 总结 PR 链接
[Apple Silicon] [MLX] Add mlx and mlx-lm dependencies (#22162) 添加 mlx 和 mlx-lm 依赖,支持 Apple Silicon 推理 PR #22162

6.6 CI / 测试

Commit Message 总结 PR 链接
[AMD] Add Qwen3.5-397B FP8 nightly perf benchmarks for MI30x and MI35x (#21669) 为 AMD MI30x/MI35x 添加 Qwen3.5-397B FP8 夜间性能基准测试 PR #21669
[diffusion] CI: add consistency test (#15236) 为 Diffusion 模型添加一致性测试 PR #15236
[diffusion] CI: fix consistency check (#22251) 修复 Diffusion CI 一致性检查 PR #22251
[CI] Add basic unit test for Minimax-M2.5 (#21792) 为 Minimax-M2.5 添加基本单元测试 PR #21792
[CI] Relax transformers MMLU threshold from 0.65 to 0.64 (#22210) 将 transformers MMLU 阈值从 0.65 放宽到 0.64 PR #22210
Move ring test to nightly (#22267) 将 ring 测试移至夜间运行 PR #22267
[Qwen3-Specv2]: Fix flaky ci (#22194) 修复 Qwen3-Specv2 的 flaky CI 测试 PR #22194

6.7 文档

Commit Message 总结 PR 链接
[HiSparse]: Add readme docs for HiSparse Feature (#22238) 添加 HiSparse 特性的 readme 文档 PR #22238

6.8 其他

Commit Message 总结 PR 链接
[misc] update CI_PERMISSIONS.json (#22207) 更新 CI 权限配置 PR #22207

七、总结

昨日 SGLang main 分支的主要更新包括:

  • 新模型支持:Gemma 4 和 Qwen3-ASR 语音识别模型
  • 性能优化:topk 融合恢复、Diffusion PatchEmbed 优化、CUDA 导入链优化
  • Bug 修复:PCG 重放修复、多个模型适配修复
  • 新特性:HTTP/2 支持、DFlash 推测解码、外部 linear attention 注册 API
  • Disaggregation:NIXL 异构 TP 传输支持,为 Qwen3.5 做准备
  • 环境变量:新增 SGLANG_CACHE_DIR、SGLANG_USE_SGL_FA3_KERNEL、SGLANG_GRANIAN_PARENT_PID