SGLang 每日 Commit 总结 (2026-04-07)

Created2026-04-08|Updated2026-04-08|SGLang

|Post Views:

SGLang Main Branch 每日 Commit 总结 (2026-04-07)

统计时间范围：UTC+8 2026-04-07 00:00 ~ 24:00
共统计 30 个 commit，涉及 81 个文件变更

一、新模型支持

昨日新增了以下模型的支持：

Commit Message	总结	PR 链接
`[New Model] Gemma 4 (#21952)`	新增 Google Gemma 4 模型支持，包括模型定义、MoE 配置、函数调用检测器等	PR #21952
`model: support qwen3-asr (#22073)`	新增 Qwen3-ASR 语音识别模型支持，包含模型配置、处理器和转录服务	PR #22073

二、性能优化

Commit Message	总结	PR 链接
`[Perf] Restore torch.compile fusion for topk postprocessing (#21771)`	恢复 topk 后处理的 torch.compile 融合优化，提升 MoE 路由性能	PR #21771
`[diffusion] perf: replace Conv3d with reshape + F.linear in PatchEmbed (#21014)`	在 Diffusion 模型的 PatchEmbed 中用 reshape + F.linear 替代 Conv3d，提升推理性能	PR #21014
`Move hash utils out of hicache_storage to break CUDA import chain (#22214)`	将 hash 工具从 hicache_storage 移出，打破 CUDA 导入链，减少不必要的 CUDA 初始化开销	PR #22214
`Clean up req_time_stats: reduce overhead and simplify (#22186)`	清理请求时间统计代码，降低性能开销并简化逻辑	PR #22186

三、Bug Fix

Commit Message	总结	PR 链接
`fix(pcg,mm): fix zeroing of input_embeds when replay PCG (#22229)`	修复 PCG 重放时 input_embeds 归零的问题	PR #22229
`fix qwen2_5_math_rm_72b (#21295)`	修复 Qwen2.5-Math-RM-72B 模型的问题	PR #21295
`fix(grok): adapt huihui-ai/grok-2 (#21522)`	适配 huihui-ai/grok-2 模型的修复	PR #21522
`Cache sub-objects in __getitem__ to ensure identity stability (#22184)`	缓存子对象以确保 getitem 中的对象身份稳定性	PR #22184
`Fix extra calls to get_numa_node_if_available to clean up logs (#21781)`	修复多余的 get_numa_node_if_available 调用，清理日志输出	PR #21781
`tiny fix chain-style multi layer eagle comments (#22206)`	修复 chain-style 多层 Eagle 的注释问题	PR #22206
`[sgl] potential chained spec v2 fixes (#22041)`	修复 chain-style 推测解码 v2 的潜在问题	PR #22041

四、server_args.py 新增参数

参数名	类型	说明	相关 PR
`enable_http2`	`bool`	启用 HTTP/2 服务器支持，默认 False	PR #22203
`speculative_dflash_block_size`	`Optional[int]`	DFlash 推测解码的块大小配置	DFlash 特性
`speculative_dflash_draft_window_size`	`Optional[int]`	DFlash 推测解码的草稿窗口大小配置	DFlash 特性

五、新增环境变量

环境变量	类型	默认值	说明
`SGLANG_CACHE_DIR`	`EnvStr`	`~/.cache/sglang`	模型权重和其他数据的缓存目录
`SGLANG_USE_SGL_FA3_KERNEL`	`EnvBool`	`true`	使用 sgl-kernel 实现的 FlashAttention v3
`SGLANG_GRANIAN_PARENT_PID`	`EnvInt`	`None`	HTTP/2 服务器使用的 Granian 父进程 ID

六、其他重要变更

6.1 推测解码 (Speculative Decoding)

Commit Message	总结	PR 链接
`[Spec][Ngram] Support multiple SAMs with dynamic HTTP API (#22203)`	支持通过动态 HTTP API 管理多个外部 SAM（Speculative Acceptance Model）	PR #22203
`[Spec][Ngram] Add output-as-corpus accept length benchmark for external SAM (#22199)`	为外部 SAM 添加 output-as-corpus 接受长度基准测试	PR #22199

6.2 Disaggregation 与 NIXL

Commit Message	总结	PR 链接
`[Disagg][NIXL] Support Mamba state slice transfer for heterogeneous TP (Step 2/2 for Qwen3.5) (#22240)`	支持 Mamba 状态切片传输用于异构 TP，为 Qwen3.5 支持的第二步	PR #22240
`[Disagg][NIXL] Fix heterogeneous TP KV transfer for non-MLA models (Step 1/2 for Qwen3.5 support) (#22145)`	修复非 MLA 模型的异构 TP KV 传输，为 Qwen3.5 支持的第一步	PR #22145
`[VLM]: allow Qwen3.5 models for encoder disaggregation (#21849)`	允许 Qwen3.5 模型用于 encoder disaggregation	PR #21849

6.3 Attention 与 Linear Attention

Commit Message	总结	PR 链接
`Add registration API for external linear attention backend (#21983)`	添加外部 linear attention backend 的注册 API	PR #21983

6.4 NPU 支持

Commit Message	总结	PR 链接
`[NPU] Support dp-attention for MiniMax2.5 (#20919)`	为 MiniMax2.5 模型在 NPU 上支持 dp-attention	PR #20919

6.5 Apple Silicon / MLX

Commit Message	总结	PR 链接
`[Apple Silicon] [MLX] Add mlx and mlx-lm dependencies (#22162)`	添加 mlx 和 mlx-lm 依赖，支持 Apple Silicon 推理	PR #22162

6.6 CI / 测试

Commit Message	总结	PR 链接
`[AMD] Add Qwen3.5-397B FP8 nightly perf benchmarks for MI30x and MI35x (#21669)`	为 AMD MI30x/MI35x 添加 Qwen3.5-397B FP8 夜间性能基准测试	PR #21669
`[diffusion] CI: add consistency test (#15236)`	为 Diffusion 模型添加一致性测试	PR #15236
`[diffusion] CI: fix consistency check (#22251)`	修复 Diffusion CI 一致性检查	PR #22251
`[CI] Add basic unit test for Minimax-M2.5 (#21792)`	为 Minimax-M2.5 添加基本单元测试	PR #21792
`[CI] Relax transformers MMLU threshold from 0.65 to 0.64 (#22210)`	将 transformers MMLU 阈值从 0.65 放宽到 0.64	PR #22210
`Move ring test to nightly (#22267)`	将 ring 测试移至夜间运行	PR #22267
`[Qwen3-Specv2]: Fix flaky ci (#22194)`	修复 Qwen3-Specv2 的 flaky CI 测试	PR #22194

6.7 文档

Commit Message	总结	PR 链接
`[HiSparse]: Add readme docs for HiSparse Feature (#22238)`	添加 HiSparse 特性的 readme 文档	PR #22238

6.8 其他

Commit Message	总结	PR 链接
`[misc] update CI_PERMISSIONS.json (#22207)`	更新 CI 权限配置	PR #22207

七、总结

昨日 SGLang main 分支的主要更新包括：

新模型支持：Gemma 4 和 Qwen3-ASR 语音识别模型
性能优化：topk 融合恢复、Diffusion PatchEmbed 优化、CUDA 导入链优化
Bug 修复：PCG 重放修复、多个模型适配修复
新特性：HTTP/2 支持、DFlash 推测解码、外部 linear attention 注册 API
Disaggregation：NIXL 异构 TP 传输支持，为 Qwen3.5 做准备
环境变量：新增 SGLANG_CACHE_DIR、SGLANG_USE_SGL_FA3_KERNEL、SGLANG_GRANIAN_PARENT_PID

Author: John Doe

Link: http://example.com/2026/04/08/SGLang-%E6%AF%8F%E6%97%A5-Commit-%E6%80%BB%E7%BB%93-2026-04-07/

Copyright Notice: All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.

SGLang daily-summary commit

Related Articles

SGLang main分支每日Commit总结 - 2026-04-21

SGLang main分支 Commit 总结 (2026-04-21 UTC+8)本文总结了2026年4月21日（UTC+8 0:00-24:00）期间 SGLang main分支的所有commit，共计 51个commit。一、新模型支持昨日新增了对以下模型或模型特性的支持： Commit Message 总结 PR链接 [AMD] Fused qk rmsnorm bf16 for amd/Kimi-K2.5-MXFP4 (#23186) 为AMD GPU上的Kimi-K2.5-MXFP4模型实现fused qk rmsnorm bf16优化 #23186 [AMD] Enable MTP for GLM-5-mxfp4 model (#23219) 为GLM-5-mxfp4模型启用MTP（Multi-Token Prediction）支持 #23219 [Diffusion][CPU] Init CPU platform support for SGLang Diffusion (#20816) 为SGLang Diffusion初始化CPU平台支...

SGLang 每日 Commit 总结 2026-04-12

SGLang 每日 Commit 总结日期: 2026-04-12 (UTC+8)总提交数: 22时间范围: 2026-04-12 00:00 ~ 24:00 (UTC+8) 概述昨日的 22 个 commit 主要集中在以下几个领域：Diffusion 模型支持增强（LTX2.3 两阶段、ModelOpt 量化）、性能优化（AMD GLM-5、Whisper 批量编码、Tokenizer 流式优化）、Bug 修复、LoRA MoE Marlin 后端支持、Unified Radix Cache 和 Breakable CUDA Graph 新特性、以及 CI 基础设施改进。新模型/新功能重点内容 LTX2.3 两阶段支持: 为 Diffusion 模型 LTX2.3 添加了两阶段推理支持 ModelOpt 量化 FLUX: 启用了 ModelOpt 量化后的 FLUX 模型部署 Unified Radix Cache: 新增统一的 Radix 缓存架构，支持 Full、SWA、Mamba、Tree 等多种缓存组件 Breakable CUDA Graph: 新增可...

SGLang 每日 Commit 总结 (2026-04-20)

SGLang 每日 Commit 总结日期： UTC+8 2026-04-20 00:00 ~ 24:00分支： mainCommit 总数： 20 个一、总体概述昨日的修改主要集中在以下几个方向： Multi platform Plugin 系统：引入了平台插件机制，支持 OOT（Out-of-Tree）平台通过插件方式接入，包括平台接口定义、插件钩子注册、server_args 默认值注入等核心基础设施。 Native gRPC 支持：添加了原生 gRPC 服务器的 proto 定义、Rust crate 脚手架以及 server_args 集成，支持环境变量控制。 StreamingSession 核心重构：将 StreamingSession 深度集成到 UnifiedRadixCache 中，包括 session 模块目录迁移和 always-on 模式。 Diffusion 模型优化：针对 diffusion 模型的图像/视频输入加载方式进行了性能优化，并对 LTX2.3 进行了代码清理。 Bugfix 和 CI 改进：修复了 DeepEP 编译超时、...

SGLang 每日 Commit 总结 (2026-04-17 UTC+8)

统计时间范围：2026-04-17 00:00 ~ 24:00 (UTC+8)分支：mainCommit 总数：47 一、重点修改概览新模型支持 Commit Message 总结 PR 链接 [CPU] Add gemma4_rmsnorm_cpu kernel (#22842) 为 CPU 后端添加 Gemma-4 模型的 RMSNorm 内核支持 PR #22842 [CI] Adding Gemma 4 to Nightly CI (#22408) 将 Gemma-4 模型加入夜间 CI 测试 PR #22408 feat: Support MXFP4 quantized dense models on AMD CDNA2/CDNA3 GPUs (#19143) 支持 AMD CDNA2/CDNA3 GPU 上的 MXFP4 量化稠密模型（新增 petit_mxfp4 量化选项，后被 revert） PR #19143 Revert "feat: Support MXFP4 quantized dense models on...

SGLang 每日 Commit 总结 - 2026-04-10

SGLang 每日 Commit 总结 (UTC+8 2026-04-10)昨日 main 分支共产生 40 个 commit，涵盖模型支持、性能优化、Bug 修复、CI/CD、Docker 优化等多个方面。一、新模型 / 新特性 Commit Message 总结 PR 链接 [EPD][VLM] Support Kimi K25 EPD (#22269) 支持 Kimi K25 的 EPD（Encode Prefill Disaggregation），扩展 VLM disaggregation 到 Kimi 系列模型 PR #22269 [feature] asr: add chunk-based streaming ASR for Qwen3-ASR (#22089) 为 Qwen3-ASR 添加基于 chunk 的流式语音识别（ASR）支持 PR #22089 Enable DFLASH support for additional model backends (#22358) 为 DeepSeekV2、GPT-OSS、Kim...

SGLang 每日提交总结 - 2026年4月13日

SGLang 每日提交总结 - 2026年4月13日 (UTC+8) 统计范围: 2026-04-13 00:00 ~ 23:59 (UTC+8)分支: main提交总数: 32 个一、新模型与新功能昨日新增了 Stable Diffusion 3 和 LTX-2 相关的模型支持，以及 JIT Kernel 的 TP QK Norm 融合算子。 Commit Message 总结 PR 链接 [diffusion] model: support stable-diffusion-3-medium-diffusers (#19225) 新增 Stable Diffusion 3 Medium 模型的完整支持，包括 DiT、VAE 配置、Pipeline 和文本编码器 #19225 [Feature][JIT Kernel] Fused TP QK norm For Minimax (#20673) 为 MiniMax M2 模型新增 fused TP QK Norm 内核，优化张量并行场景下的 QK 归一化性能 #20673 [diffusion] ref...