SGLang 每日 Commit 总结 - 2026-04-10

Created2026-04-11|Updated2026-04-11|SGLang

|Post Views:

SGLang 每日 Commit 总结 (UTC+8 2026-04-10)

昨日 main 分支共产生 40 个 commit，涵盖模型支持、性能优化、Bug 修复、CI/CD、Docker 优化等多个方面。

一、新模型 / 新特性

Commit Message	总结	PR 链接
`[EPD][VLM] Support Kimi K25 EPD (#22269)`	支持 Kimi K25 的 EPD（Encode Prefill Disaggregation），扩展 VLM disaggregation 到 Kimi 系列模型	PR #22269
`[feature] asr: add chunk-based streaming ASR for Qwen3-ASR (#22089)`	为 Qwen3-ASR 添加基于 chunk 的流式语音识别（ASR）支持	PR #22089
`Enable DFLASH support for additional model backends (#22358)`	为 DeepSeekV2、GPT-OSS、Kimi K25、Qwen3/3.5/3-MoE/3-Next/3-VL 等模型启用 DFLASH 推测解码支持	PR #22358
`Add dedicated FlashInferCuteDslMoE layer for standard-path FP4 MoE (#21339)`	新增 FlashInfer CuteDSL MoE 层，支持标准路径 FP4 MoE（modelopt_fp4 量化）	PR #21339

二、性能优化

Commit Message	总结	PR 链接
`[Perf] Remove two operations in gdn_backend extend verify path (#22444)`	在 GDN backend 的 extend verify 路径中移除两个冗余操作，提升性能	PR #22444
`[Reland] DeepSeek-R1-0528-w4a8: DeepEP Low Latency Dispatch Adopts FP8 Communication (#22316)`	DeepEP 低延迟路径采用 FP8 通信，降低带宽开销，减少 dispatch 延迟	PR #22316
`[AMD][HIP] NSA: bf16 passthrough from RMSNorm to eliminate FP8 dequantization (#22258)`	AMD HIP 平台上 NSA 索引器中 RMSNorm 输出直接 bf16 传递，消除不必要的 FP8 反量化开销	PR #22258
`[AMD] Replace triton rotary_emb with aiter rotary_emb for Wan2.2 denoise (#22422)`	Wan2.2 扩散模型用 aiter rotary_emb 替换 triton 实现，提升 AMD GPU 性能	PR #22422
`[Lora] Lora quat info re-factor and support deepseekv3 mla lora (#22323)`	重构 LoRA quat info 并支持 DeepSeekV3 MLA 的 LoRA	PR #22323
`[Lora] Lora kimi support (#22381)`	支持 Kimi K25 模型的 LoRA，包含 compressed_tensors 量化方案的 LoRA 适配	PR #22381
`[CPU] Add apply_routed_scaling_factor_on_output support for biased_grouped_topk fusion (#22413)`	CPU 后端为 biased_grouped_topk 添加 routed scaling factor 融合支持	PR #22413
`[DSA] Enable all reduce fusion for DSA models (#22390)`	为 DSA 模型启用 all reduce 融合优化，涵盖 DeepSeekV3/V32、GPT-OSS、GLM-MoE-DSA、Qwen3 系列	PR #22390

三、Bug Fix

Commit Message	总结	PR 链接
`[BugFix] fix the bug of minimax_m2.5 model that causes repeated outputs when using tp16 (#20967)`	修复 MiniMax-M2.5 在 TP16 下产生重复输出的 bug	PR #20967
`Make GDN support non-continuous B/A Tensor input to fix the accuracy regression of Qwen3.5-27B (#22312)`	使 GDN 支持非连续 B/A Tensor 输入，修复 Qwen3.5-27B 的精度回退问题	PR #22312
`[diffusion] fix: fix flux2 i2i accuracy (#22423)`	修复 Flux2 图像到图像（i2i）生成的精度问题	PR #22423
`Fix SWA eviction boundary and page-align chunked prefill (#22470)`	修复 SWA Radix Cache 驱逐边界问题，并对 chunked prefill 进行页对齐	PR #22470
`Fix NCCL AllGather hanging issue for Qwen3 Next MTP (#22458)`	修复 Qwen3 Next MTP 中 NCCL AllGather 挂起问题，增加 speculative token 元数据传递	PR #22458
`Fix several bugs on DSA models (#22430)`	修复 DSA 模型的多个 bug，包括 NSA backend 逻辑修正和 server_args 默认值修正	PR #22430
`[nvidia] Gemma4 nvfp4 fix (#22079)`	修复 Gemma4 模型在 NVFP4 量化下的 extend attention 问题	PR #22079
`fix: do not strip whitespace from GLM tool call values (#20543)`	修复 GLM 模型 tool call 值中空白字符被错误去除的问题	PR #20543
`[sgl-kernel/cpu] fix build error on non-x86 platform (#22245)`	修复 sgl-kernel 在非 x86 平台上的 CPU 编译错误	PR #22245
`[sgl] Fix mamba tracking calculation in spec dec (#22239)`	修复推测解码中 Mamba 状态追踪计算错误	PR #22239

四、server_args.py 新增参数

Commit Message	新增/修改的参数	说明	PR 链接
`[Observability] Add Prometheus metrics endpoint for gRPC mode (#20801)`	`--metrics-http-port`	gRPC 模式下独立的 Prometheus 指标 HTTP 服务端口，默认为 –port + 1	PR #20801
`[EPD][VLM] Support Kimi K25 EPD (#22269)`	扩展 `--enable-disaggregation-encode` 白名单	新增 KimiVLForConditionalGeneration 和 KimiK25ForConditionalGeneration 到支持 EPD 的模型列表	PR #22269
`[DSA] Enable all reduce fusion for DSA models (#22390)`	扩展 all reduce fusion 模型列表	新增 DeepseekV32ForCausalLM 和 GlmMoeDsaForCausalLM 到自动启用 all reduce fusion 的模型列表	PR #22390
`[Fix] Fix several bugs on DSA models (#22430)`	修正 NSA backend 默认值逻辑	修正 fp8_e4m3 量化下 NSA prefill/decode backend 默认值仅在用户未手动设置时自动覆盖	PR #22430
`Add dedicated FlashInferCuteDslMoE layer for standard-path FP4 MoE (#21339)`	`--moe-runner-backend` 支持 flashinfer_cutedsl	新增 flashinfer_cutedsl 作为 MoE runner 后端，仅支持 modelopt_fp4 量化，自动启用 disable-shared-experts-fusion	PR #21339
`[AMD] Add prealloc token env for mori-ep (#22329)`	更新 `--moe-ep-mode` 帮助文本	帮助文本更新为包含 MoriEP 模式描述	PR #22329

五、新增环境变量

Commit Message	新增环境变量	说明	PR 链接
`[AMD] Add prealloc token env for mori-ep (#22329)`	`SGLANG_MORI_PREALLOC_MAX_RECV_TOKENS`	控制 Mori-EP 预分配的 token 接收缓冲大小，默认 0 表示最大，减小可降低内存占用但过小可能导致缓冲区溢出	PR #22329

六、Diffusion / 多模态生成

Commit Message	总结	PR 链接
`[Diffusion] modelopt diffusion fp8 support for flux1/flux2 and wan2.2 (#22365)`	为 Flux1/Flux2/Wan2.2 扩散模型添加 ModelOpt FP8 量化支持，含转换工具和 quantization 工具	PR #22365

七、HiCache / 缓存

Commit Message	总结	PR 链接
`[HiCache] Add CP support for HiCache (#20977)`	为 HiCache 添加 Context Parallelism (CP) 支持，扩展 Mooncake Store 后端	PR #20977

八、可观测性

Commit Message	总结	PR 链接
`[Observability] Add pending token count to prefill log and get_load (#22480)`	在 prefill 日志和 get_load 中新增 pending token 计数指标	PR #22480
`[Observability] Add Prometheus metrics endpoint for gRPC mode (#20801)`	为 gRPC 模式添加独立的 Prometheus 指标 HTTP 端点	PR #20801

九、调度 / 内存管理

Commit Message	总结	PR 链接
`Add page_size to admission token budget check (#22495)`	在 admission token 预算检查中加入 page_size 因子，更准确地控制调度预算	PR #22495
`[sgl] add ability to return logprobs in MultiLayerEagleWorkerV2 (#22241)`	MultiLayerEagleWorkerV2 新增返回 logprobs 的能力	PR #22241

十、CI/CD 与基础设施

Commit Message	总结	PR 链接
`[diffusion][CI]: route multimodal component accuracy through run_suite (#21960)`	将多模态组件精度测试接入 run_suite 和 CI 流程	PR #21960
`[CI] Remove Slack notification from ci-auto-bisect workflow (#22483)`	移除 ci-auto-bisect 工作流中的 Slack 通知	PR #22483
`[CI] Update est_time for 64 tests based on actual elapsed times (#22305)`	基于实际运行时间更新 64 个测试的预估时间	PR #22305
`Add skills for debugging hanging issues (#22463)`	添加用于调试分布式挂起问题的 Claude Skill	PR #22463
`[SKILL]: add component accuracy guidance to the diffusion add-model skill (#22460)`	为 diffusion add-model skill 添加组件精度指导文档	PR #22460
`[Docker] Fix CI docker target after Dockerfile restructure (#22478)`	修复 Dockerfile 重构后的 CI Docker 目标引用	PR #22478
`[Docker] Optimize Dockerfile for BuildKit layer caching (#22160)`	优化 Dockerfile 以利用 BuildKit 层缓存，加速镜像构建	PR #22160
`[Docker] Fix Trivy CVEs, cubin download 403s, and kernels command order (#22322)`	修复 Trivy 扫描的 CVE、cubin 下载 403 错误和 kernels 命令顺序	PR #22322

十一、其他平台 / 后端

Commit Message	总结	PR 链接
`[Intel GPU] import flash_attn functions from sgl_kernel only (#22438)`	Intel GPU 后端统一从 sgl_kernel 导入 flash_attn 函数	PR #22438
`add whisper test (#22302)`	新增 Whisper 语音识别模型的测试	PR #22302
`[HiSparse]: Update HiSparse's user-guide (#22499)`	更新 HiSparse 用户指南文档	PR #22499

Author: John Doe

Link: http://example.com/2026/04/11/sglang-daily-commit-summary-2026-04-10/

Copyright Notice: All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.

SGLang 每日总结

Related Articles

SGLang Main 分支每日变更总结 2026-04-08

SGLang Main 分支每日变更总结 (2026-04-08)概述北京时间 2026 年 4 月 8 日 00:00 ~ 24:00，SGLang main 分支共有 38 次提交。主要变更涵盖：DFLASH 推测解码新功能、HTTP/2 服务器支持、Score API 扩展支持 SequenceClassification 模型、多项性能优化，以及跨 NVIDIA/AMD/NPU 平台的 bug 修复。一、新模型与新功能1.1 DFLASH 推测解码支持DFLASH 是一种全新的推测解码算法，使用小型 draft model 捕获 target model 的辅助隐藏状态来高效生成草稿 token。Draft model 不包含 token embedding 或 LM head（复用 target model 的），引入了专用的 worker、Triton kernel 以及与 scheduler、cuda graph runner、flashinfer backend 的深度集成。 Commit Message 总结 PR 链接 ...

SGLang main分支每日Commit总结 - 2026-04-21

SGLang main分支 Commit 总结 (2026-04-21 UTC+8)本文总结了2026年4月21日（UTC+8 0:00-24:00）期间 SGLang main分支的所有commit，共计 51个commit。一、新模型支持昨日新增了对以下模型或模型特性的支持： Commit Message 总结 PR链接 [AMD] Fused qk rmsnorm bf16 for amd/Kimi-K2.5-MXFP4 (#23186) 为AMD GPU上的Kimi-K2.5-MXFP4模型实现fused qk rmsnorm bf16优化 #23186 [AMD] Enable MTP for GLM-5-mxfp4 model (#23219) 为GLM-5-mxfp4模型启用MTP（Multi-Token Prediction）支持 #23219 [Diffusion][CPU] Init CPU platform support for SGLang Diffusion (#20816) 为SGLang Diffusion初始化CPU平台支...

SGLang 每日 Commit 总结 - 2026-04-09

SGLang Main Branch Commit 总结日期: 2026-04-09 (UTC+8)Commit 总数: 41 个代码变更: 206 个文件，+17272/-2562 行一、重点关注：新模型支持1.1 扩散模型 (Diffusion) Commit Message 总结 PR 链接 [diffusion] feat: support FLUX.2-small-decoder (#22414) 为 FLUX.2-small-decoder 添加支持，更新兼容性矩阵和 VAE 配置 PR #22414 1.2 视觉语言模型 (VLM) Commit Message 总结 PR 链接 [Feature] Support eagle3 for qwen3-vl (#22230) 为 Qwen3-VL 视觉语言模型添加 Eagle3 投机解码支持，仅修改 1 个文件 +24 行 PR #22230 1.3 语音识别模型 (ASR) Commit Message 总结 PR 链接 [refactor] [asr] add t...

SGLang 每日 Commit 总结 (2026-04-17 UTC+8)

统计时间范围：2026-04-17 00:00 ~ 24:00 (UTC+8)分支：mainCommit 总数：47 一、重点修改概览新模型支持 Commit Message 总结 PR 链接 [CPU] Add gemma4_rmsnorm_cpu kernel (#22842) 为 CPU 后端添加 Gemma-4 模型的 RMSNorm 内核支持 PR #22842 [CI] Adding Gemma 4 to Nightly CI (#22408) 将 Gemma-4 模型加入夜间 CI 测试 PR #22408 feat: Support MXFP4 quantized dense models on AMD CDNA2/CDNA3 GPUs (#19143) 支持 AMD CDNA2/CDNA3 GPU 上的 MXFP4 量化稠密模型（新增 petit_mxfp4 量化选项，后被 revert） PR #19143 Revert "feat: Support MXFP4 quantized dense models on...

SGLang 每日提交总结 - 2026年4月13日

SGLang 每日提交总结 - 2026年4月13日 (UTC+8) 统计范围: 2026-04-13 00:00 ~ 23:59 (UTC+8)分支: main提交总数: 32 个一、新模型与新功能昨日新增了 Stable Diffusion 3 和 LTX-2 相关的模型支持，以及 JIT Kernel 的 TP QK Norm 融合算子。 Commit Message 总结 PR 链接 [diffusion] model: support stable-diffusion-3-medium-diffusers (#19225) 新增 Stable Diffusion 3 Medium 模型的完整支持，包括 DiT、VAE 配置、Pipeline 和文本编码器 #19225 [Feature][JIT Kernel] Fused TP QK norm For Minimax (#20673) 为 MiniMax M2 模型新增 fused TP QK Norm 内核，优化张量并行场景下的 QK 归一化性能 #20673 [diffusion] ref...

SGLang 每日 Commit 总结 (2026-04-20)

SGLang 每日 Commit 总结日期： UTC+8 2026-04-20 00:00 ~ 24:00分支： mainCommit 总数： 20 个一、总体概述昨日的修改主要集中在以下几个方向： Multi platform Plugin 系统：引入了平台插件机制，支持 OOT（Out-of-Tree）平台通过插件方式接入，包括平台接口定义、插件钩子注册、server_args 默认值注入等核心基础设施。 Native gRPC 支持：添加了原生 gRPC 服务器的 proto 定义、Rust crate 脚手架以及 server_args 集成，支持环境变量控制。 StreamingSession 核心重构：将 StreamingSession 深度集成到 UnifiedRadixCache 中，包括 session 模块目录迁移和 always-on 模式。 Diffusion 模型优化：针对 diffusion 模型的图像/视频输入加载方式进行了性能优化，并对 LTX2.3 进行了代码清理。 Bugfix 和 CI 改进：修复了 DeepEP 编译超时、...