SGLang 每日 Commit 总结 (UTC+8 2026-04-10)
昨日 main 分支共产生 40 个 commit,涵盖模型支持、性能优化、Bug 修复、CI/CD、Docker 优化等多个方面。
一、新模型 / 新特性
| Commit Message |
总结 |
PR 链接 |
[EPD][VLM] Support Kimi K25 EPD (#22269) |
支持 Kimi K25 的 EPD(Encode Prefill Disaggregation),扩展 VLM disaggregation 到 Kimi 系列模型 |
PR #22269 |
[feature] asr: add chunk-based streaming ASR for Qwen3-ASR (#22089) |
为 Qwen3-ASR 添加基于 chunk 的流式语音识别(ASR)支持 |
PR #22089 |
Enable DFLASH support for additional model backends (#22358) |
为 DeepSeekV2、GPT-OSS、Kimi K25、Qwen3/3.5/3-MoE/3-Next/3-VL 等模型启用 DFLASH 推测解码支持 |
PR #22358 |
Add dedicated FlashInferCuteDslMoE layer for standard-path FP4 MoE (#21339) |
新增 FlashInfer CuteDSL MoE 层,支持标准路径 FP4 MoE(modelopt_fp4 量化) |
PR #21339 |
二、性能优化
| Commit Message |
总结 |
PR 链接 |
[Perf] Remove two operations in gdn_backend extend verify path (#22444) |
在 GDN backend 的 extend verify 路径中移除两个冗余操作,提升性能 |
PR #22444 |
[Reland] DeepSeek-R1-0528-w4a8: DeepEP Low Latency Dispatch Adopts FP8 Communication (#22316) |
DeepEP 低延迟路径采用 FP8 通信,降低带宽开销,减少 dispatch 延迟 |
PR #22316 |
[AMD][HIP] NSA: bf16 passthrough from RMSNorm to eliminate FP8 dequantization (#22258) |
AMD HIP 平台上 NSA 索引器中 RMSNorm 输出直接 bf16 传递,消除不必要的 FP8 反量化开销 |
PR #22258 |
[AMD] Replace triton rotary_emb with aiter rotary_emb for Wan2.2 denoise (#22422) |
Wan2.2 扩散模型用 aiter rotary_emb 替换 triton 实现,提升 AMD GPU 性能 |
PR #22422 |
[Lora] Lora quat info re-factor and support deepseekv3 mla lora (#22323) |
重构 LoRA quat info 并支持 DeepSeekV3 MLA 的 LoRA |
PR #22323 |
[Lora] Lora kimi support (#22381) |
支持 Kimi K25 模型的 LoRA,包含 compressed_tensors 量化方案的 LoRA 适配 |
PR #22381 |
[CPU] Add apply_routed_scaling_factor_on_output support for biased_grouped_topk fusion (#22413) |
CPU 后端为 biased_grouped_topk 添加 routed scaling factor 融合支持 |
PR #22413 |
[DSA] Enable all reduce fusion for DSA models (#22390) |
为 DSA 模型启用 all reduce 融合优化,涵盖 DeepSeekV3/V32、GPT-OSS、GLM-MoE-DSA、Qwen3 系列 |
PR #22390 |
三、Bug Fix
| Commit Message |
总结 |
PR 链接 |
[BugFix] fix the bug of minimax_m2.5 model that causes repeated outputs when using tp16 (#20967) |
修复 MiniMax-M2.5 在 TP16 下产生重复输出的 bug |
PR #20967 |
Make GDN support non-continuous B/A Tensor input to fix the accuracy regression of Qwen3.5-27B (#22312) |
使 GDN 支持非连续 B/A Tensor 输入,修复 Qwen3.5-27B 的精度回退问题 |
PR #22312 |
[diffusion] fix: fix flux2 i2i accuracy (#22423) |
修复 Flux2 图像到图像(i2i)生成的精度问题 |
PR #22423 |
Fix SWA eviction boundary and page-align chunked prefill (#22470) |
修复 SWA Radix Cache 驱逐边界问题,并对 chunked prefill 进行页对齐 |
PR #22470 |
Fix NCCL AllGather hanging issue for Qwen3 Next MTP (#22458) |
修复 Qwen3 Next MTP 中 NCCL AllGather 挂起问题,增加 speculative token 元数据传递 |
PR #22458 |
Fix several bugs on DSA models (#22430) |
修复 DSA 模型的多个 bug,包括 NSA backend 逻辑修正和 server_args 默认值修正 |
PR #22430 |
[nvidia] Gemma4 nvfp4 fix (#22079) |
修复 Gemma4 模型在 NVFP4 量化下的 extend attention 问题 |
PR #22079 |
fix: do not strip whitespace from GLM tool call values (#20543) |
修复 GLM 模型 tool call 值中空白字符被错误去除的问题 |
PR #20543 |
[sgl-kernel/cpu] fix build error on non-x86 platform (#22245) |
修复 sgl-kernel 在非 x86 平台上的 CPU 编译错误 |
PR #22245 |
[sgl] Fix mamba tracking calculation in spec dec (#22239) |
修复推测解码中 Mamba 状态追踪计算错误 |
PR #22239 |
四、server_args.py 新增参数
| Commit Message |
新增/修改的参数 |
说明 |
PR 链接 |
[Observability] Add Prometheus metrics endpoint for gRPC mode (#20801) |
--metrics-http-port |
gRPC 模式下独立的 Prometheus 指标 HTTP 服务端口,默认为 –port + 1 |
PR #20801 |
[EPD][VLM] Support Kimi K25 EPD (#22269) |
扩展 --enable-disaggregation-encode 白名单 |
新增 KimiVLForConditionalGeneration 和 KimiK25ForConditionalGeneration 到支持 EPD 的模型列表 |
PR #22269 |
[DSA] Enable all reduce fusion for DSA models (#22390) |
扩展 all reduce fusion 模型列表 |
新增 DeepseekV32ForCausalLM 和 GlmMoeDsaForCausalLM 到自动启用 all reduce fusion 的模型列表 |
PR #22390 |
[Fix] Fix several bugs on DSA models (#22430) |
修正 NSA backend 默认值逻辑 |
修正 fp8_e4m3 量化下 NSA prefill/decode backend 默认值仅在用户未手动设置时自动覆盖 |
PR #22430 |
Add dedicated FlashInferCuteDslMoE layer for standard-path FP4 MoE (#21339) |
--moe-runner-backend 支持 flashinfer_cutedsl |
新增 flashinfer_cutedsl 作为 MoE runner 后端,仅支持 modelopt_fp4 量化,自动启用 disable-shared-experts-fusion |
PR #21339 |
[AMD] Add prealloc token env for mori-ep (#22329) |
更新 --moe-ep-mode 帮助文本 |
帮助文本更新为包含 MoriEP 模式描述 |
PR #22329 |
五、新增环境变量
| Commit Message |
新增环境变量 |
说明 |
PR 链接 |
[AMD] Add prealloc token env for mori-ep (#22329) |
SGLANG_MORI_PREALLOC_MAX_RECV_TOKENS |
控制 Mori-EP 预分配的 token 接收缓冲大小,默认 0 表示最大,减小可降低内存占用但过小可能导致缓冲区溢出 |
PR #22329 |
六、Diffusion / 多模态生成
| Commit Message |
总结 |
PR 链接 |
[Diffusion] modelopt diffusion fp8 support for flux1/flux2 and wan2.2 (#22365) |
为 Flux1/Flux2/Wan2.2 扩散模型添加 ModelOpt FP8 量化支持,含转换工具和 quantization 工具 |
PR #22365 |
七、HiCache / 缓存
| Commit Message |
总结 |
PR 链接 |
[HiCache] Add CP support for HiCache (#20977) |
为 HiCache 添加 Context Parallelism (CP) 支持,扩展 Mooncake Store 后端 |
PR #20977 |
八、可观测性
| Commit Message |
总结 |
PR 链接 |
[Observability] Add pending token count to prefill log and get_load (#22480) |
在 prefill 日志和 get_load 中新增 pending token 计数指标 |
PR #22480 |
[Observability] Add Prometheus metrics endpoint for gRPC mode (#20801) |
为 gRPC 模式添加独立的 Prometheus 指标 HTTP 端点 |
PR #20801 |
九、调度 / 内存管理
| Commit Message |
总结 |
PR 链接 |
Add page_size to admission token budget check (#22495) |
在 admission token 预算检查中加入 page_size 因子,更准确地控制调度预算 |
PR #22495 |
[sgl] add ability to return logprobs in MultiLayerEagleWorkerV2 (#22241) |
MultiLayerEagleWorkerV2 新增返回 logprobs 的能力 |
PR #22241 |
十、CI/CD 与基础设施
| Commit Message |
总结 |
PR 链接 |
[diffusion][CI]: route multimodal component accuracy through run_suite (#21960) |
将多模态组件精度测试接入 run_suite 和 CI 流程 |
PR #21960 |
[CI] Remove Slack notification from ci-auto-bisect workflow (#22483) |
移除 ci-auto-bisect 工作流中的 Slack 通知 |
PR #22483 |
[CI] Update est_time for 64 tests based on actual elapsed times (#22305) |
基于实际运行时间更新 64 个测试的预估时间 |
PR #22305 |
Add skills for debugging hanging issues (#22463) |
添加用于调试分布式挂起问题的 Claude Skill |
PR #22463 |
[SKILL]: add component accuracy guidance to the diffusion add-model skill (#22460) |
为 diffusion add-model skill 添加组件精度指导文档 |
PR #22460 |
[Docker] Fix CI docker target after Dockerfile restructure (#22478) |
修复 Dockerfile 重构后的 CI Docker 目标引用 |
PR #22478 |
[Docker] Optimize Dockerfile for BuildKit layer caching (#22160) |
优化 Dockerfile 以利用 BuildKit 层缓存,加速镜像构建 |
PR #22160 |
[Docker] Fix Trivy CVEs, cubin download 403s, and kernels command order (#22322) |
修复 Trivy 扫描的 CVE、cubin 下载 403 错误和 kernels 命令顺序 |
PR #22322 |
十一、其他平台 / 后端
| Commit Message |
总结 |
PR 链接 |
[Intel GPU] import flash_attn functions from sgl_kernel only (#22438) |
Intel GPU 后端统一从 sgl_kernel 导入 flash_attn 函数 |
PR #22438 |
add whisper test (#22302) |
新增 Whisper 语音识别模型的测试 |
PR #22302 |
[HiSparse]: Update HiSparse's user-guide (#22499) |
更新 HiSparse 用户指南文档 |
PR #22499 |