SGLang 每日 Commit 总结 (UTC+8 2026-04-10)

昨日 main 分支共产生 40 个 commit,涵盖模型支持、性能优化、Bug 修复、CI/CD、Docker 优化等多个方面。


一、新模型 / 新特性

Commit Message 总结 PR 链接
[EPD][VLM] Support Kimi K25 EPD (#22269) 支持 Kimi K25 的 EPD(Encode Prefill Disaggregation),扩展 VLM disaggregation 到 Kimi 系列模型 PR #22269
[feature] asr: add chunk-based streaming ASR for Qwen3-ASR (#22089) 为 Qwen3-ASR 添加基于 chunk 的流式语音识别(ASR)支持 PR #22089
Enable DFLASH support for additional model backends (#22358) 为 DeepSeekV2、GPT-OSS、Kimi K25、Qwen3/3.5/3-MoE/3-Next/3-VL 等模型启用 DFLASH 推测解码支持 PR #22358
Add dedicated FlashInferCuteDslMoE layer for standard-path FP4 MoE (#21339) 新增 FlashInfer CuteDSL MoE 层,支持标准路径 FP4 MoE(modelopt_fp4 量化) PR #21339

二、性能优化

Commit Message 总结 PR 链接
[Perf] Remove two operations in gdn_backend extend verify path (#22444) 在 GDN backend 的 extend verify 路径中移除两个冗余操作,提升性能 PR #22444
[Reland] DeepSeek-R1-0528-w4a8: DeepEP Low Latency Dispatch Adopts FP8 Communication (#22316) DeepEP 低延迟路径采用 FP8 通信,降低带宽开销,减少 dispatch 延迟 PR #22316
[AMD][HIP] NSA: bf16 passthrough from RMSNorm to eliminate FP8 dequantization (#22258) AMD HIP 平台上 NSA 索引器中 RMSNorm 输出直接 bf16 传递,消除不必要的 FP8 反量化开销 PR #22258
[AMD] Replace triton rotary_emb with aiter rotary_emb for Wan2.2 denoise (#22422) Wan2.2 扩散模型用 aiter rotary_emb 替换 triton 实现,提升 AMD GPU 性能 PR #22422
[Lora] Lora quat info re-factor and support deepseekv3 mla lora (#22323) 重构 LoRA quat info 并支持 DeepSeekV3 MLA 的 LoRA PR #22323
[Lora] Lora kimi support (#22381) 支持 Kimi K25 模型的 LoRA,包含 compressed_tensors 量化方案的 LoRA 适配 PR #22381
[CPU] Add apply_routed_scaling_factor_on_output support for biased_grouped_topk fusion (#22413) CPU 后端为 biased_grouped_topk 添加 routed scaling factor 融合支持 PR #22413
[DSA] Enable all reduce fusion for DSA models (#22390) 为 DSA 模型启用 all reduce 融合优化,涵盖 DeepSeekV3/V32、GPT-OSS、GLM-MoE-DSA、Qwen3 系列 PR #22390

三、Bug Fix

Commit Message 总结 PR 链接
[BugFix] fix the bug of minimax_m2.5 model that causes repeated outputs when using tp16 (#20967) 修复 MiniMax-M2.5 在 TP16 下产生重复输出的 bug PR #20967
Make GDN support non-continuous B/A Tensor input to fix the accuracy regression of Qwen3.5-27B (#22312) 使 GDN 支持非连续 B/A Tensor 输入,修复 Qwen3.5-27B 的精度回退问题 PR #22312
[diffusion] fix: fix flux2 i2i accuracy (#22423) 修复 Flux2 图像到图像(i2i)生成的精度问题 PR #22423
Fix SWA eviction boundary and page-align chunked prefill (#22470) 修复 SWA Radix Cache 驱逐边界问题,并对 chunked prefill 进行页对齐 PR #22470
Fix NCCL AllGather hanging issue for Qwen3 Next MTP (#22458) 修复 Qwen3 Next MTP 中 NCCL AllGather 挂起问题,增加 speculative token 元数据传递 PR #22458
Fix several bugs on DSA models (#22430) 修复 DSA 模型的多个 bug,包括 NSA backend 逻辑修正和 server_args 默认值修正 PR #22430
[nvidia] Gemma4 nvfp4 fix (#22079) 修复 Gemma4 模型在 NVFP4 量化下的 extend attention 问题 PR #22079
fix: do not strip whitespace from GLM tool call values (#20543) 修复 GLM 模型 tool call 值中空白字符被错误去除的问题 PR #20543
[sgl-kernel/cpu] fix build error on non-x86 platform (#22245) 修复 sgl-kernel 在非 x86 平台上的 CPU 编译错误 PR #22245
[sgl] Fix mamba tracking calculation in spec dec (#22239) 修复推测解码中 Mamba 状态追踪计算错误 PR #22239

四、server_args.py 新增参数

Commit Message 新增/修改的参数 说明 PR 链接
[Observability] Add Prometheus metrics endpoint for gRPC mode (#20801) --metrics-http-port gRPC 模式下独立的 Prometheus 指标 HTTP 服务端口,默认为 –port + 1 PR #20801
[EPD][VLM] Support Kimi K25 EPD (#22269) 扩展 --enable-disaggregation-encode 白名单 新增 KimiVLForConditionalGeneration 和 KimiK25ForConditionalGeneration 到支持 EPD 的模型列表 PR #22269
[DSA] Enable all reduce fusion for DSA models (#22390) 扩展 all reduce fusion 模型列表 新增 DeepseekV32ForCausalLM 和 GlmMoeDsaForCausalLM 到自动启用 all reduce fusion 的模型列表 PR #22390
[Fix] Fix several bugs on DSA models (#22430) 修正 NSA backend 默认值逻辑 修正 fp8_e4m3 量化下 NSA prefill/decode backend 默认值仅在用户未手动设置时自动覆盖 PR #22430
Add dedicated FlashInferCuteDslMoE layer for standard-path FP4 MoE (#21339) --moe-runner-backend 支持 flashinfer_cutedsl 新增 flashinfer_cutedsl 作为 MoE runner 后端,仅支持 modelopt_fp4 量化,自动启用 disable-shared-experts-fusion PR #21339
[AMD] Add prealloc token env for mori-ep (#22329) 更新 --moe-ep-mode 帮助文本 帮助文本更新为包含 MoriEP 模式描述 PR #22329

五、新增环境变量

Commit Message 新增环境变量 说明 PR 链接
[AMD] Add prealloc token env for mori-ep (#22329) SGLANG_MORI_PREALLOC_MAX_RECV_TOKENS 控制 Mori-EP 预分配的 token 接收缓冲大小,默认 0 表示最大,减小可降低内存占用但过小可能导致缓冲区溢出 PR #22329

六、Diffusion / 多模态生成

Commit Message 总结 PR 链接
[Diffusion] modelopt diffusion fp8 support for flux1/flux2 and wan2.2 (#22365) 为 Flux1/Flux2/Wan2.2 扩散模型添加 ModelOpt FP8 量化支持,含转换工具和 quantization 工具 PR #22365

七、HiCache / 缓存

Commit Message 总结 PR 链接
[HiCache] Add CP support for HiCache (#20977) 为 HiCache 添加 Context Parallelism (CP) 支持,扩展 Mooncake Store 后端 PR #20977

八、可观测性

Commit Message 总结 PR 链接
[Observability] Add pending token count to prefill log and get_load (#22480) 在 prefill 日志和 get_load 中新增 pending token 计数指标 PR #22480
[Observability] Add Prometheus metrics endpoint for gRPC mode (#20801) 为 gRPC 模式添加独立的 Prometheus 指标 HTTP 端点 PR #20801

九、调度 / 内存管理

Commit Message 总结 PR 链接
Add page_size to admission token budget check (#22495) 在 admission token 预算检查中加入 page_size 因子,更准确地控制调度预算 PR #22495
[sgl] add ability to return logprobs in MultiLayerEagleWorkerV2 (#22241) MultiLayerEagleWorkerV2 新增返回 logprobs 的能力 PR #22241

十、CI/CD 与基础设施

Commit Message 总结 PR 链接
[diffusion][CI]: route multimodal component accuracy through run_suite (#21960) 将多模态组件精度测试接入 run_suite 和 CI 流程 PR #21960
[CI] Remove Slack notification from ci-auto-bisect workflow (#22483) 移除 ci-auto-bisect 工作流中的 Slack 通知 PR #22483
[CI] Update est_time for 64 tests based on actual elapsed times (#22305) 基于实际运行时间更新 64 个测试的预估时间 PR #22305
Add skills for debugging hanging issues (#22463) 添加用于调试分布式挂起问题的 Claude Skill PR #22463
[SKILL]: add component accuracy guidance to the diffusion add-model skill (#22460) 为 diffusion add-model skill 添加组件精度指导文档 PR #22460
[Docker] Fix CI docker target after Dockerfile restructure (#22478) 修复 Dockerfile 重构后的 CI Docker 目标引用 PR #22478
[Docker] Optimize Dockerfile for BuildKit layer caching (#22160) 优化 Dockerfile 以利用 BuildKit 层缓存,加速镜像构建 PR #22160
[Docker] Fix Trivy CVEs, cubin download 403s, and kernels command order (#22322) 修复 Trivy 扫描的 CVE、cubin 下载 403 错误和 kernels 命令顺序 PR #22322

十一、其他平台 / 后端

Commit Message 总结 PR 链接
[Intel GPU] import flash_attn functions from sgl_kernel only (#22438) Intel GPU 后端统一从 sgl_kernel 导入 flash_attn 函数 PR #22438
add whisper test (#22302) 新增 Whisper 语音识别模型的测试 PR #22302
[HiSparse]: Update HiSparse's user-guide (#22499) 更新 HiSparse 用户指南文档 PR #22499