Sglang Main Branch 每日变更总结

日期: UTC+8 2026-04-16 (00:00 ~ 24:00)
统计范围: 共 43 个 commits


一、新模型 / 模型支持

昨日的提交中没有引入全新的模型,但有多项对已有模型的增强支持。

Commit Message 总结 PR 链接
[VLM] Enable per-image ViT cache and avoid TP CUDA context creation for Kimi-K2.5 (#22858) 为 Kimi-K2.5 启用逐图像 ViT 缓存,避免 TP CUDA 上下文创建,降低显存占用 PR #22858
[EPD][VLM] Support Kimi VL EPD (#22490) 为 Kimi VL 模型添加 EPD(Encode-Prefill-Decode) disaggregation 支持 PR #22490
[Bugfix] Preserve auto-detected quant_config for GLM NextN draft model (#22823) 修复 GLM NextN 投机解码草稿模型的量化配置自动检测丢失问题 PR #22823
fix: normalize tool message content for GLM5.1 chat template (#22595) 修复 GLM5.1 聊天模板中 tool message 内容未归一化的问题 PR #22595
Upgrade transformers to 5.5.3 and refactor hf_transformers_utils into subpackage (#21569) 升级 transformers 到 5.5.3 版本,将 hf_transformers_utils 重构为子包,新增 Qwen3_5 和 Step3p5 配置 PR #21569
[diffusion] model: Properly validate device for Mistral 3 attention (#22690) 为 Mistral 3 注意力机制添加设备验证 PR #22690

二、性能优化

Commit Message 总结 PR 链接
[lora] Speedup triton backend sgemm calls with better grid (#22386) 优化 LoRA Triton 后端的 sgemm 调用网格调度,提升性能 PR #22386
[Step3p5] Optimize allreduce in MoE layers (#22773) 优化 Step3p5 MoE 层中的 allreduce 通信 PR #22773
[Ray] Add data parallel (DP) and DP attention support to RayEngine (#21887) 为 RayEngine 添加数据并行和数据并行注意力支持,提升分布式推理能力 PR #21887
[Ray] Auto-create placement group in RayEngine when none is detected (#22898) RayEngine 未检测到 placement group 时自动创建,简化部署 PR #22898
[AMD][MoRI] bump MoRI to v1.1.0 (#22870) 将 AMD MoRI 升级到 v1.1.0 PR #22870

三、Bug Fix

Commit Message 总结 PR 链接
[Fix] Fix accuracy bug in Flashmla sparse MLA kernel (#22723) 修复 Flashmla 稀疏 MLA kernel 中的精度 bug PR #22723
[Speculative] Fix Eagle3/DFLASH aux hidden state capture during CUDA graph init (#22836) 修复 Eagle3/DFLASH 投机解码在 CUDA 图初始化期间的辅助隐藏状态捕获问题 PR #22836
[Fix] eagle/eagle3 speculative decoding conflicts with xgrammar in NPU (#20989) 修复 NPU 上 Eagle/Eagle3 投机解码与 xgrammar 的冲突 PR #20989
[BugFix][RadixTree]:Fix stale eviction assertion in HiMambaRadixCache host eviction path (#22592) 修复 HiMambaRadixCache 主机淘汰路径中的过期淘汰断言问题 PR #22592
[Bug Fix] Remove follow_bootstrap_room fast path in PD disaggregation DP rank resolution (#22901) 移除 PD disaggregation DP rank 解析中的 follow_bootstrap_room 快速路径,修复 DP rank 解析错误 PR #22901
[AMD] Fix aiter import failure in ROCm Docker images (#22363) 修复 ROCm Docker 镜像中 aiter 导入失败问题 PR #22363
Harden FlashInfer FP4 imports in standard dispatcher (#21776) 加固标准分发器中的 FlashInfer FP4 导入逻辑 PR #21776
trim_overshoot: cap swa_evicted_seqlen + unit test (#22900) 为 swa_evicted_seqlen 添加上限保护,防止滑动窗口注意力淘汰序列长度溢出 PR #22900
fix(loads): switch get_loads_communicator to watching mode (#22919) 将 loads 通信器切换为 watching 模式,支持动态加载变化 PR #22919
fix(loads): preserve include filtering after watching mode switch (#22959) 修复 watching 模式切换后 include 过滤失效的问题 PR #22959

四、Streaming Session / Speculative Decoding

Commit Message 总结 PR 链接
streaming session: trim spec v2 overshoot in cache_finished_req (#22897) 在 cache_finished_req 中裁剪 speculative v2 的 overshoot 部分 PR #22897
streaming session: spec v2 bonus accounting + comprehensive test matrix (#22651) 完善 speculative v2 bonus 计算,增加全面的测试矩阵 PR #22651

五、Server Args 新增参数

参数 类型 说明 来源 PR
--enable-dp-attention-local-control-broadcast bool 在 DP-attention 模式下,向每个 DP 组 leader 发送控制消息并在 attn_tp_group 内广播,避免每次 scheduler 迭代的全局 gloo 同步 PR #22758

Server Args 行为变更:

Commit Message 变更内容 PR 链接
Remove compatibility restriction between Pipeline Parallelism and Mixed Chunked Prefill (#22920) 移除了 Pipeline Parallelism 与 Mixed Chunked Prefill 之间的兼容性限制,现在两者可以同时启用 PR #22920
[misc] Configure logging before ServerArgs.__post_init__ (#22926) 在 ServerArgs.post_init 之前配置日志,确保初始化期间的日志调用能正常输出 PR #22926
[Score API] Add return_pooled_hidden_states to Scoring API (#22427) Score API 新增 return_pooled_hidden_states 参数;新增 multi_item_scoring_delimiter 相关处理,设置该 delimiter 时自动禁用 CUDA graph PR #22427

六、新增环境变量

环境变量 类型 默认值 说明 来源 PR
SGLANG_DISAGGREGATION_FORCE_QUERY_PREFILL_DP_RANK bool False 强制查询预填充到特定 DP rank PR #22901

七、Diffusion disaggregation(重大功能)

Commit Message 总结 PR 链接
[diffusion] feat: disaggregated diffusion (#21701) 为 Diffusion 模型实现 disaggregated 推理架构,包含完整的 orchestrator、transport、scheduler 等模块,是本次日报最大的新功能 PR #21701

八、Score API 增强

Commit Message 总结 PR 链接
[Score API] Add return_pooled_hidden_states to Scoring API for SequenceClassification / RewardModel (#22427) 为 Scoring API 添加 return_pooled_hidden_states 参数,支持 SequenceClassification 和 RewardModel 返回池化隐藏状态,覆盖 Gemma2、InternLM2、Llama、Qwen2 等 reward 模型 PR #22427

九、CI / 测试 / 文档

Commit Message 总结 PR 链接
ci: log analyzer (#22859) 新增 CI 日志分析工具,自动分析 Slurm 日志 PR #22859
ci: add issue filing and suspect PR identification to log analyzer (#22899) 为日志分析工具添加自动提交 issue 和可疑 PR 识别功能 PR #22899
ci: clarify srt-slurm issue filing for incompatible flag combos (#22903) 优化不兼容 flag 组合的 issue 提交说明 PR #22903
ci: re-enable fp8 nightly benchmark configs (#22910) 重新启用 FP8 夜间基准测试配置 PR #22910
[sgl] provide an option to send control req to all dp ranks rank0 (#22758) 提供向所有 DP rank0 发送控制请求的选项 PR #22758
[misc] fix ray folder lint (#22905) 修复 Ray 文件夹的 lint 问题 PR #22905
Update .codespellrc (#22912) 更新 codespell 拼写检查配置 PR #22912
docs: fix incorrect default max-payload-size in gateway config reference (#22923) 修复 gateway 配置文档中 max-payload-size 默认值错误 PR #22923
[NPU] [DOC] Update npu best practice docs to match latest code (#22975) 更新 NPU 最佳实践文档以匹配最新代码 PR #22975
migrate CPU-only unit tests from openai_server to unit/ (#22965) 将 CPU 单元测试从 openai_server 迁移到 unit/ 目录 PR #22965
[HiSparse]: Adding e2e ut for hisparse (#22979) 为 HiSparse 添加端到端单元测试 PR #22979

十、重点关注总结

新模型支持

  • Kimi-K2.5: 逐图像 ViT 缓存 + EPD disaggregation 支持
  • Kimi VL: EPD disaggregation 支持
  • GLM5.1: 修复 tool message 模板归一化
  • transformers 5.5.3: 升级并新增 Qwen3_5、Step3p5 配置

性能优化

  • LoRA Triton 后端 sgemm 网格优化
  • Step3p5 MoE 层 allreduce 优化
  • RayEngine DP + DP attention 支持
  • 移除 Pipeline Parallelism 与 Mixed Chunked Prefill 的兼容性限制

Bug Fix

  • Flashmla 稀疏 MLA kernel 精度修复
  • Eagle3/DFLASH CUDA 图隐藏状态捕获修复
  • NPU 上 Eagle + xgrammar 冲突修复
  • HiMambaRadixCache 淘汰断言修复
  • ROCm Docker aiter 导入修复

Server Args 新参数

  • --enable-dp-attention-local-control-broadcast: DP attention 控制消息本地广播优化

新环境变量

  • SGLANG_DISAGGREGATION_FORCE_QUERY_PREFILL_DP_RANK: 强制预填充 DP rank

重大新功能

  • Diffusion Disaggregated: 完整实现 Diffusion 模型的 disaggregated 推理架构