Sglang Main Branch 每日变更总结
日期: UTC+8 2026-04-16 (00:00 ~ 24:00)
统计范围: 共 43 个 commits
一、新模型 / 模型支持
昨日的提交中没有引入全新的模型,但有多项对已有模型的增强支持。
| Commit Message |
总结 |
PR 链接 |
[VLM] Enable per-image ViT cache and avoid TP CUDA context creation for Kimi-K2.5 (#22858) |
为 Kimi-K2.5 启用逐图像 ViT 缓存,避免 TP CUDA 上下文创建,降低显存占用 |
PR #22858 |
[EPD][VLM] Support Kimi VL EPD (#22490) |
为 Kimi VL 模型添加 EPD(Encode-Prefill-Decode) disaggregation 支持 |
PR #22490 |
[Bugfix] Preserve auto-detected quant_config for GLM NextN draft model (#22823) |
修复 GLM NextN 投机解码草稿模型的量化配置自动检测丢失问题 |
PR #22823 |
fix: normalize tool message content for GLM5.1 chat template (#22595) |
修复 GLM5.1 聊天模板中 tool message 内容未归一化的问题 |
PR #22595 |
Upgrade transformers to 5.5.3 and refactor hf_transformers_utils into subpackage (#21569) |
升级 transformers 到 5.5.3 版本,将 hf_transformers_utils 重构为子包,新增 Qwen3_5 和 Step3p5 配置 |
PR #21569 |
[diffusion] model: Properly validate device for Mistral 3 attention (#22690) |
为 Mistral 3 注意力机制添加设备验证 |
PR #22690 |
二、性能优化
| Commit Message |
总结 |
PR 链接 |
[lora] Speedup triton backend sgemm calls with better grid (#22386) |
优化 LoRA Triton 后端的 sgemm 调用网格调度,提升性能 |
PR #22386 |
[Step3p5] Optimize allreduce in MoE layers (#22773) |
优化 Step3p5 MoE 层中的 allreduce 通信 |
PR #22773 |
[Ray] Add data parallel (DP) and DP attention support to RayEngine (#21887) |
为 RayEngine 添加数据并行和数据并行注意力支持,提升分布式推理能力 |
PR #21887 |
[Ray] Auto-create placement group in RayEngine when none is detected (#22898) |
RayEngine 未检测到 placement group 时自动创建,简化部署 |
PR #22898 |
[AMD][MoRI] bump MoRI to v1.1.0 (#22870) |
将 AMD MoRI 升级到 v1.1.0 |
PR #22870 |
三、Bug Fix
| Commit Message |
总结 |
PR 链接 |
[Fix] Fix accuracy bug in Flashmla sparse MLA kernel (#22723) |
修复 Flashmla 稀疏 MLA kernel 中的精度 bug |
PR #22723 |
[Speculative] Fix Eagle3/DFLASH aux hidden state capture during CUDA graph init (#22836) |
修复 Eagle3/DFLASH 投机解码在 CUDA 图初始化期间的辅助隐藏状态捕获问题 |
PR #22836 |
[Fix] eagle/eagle3 speculative decoding conflicts with xgrammar in NPU (#20989) |
修复 NPU 上 Eagle/Eagle3 投机解码与 xgrammar 的冲突 |
PR #20989 |
[BugFix][RadixTree]:Fix stale eviction assertion in HiMambaRadixCache host eviction path (#22592) |
修复 HiMambaRadixCache 主机淘汰路径中的过期淘汰断言问题 |
PR #22592 |
[Bug Fix] Remove follow_bootstrap_room fast path in PD disaggregation DP rank resolution (#22901) |
移除 PD disaggregation DP rank 解析中的 follow_bootstrap_room 快速路径,修复 DP rank 解析错误 |
PR #22901 |
[AMD] Fix aiter import failure in ROCm Docker images (#22363) |
修复 ROCm Docker 镜像中 aiter 导入失败问题 |
PR #22363 |
Harden FlashInfer FP4 imports in standard dispatcher (#21776) |
加固标准分发器中的 FlashInfer FP4 导入逻辑 |
PR #21776 |
trim_overshoot: cap swa_evicted_seqlen + unit test (#22900) |
为 swa_evicted_seqlen 添加上限保护,防止滑动窗口注意力淘汰序列长度溢出 |
PR #22900 |
fix(loads): switch get_loads_communicator to watching mode (#22919) |
将 loads 通信器切换为 watching 模式,支持动态加载变化 |
PR #22919 |
fix(loads): preserve include filtering after watching mode switch (#22959) |
修复 watching 模式切换后 include 过滤失效的问题 |
PR #22959 |
四、Streaming Session / Speculative Decoding
| Commit Message |
总结 |
PR 链接 |
streaming session: trim spec v2 overshoot in cache_finished_req (#22897) |
在 cache_finished_req 中裁剪 speculative v2 的 overshoot 部分 |
PR #22897 |
streaming session: spec v2 bonus accounting + comprehensive test matrix (#22651) |
完善 speculative v2 bonus 计算,增加全面的测试矩阵 |
PR #22651 |
五、Server Args 新增参数
| 参数 |
类型 |
说明 |
来源 PR |
--enable-dp-attention-local-control-broadcast |
bool |
在 DP-attention 模式下,向每个 DP 组 leader 发送控制消息并在 attn_tp_group 内广播,避免每次 scheduler 迭代的全局 gloo 同步 |
PR #22758 |
Server Args 行为变更:
| Commit Message |
变更内容 |
PR 链接 |
Remove compatibility restriction between Pipeline Parallelism and Mixed Chunked Prefill (#22920) |
移除了 Pipeline Parallelism 与 Mixed Chunked Prefill 之间的兼容性限制,现在两者可以同时启用 |
PR #22920 |
[misc] Configure logging before ServerArgs.__post_init__ (#22926) |
在 ServerArgs.post_init 之前配置日志,确保初始化期间的日志调用能正常输出 |
PR #22926 |
[Score API] Add return_pooled_hidden_states to Scoring API (#22427) |
Score API 新增 return_pooled_hidden_states 参数;新增 multi_item_scoring_delimiter 相关处理,设置该 delimiter 时自动禁用 CUDA graph |
PR #22427 |
六、新增环境变量
| 环境变量 |
类型 |
默认值 |
说明 |
来源 PR |
SGLANG_DISAGGREGATION_FORCE_QUERY_PREFILL_DP_RANK |
bool |
False |
强制查询预填充到特定 DP rank |
PR #22901 |
七、Diffusion disaggregation(重大功能)
| Commit Message |
总结 |
PR 链接 |
[diffusion] feat: disaggregated diffusion (#21701) |
为 Diffusion 模型实现 disaggregated 推理架构,包含完整的 orchestrator、transport、scheduler 等模块,是本次日报最大的新功能 |
PR #21701 |
八、Score API 增强
| Commit Message |
总结 |
PR 链接 |
[Score API] Add return_pooled_hidden_states to Scoring API for SequenceClassification / RewardModel (#22427) |
为 Scoring API 添加 return_pooled_hidden_states 参数,支持 SequenceClassification 和 RewardModel 返回池化隐藏状态,覆盖 Gemma2、InternLM2、Llama、Qwen2 等 reward 模型 |
PR #22427 |
九、CI / 测试 / 文档
| Commit Message |
总结 |
PR 链接 |
ci: log analyzer (#22859) |
新增 CI 日志分析工具,自动分析 Slurm 日志 |
PR #22859 |
ci: add issue filing and suspect PR identification to log analyzer (#22899) |
为日志分析工具添加自动提交 issue 和可疑 PR 识别功能 |
PR #22899 |
ci: clarify srt-slurm issue filing for incompatible flag combos (#22903) |
优化不兼容 flag 组合的 issue 提交说明 |
PR #22903 |
ci: re-enable fp8 nightly benchmark configs (#22910) |
重新启用 FP8 夜间基准测试配置 |
PR #22910 |
[sgl] provide an option to send control req to all dp ranks rank0 (#22758) |
提供向所有 DP rank0 发送控制请求的选项 |
PR #22758 |
[misc] fix ray folder lint (#22905) |
修复 Ray 文件夹的 lint 问题 |
PR #22905 |
Update .codespellrc (#22912) |
更新 codespell 拼写检查配置 |
PR #22912 |
docs: fix incorrect default max-payload-size in gateway config reference (#22923) |
修复 gateway 配置文档中 max-payload-size 默认值错误 |
PR #22923 |
[NPU] [DOC] Update npu best practice docs to match latest code (#22975) |
更新 NPU 最佳实践文档以匹配最新代码 |
PR #22975 |
migrate CPU-only unit tests from openai_server to unit/ (#22965) |
将 CPU 单元测试从 openai_server 迁移到 unit/ 目录 |
PR #22965 |
[HiSparse]: Adding e2e ut for hisparse (#22979) |
为 HiSparse 添加端到端单元测试 |
PR #22979 |
十、重点关注总结
新模型支持
- Kimi-K2.5: 逐图像 ViT 缓存 + EPD disaggregation 支持
- Kimi VL: EPD disaggregation 支持
- GLM5.1: 修复 tool message 模板归一化
- transformers 5.5.3: 升级并新增 Qwen3_5、Step3p5 配置
性能优化
- LoRA Triton 后端 sgemm 网格优化
- Step3p5 MoE 层 allreduce 优化
- RayEngine DP + DP attention 支持
- 移除 Pipeline Parallelism 与 Mixed Chunked Prefill 的兼容性限制
Bug Fix
- Flashmla 稀疏 MLA kernel 精度修复
- Eagle3/DFLASH CUDA 图隐藏状态捕获修复
- NPU 上 Eagle + xgrammar 冲突修复
- HiMambaRadixCache 淘汰断言修复
- ROCm Docker aiter 导入修复
Server Args 新参数
--enable-dp-attention-local-control-broadcast: DP attention 控制消息本地广播优化
新环境变量
SGLANG_DISAGGREGATION_FORCE_QUERY_PREFILL_DP_RANK: 强制预填充 DP rank
重大新功能
- Diffusion Disaggregated: 完整实现 Diffusion 模型的 disaggregated 推理架构