Sglang Main Branch 每日变更总结 (2026-04-16)

Created2026-04-17|Updated2026-04-17|技术

|Post Views:

Sglang Main Branch 每日变更总结

日期: UTC+8 2026-04-16 (00:00 ~ 24:00)
统计范围: 共 43 个 commits

一、新模型 / 模型支持

昨日的提交中没有引入全新的模型，但有多项对已有模型的增强支持。

Commit Message	总结	PR 链接
`[VLM] Enable per-image ViT cache and avoid TP CUDA context creation for Kimi-K2.5 (#22858)`	为 Kimi-K2.5 启用逐图像 ViT 缓存，避免 TP CUDA 上下文创建，降低显存占用	PR #22858
`[EPD][VLM] Support Kimi VL EPD (#22490)`	为 Kimi VL 模型添加 EPD（Encode-Prefill-Decode） disaggregation 支持	PR #22490
`[Bugfix] Preserve auto-detected quant_config for GLM NextN draft model (#22823)`	修复 GLM NextN 投机解码草稿模型的量化配置自动检测丢失问题	PR #22823
`fix: normalize tool message content for GLM5.1 chat template (#22595)`	修复 GLM5.1 聊天模板中 tool message 内容未归一化的问题	PR #22595
`Upgrade transformers to 5.5.3 and refactor hf_transformers_utils into subpackage (#21569)`	升级 transformers 到 5.5.3 版本，将 hf_transformers_utils 重构为子包，新增 Qwen3_5 和 Step3p5 配置	PR #21569
`[diffusion] model: Properly validate device for Mistral 3 attention (#22690)`	为 Mistral 3 注意力机制添加设备验证	PR #22690

二、性能优化

Commit Message	总结	PR 链接
`[lora] Speedup triton backend sgemm calls with better grid (#22386)`	优化 LoRA Triton 后端的 sgemm 调用网格调度，提升性能	PR #22386
`[Step3p5] Optimize allreduce in MoE layers (#22773)`	优化 Step3p5 MoE 层中的 allreduce 通信	PR #22773
`[Ray] Add data parallel (DP) and DP attention support to RayEngine (#21887)`	为 RayEngine 添加数据并行和数据并行注意力支持，提升分布式推理能力	PR #21887
`[Ray] Auto-create placement group in RayEngine when none is detected (#22898)`	RayEngine 未检测到 placement group 时自动创建，简化部署	PR #22898
`[AMD][MoRI] bump MoRI to v1.1.0 (#22870)`	将 AMD MoRI 升级到 v1.1.0	PR #22870

三、Bug Fix

Commit Message	总结	PR 链接
`[Fix] Fix accuracy bug in Flashmla sparse MLA kernel (#22723)`	修复 Flashmla 稀疏 MLA kernel 中的精度 bug	PR #22723
`[Speculative] Fix Eagle3/DFLASH aux hidden state capture during CUDA graph init (#22836)`	修复 Eagle3/DFLASH 投机解码在 CUDA 图初始化期间的辅助隐藏状态捕获问题	PR #22836
`[Fix] eagle/eagle3 speculative decoding conflicts with xgrammar in NPU (#20989)`	修复 NPU 上 Eagle/Eagle3 投机解码与 xgrammar 的冲突	PR #20989
`[BugFix][RadixTree]:Fix stale eviction assertion in HiMambaRadixCache host eviction path (#22592)`	修复 HiMambaRadixCache 主机淘汰路径中的过期淘汰断言问题	PR #22592
`[Bug Fix] Remove follow_bootstrap_room fast path in PD disaggregation DP rank resolution (#22901)`	移除 PD disaggregation DP rank 解析中的 follow_bootstrap_room 快速路径，修复 DP rank 解析错误	PR #22901
`[AMD] Fix aiter import failure in ROCm Docker images (#22363)`	修复 ROCm Docker 镜像中 aiter 导入失败问题	PR #22363
`Harden FlashInfer FP4 imports in standard dispatcher (#21776)`	加固标准分发器中的 FlashInfer FP4 导入逻辑	PR #21776
`trim_overshoot: cap swa_evicted_seqlen + unit test (#22900)`	为 swa_evicted_seqlen 添加上限保护，防止滑动窗口注意力淘汰序列长度溢出	PR #22900
`fix(loads): switch get_loads_communicator to watching mode (#22919)`	将 loads 通信器切换为 watching 模式，支持动态加载变化	PR #22919
`fix(loads): preserve include filtering after watching mode switch (#22959)`	修复 watching 模式切换后 include 过滤失效的问题	PR #22959

四、Streaming Session / Speculative Decoding

Commit Message	总结	PR 链接
`streaming session: trim spec v2 overshoot in cache_finished_req (#22897)`	在 cache_finished_req 中裁剪 speculative v2 的 overshoot 部分	PR #22897
`streaming session: spec v2 bonus accounting + comprehensive test matrix (#22651)`	完善 speculative v2 bonus 计算，增加全面的测试矩阵	PR #22651

五、Server Args 新增参数

参数	类型	说明	来源 PR
`--enable-dp-attention-local-control-broadcast`	bool	在 DP-attention 模式下，向每个 DP 组 leader 发送控制消息并在 attn_tp_group 内广播，避免每次 scheduler 迭代的全局 gloo 同步	PR #22758

Server Args 行为变更:

Commit Message	变更内容	PR 链接
`Remove compatibility restriction between Pipeline Parallelism and Mixed Chunked Prefill (#22920)`	移除了 Pipeline Parallelism 与 Mixed Chunked Prefill 之间的兼容性限制，现在两者可以同时启用	PR #22920
`[misc] Configure logging before ServerArgs.__post_init__ (#22926)`	在 ServerArgs.post_init 之前配置日志，确保初始化期间的日志调用能正常输出	PR #22926
`[Score API] Add return_pooled_hidden_states to Scoring API (#22427)`	Score API 新增 return_pooled_hidden_states 参数；新增 multi_item_scoring_delimiter 相关处理，设置该 delimiter 时自动禁用 CUDA graph	PR #22427

六、新增环境变量

环境变量	类型	默认值	说明	来源 PR
`SGLANG_DISAGGREGATION_FORCE_QUERY_PREFILL_DP_RANK`	bool	False	强制查询预填充到特定 DP rank	PR #22901

七、Diffusion disaggregation（重大功能）

Commit Message	总结	PR 链接
`[diffusion] feat: disaggregated diffusion (#21701)`	为 Diffusion 模型实现 disaggregated 推理架构，包含完整的 orchestrator、transport、scheduler 等模块，是本次日报最大的新功能	PR #21701

八、Score API 增强

Commit Message	总结	PR 链接
`[Score API] Add return_pooled_hidden_states to Scoring API for SequenceClassification / RewardModel (#22427)`	为 Scoring API 添加 return_pooled_hidden_states 参数，支持 SequenceClassification 和 RewardModel 返回池化隐藏状态，覆盖 Gemma2、InternLM2、Llama、Qwen2 等 reward 模型	PR #22427

九、CI / 测试 / 文档

Commit Message	总结	PR 链接
`ci: log analyzer (#22859)`	新增 CI 日志分析工具，自动分析 Slurm 日志	PR #22859
`ci: add issue filing and suspect PR identification to log analyzer (#22899)`	为日志分析工具添加自动提交 issue 和可疑 PR 识别功能	PR #22899
`ci: clarify srt-slurm issue filing for incompatible flag combos (#22903)`	优化不兼容 flag 组合的 issue 提交说明	PR #22903
`ci: re-enable fp8 nightly benchmark configs (#22910)`	重新启用 FP8 夜间基准测试配置	PR #22910
`[sgl] provide an option to send control req to all dp ranks rank0 (#22758)`	提供向所有 DP rank0 发送控制请求的选项	PR #22758
`[misc] fix ray folder lint (#22905)`	修复 Ray 文件夹的 lint 问题	PR #22905
`Update .codespellrc (#22912)`	更新 codespell 拼写检查配置	PR #22912
`docs: fix incorrect default max-payload-size in gateway config reference (#22923)`	修复 gateway 配置文档中 max-payload-size 默认值错误	PR #22923
`[NPU] [DOC] Update npu best practice docs to match latest code (#22975)`	更新 NPU 最佳实践文档以匹配最新代码	PR #22975
`migrate CPU-only unit tests from openai_server to unit/ (#22965)`	将 CPU 单元测试从 openai_server 迁移到 unit/ 目录	PR #22965
`[HiSparse]: Adding e2e ut for hisparse (#22979)`	为 HiSparse 添加端到端单元测试	PR #22979

十、重点关注总结

新模型支持

Kimi-K2.5: 逐图像 ViT 缓存 + EPD disaggregation 支持
Kimi VL: EPD disaggregation 支持
GLM5.1: 修复 tool message 模板归一化
transformers 5.5.3: 升级并新增 Qwen3_5、Step3p5 配置

性能优化

LoRA Triton 后端 sgemm 网格优化
Step3p5 MoE 层 allreduce 优化
RayEngine DP + DP attention 支持
移除 Pipeline Parallelism 与 Mixed Chunked Prefill 的兼容性限制

Bug Fix

Flashmla 稀疏 MLA kernel 精度修复
Eagle3/DFLASH CUDA 图隐藏状态捕获修复
NPU 上 Eagle + xgrammar 冲突修复
HiMambaRadixCache 淘汰断言修复
ROCm Docker aiter 导入修复

Server Args 新参数

--enable-dp-attention-local-control-broadcast: DP attention 控制消息本地广播优化

新环境变量

SGLANG_DISAGGREGATION_FORCE_QUERY_PREFILL_DP_RANK: 强制预填充 DP rank

重大新功能

Diffusion Disaggregated: 完整实现 Diffusion 模型的 disaggregated 推理架构

Author: John Doe

Link: http://example.com/2026/04/17/Sglang-Main-Branch-%E6%AF%8F%E6%97%A5%E5%8F%98%E6%9B%B4%E6%80%BB%E7%BB%93-2026-04-16/

Copyright Notice: All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.

Daily Summary Sglang

Related Articles

Sglang 每日变更总结 - 2026-04-15

Sglang 每日变更总结 (2026-04-15 UTC+8) 统计时间范围：2026-04-15 00:00:00 ~ 2026-04-15 23:59:59 (UTC+8)共计 26 个 commit 合并到 main 分支。一、新功能1. Ray DataParallel 支持新增了基于 Ray 的 DataParallel（DP）和 DP Attention 支持，允许通过 Ray Engine 进行分布式部署。 Commit Message 总结 PR 链接 [Ray] Add data parallel (DP) and DP attention support to RayEngine (#21887) 新增 RayDataParallelController，用 Ray SchedulerActor 替代 multiprocessing.Process 实现 DP/DP Attention 分布式推理 PR #21887 2. Diffusion RL 训练支持为 T2I（Text-to-Image）后训练新增了完整的 RL ro...

Sglang 每日 Commit 总结 (2026-04-18)

Sglang 每日 Commit 总结 (2026-04-18) 统计时间范围：UTC+8 2026-04-18 00:00 - 23:59提交总数：17 个 commit 总览昨日的提交涵盖了多个模块的改进，主要包括： Diffusion 模块：HunyuanVideo 性能优化、LTX-2 两阶段设备管理器、NVFP4 后端支持模型支持：Qwen3-next 自动启用 flashinfer allreduce、MLX 平台 radix cache 支持性能优化：MoE Triton runner 重构去重、norm dispatch 简化 Bug Fix：HiCacheFile key suffix 修复、AMD 测试修复 API 变更：合并 /get_load 到 /v1/loads、移除废弃的 double sparsity 特性平台支持：NPU 文档更新、AMD ROCm DFLASH speculative decoding 一、新模型与新特性新增模型支持 Commit Message 总结 PR 链接 Qwen3...

Sglang Daily Commit Report - 2026-04-19 (UTC+8)

Sglang 每日 Commit 报告报告日期： 2026-04-19 (UTC+8)统计时间： 2026-04-19 00:00 ~ 23:59 (UTC+8)Commit 总数： 4 概述昨日 main 分支共有 4 个 commit，主要涉及以下几个方面：CI 测试修复与升级、NSA 注意力内核性能优化、以及 Qwen3.5 视频处理的 bug 修复。昨日无新模型支持、无 server_args.py 新增参数、无新增环境变量。分类总结1. CI/CD 与测试昨日有 2 个 commit 与 CI/CD 相关，主要是 AMD 平台测试修复和 CUDA CI 环境升级。 Commit Message 总结 PR 链接 [AMD]Fix AMD multimodal-gen-test-2-gpu timeout by adding partition for standalone test (#23130) 修复 AMD 多模态生成器 2-GPU 测试超时问题，通过添加独立测试分区来解决 PR #23130 [CI] Add per-j...

Sglang 代码变更总结 - 2026-04-06

Sglang 代码变更总结 (UTC+8 2026-04-06) 本文总结了 Sglang 项目在 2026年4月6日（UTC+8 0时到24时） main 分支的所有 commit 变更，共计 24 个 commit。总体概览分类 Commit 数量关键变更新模型/模型增强 1 LTX2.3 视频扩散模型性能优化/特性 4 Ngram Spec 外部语料库+后缀自动机、Ngram anchor match state、gfx95 量化格式缓存、TRT-LLM router_logits dtype server_args.py 新增参数 3 --speculative-ngram-external-corpus-path、--speculative-ngram-external-sam-budget、--speculative-ngram-external-corpus-max-tokens 新增环境变量 4 SGLANG_DISAGG_STAGING_BUFFER、SGLANG_DISAGG_STAGING_BUFFER_...

Sglang 代码变更总结 - 2026-04-02

Sglang 代码变更总结 (UTC+8 2026-04-02) 本文总结了 Sglang 项目在 2026年4月2日（UTC+8 0时到24时） main 分支的所有 commit 变更，共计 41 个 commit。总体概览分类 Commit 数量关键变更新模型/模型增强 3 GLM-4.7-Flash(NPU)、MiMo-V2-Flash reasoning parser、MiniMax-M2.5 FP8 MoE 性能优化/Kernel 7 融合 temperature+softmax sampling、ngram corpus 迁移到 TVM FFI、trtllm sparse MLA kernel、NSA trtllm 默认(Blackwell)、DSA trtllm default、flashinfer_trtllm mxfp8 gemm、多线程权重加载默认启用 Bug Fix 6 spec_v2+logprob、multi tool streaming、PCG torch dynamo recompile、tokeni...

Sglang 代码变更总结 - 2026-04-04

Sglang 代码变更总结 (UTC+8 2026-04-04) 本文总结了 Sglang 项目在 2026年4月4日（UTC+8 0时到24时） main 分支的所有 commit 变更，共计 38 个 commit。总体概览分类 Commit 数量关键变更新模型/模型增强 4 LFM2-VL 视觉语言模型、Reasoning Tokens Usage、Score API、GLM-4.7 加载格式性能优化/Kernel 8 LoRA CUDA Graph、FA4 Speculative Decoding、VLM Chunk-aware ViT、NVFP4 CUTLASS 默认、DSV3 router GEMM 基准、norm fusion、flashinfer 0.6.7.post2、kernel 0.4.1 Bug Fix 6 killall_sglang、spec decoding flaky test、mistral embedding 回归、XGrammarBackend reset、DP attention IPv6、...