SGLang 每日提交总结 - 2026年4月13日 (UTC+8)

统计范围: 2026-04-13 00:00 ~ 23:59 (UTC+8)
分支: main
提交总数: 32 个

一、新模型与新功能

昨日新增了 Stable Diffusion 3 和 LTX-2 相关的模型支持，以及 JIT Kernel 的 TP QK Norm 融合算子。

Commit Message	总结	PR 链接
`[diffusion] model: support stable-diffusion-3-medium-diffusers (#19225)`	新增 Stable Diffusion 3 Medium 模型的完整支持，包括 DiT、VAE 配置、Pipeline 和文本编码器	#19225
`[Feature][JIT Kernel] Fused TP QK norm For Minimax (#20673)`	为 MiniMax M2 模型新增 fused TP QK Norm 内核，优化张量并行场景下的 QK 归一化性能	#20673
`[diffusion] refactor: streamline denoising stages (#22633)`	重构去噪阶段，新增 LTX-2 专用去噪器和 Wan TI2V 模型特定阶段，大幅精简 denoising_av.py	#22633
`[RL] Refactor NVFP4 shuffling/swizzling to in-place replacement (#22204)`	将 NVFP4 shuffling/swizzling 重构为原地替换，新增 `modelopt_fp4` 量化支持	#22204

HiSparse 内核 CI 和基准测试的完善，以及 Unified Radix Tree V2 的大规模重构。

Commit Message	总结	PR 链接
`[RaidxTree Refactor]: Support Unified HybridRadixTree V2 (#21206)`	统一混合基数树 V2 重构，新增统一缓存组件（full/swa/mamba/tree），大幅提升缓存管理架构	#21206
`[hisparse]: Adding ci for hisparse kvcache-swap-in jit-kernel (#22155)`	为 HiSparse kvcache-swap-in JIT 内核添加完整 CI 测试覆盖	#22155
`[HiSparse]: Add benchmark for hisparse kernel (#22187)`	新增 HiSparse 内核的基准测试脚本	#22187
`[Intel GPU] Enable sgl-kernel-xpu fused_experts MoE kernel path for GPT-OSS bf16 models. (#22417)`	Intel GPU 上为 GPT-OSS bf16 模型启用 sgl-kernel-xpu fused_experts MoE 内核路径	#22417
`[Intel GPU] Upgrade pytorch xpu version to 2.11 (#21908)`	将 Intel XPU 的 PyTorch 版本升级至 2.11	#21908

涵盖流式会话、PD 分离部署、LoRA、Diffusion 量化和 Streaming 响应等模块的修复。

Commit Message	总结	PR 链接
`fix: streaming session race condition + some metrics (#21875)`	修复流式会话的竞争条件问题，新增相关调度指标	#21875
`fix(PD): respect pause_generation in disagg event loops (#20908)`	修复 disaggregation 事件循环中未正确响应 pause_generation 的问题	#20908
`[lora] Fix partial MoE rank loading, VL lm_head, strict loading, deepseek on-demand (#21864)`	修复 LoRA 部分 MoE rank 加载、VL lm_head、严格加载模式及 DeepSeek 按需加载问题	#21864
`Fix broken streaming response with --incremental-streaming-output (#22549)`	修复使用 `--incremental-streaming-output` 时流式响应中断的问题	#22549
`diffusion: fix layerwise offload for ModelOpt quantized DiTs (#22594)`	修复 ModelOpt 量化 DiT 模型的逐层 offload 功能	#22594
`[NPU]qwen3-8b and 32b md bugfix (#22687)`	修复 NPU 上 Qwen3-8B 和 32B 的文档问题	#22687
`[CPU] Fix argument issues in qkv_proj_with_rope_fused_weight and bmm… (#21367)`	修复 CPU 端 qkv_proj_with_rope_fused_weight 和 bmm 的参数问题	#21367
`Revert "[Diffusion] Add FLUX.1-dev ModelOpt NVFP4 support (#22574)" (#22649)`	回退 FLUX.1-dev ModelOpt NVFP4 支持（可能存在问题需要修复后重新提交）	#22649

Commit Message	变更内容	PR 链接
`[lora] Fix partial MoE rank loading... (#21864)`	新增 `--lora-strict-loading` 参数，启用 LoRA 适配器的严格加载模式，权重不匹配时抛出错误；修改 `--lora-target-modules` 的 `"all"` 处理逻辑，改为延迟到 `lora_manager.init_lora_shapes()` 中模型感知地解析	#21864
`[RL] Refactor NVFP4 shuffling/swizzling... (#22204)`	扩展 FlashInfer TRTLLM routed MOE 的量化支持，新增 `modelopt_fp4` 为合法量化选项	#22204
`Add bfloat16 KV cache validation for HiSparse (#22505)`	新增 HiSparse 的 KV cache dtype 校验，强制要求 `--kv-cache-dtype=bfloat16`	#22505

Commit Message	新增环境变量	PR 链接
`[RaidxTree Refactor]: Support Unified HybridRadixTree V2 (#21206)`	`SGLANG_ENABLE_UNIFIED_RADIX_TREE` (bool, 默认 `False`) — 启用统一 Radix Tree V2 缓存架构	#21206

Commit Message	总结	PR 链接
`Upgrade CI default CUDA version from 12.9 to 13.0 (#21441)`	将 CI 默认 CUDA 版本从 12.9 升级至 13.0	#21441
`[AMD] Remove aiter hotfixes in Dockerfile covered by aiter v0.1.12.post1 (#22657)`	移除 ROCm Dockerfile 中已被 aiter v0.1.12.post1 覆盖的 hotfix	#22657
`[CI/Docker] Clean up redundant flashinfer cubin downloads (#22491)`	清理冗余的 flashinfer cubin 下载脚本	#22491
`Simplify test_chunked_prefill; remove redundant tests (#22652)`	简化 chunked prefill 测试，移除冗余用例，新增 mixed chunked prefill 测试	#22652
`Extract pause_resume_in_place kit; rename test_abort to test_scheduler_control (#22647)`	提取 pause_resume_in_place 测试 kit，重命名测试类	#22647
`TestStreamingSessionAbortLeakRepro: inherit stdout/stderr instead of tempfile (#22668)`	优化流式会话测试，使用继承 stdout/stderr 替代临时文件	#22668

Commit Message	总结	PR 链接
`[NPU] update npu doc (#22697)`	更新 NPU 支持特性文档	#22697
`[Docs] Fix default values and options in Ascend server arguments documentation (#22698)`	修复 Ascend 服务参数文档中的默认值和选项	#22698
`[NPU] --attn-cp-size --init-expert-location --eplb-algorithm parameter docs update (#22704)`	更新 `--attn-cp-size`、`--init-expert-location`、`--eplb-algorithm` 参数文档	#22704
`Modify the optional values and constraints of parameter. (#22705)`	修改 NPU 参数的可选值和约束说明	#22705
`Improve parameters usage constraints for npu deployment (#22700)`	完善 NPU 部署参数使用约束文档	#22700
`[NPU] update glm5 running guide (#22712)`	更新 GLM5 在 NPU 上的运行指南	#22712
`[codex] Add LTX-2.3 benchmark skill recipes (#22631)`	新增 LTX-2.3 基准测试 Skill 教程，包括 benchmark-and-profile 文档和脚本优化	#22631

Commit Message	总结	PR 链接
`Add bfloat16 KV cache validation for HiSparse (#22505)`	为 HiSparse 添加 bfloat16 KV cache 验证，防止使用不兼容的 KV cache 数据类型	#22505

Stable Diffusion 3 支持 — 完整接入了 SD3 Medium 模型，包括 DiT、VAE、文本编码器和 Pipeline
Unified Radix Tree V2 — 大规模重构缓存架构，引入统一混合基数树，可通过 SGLANG_ENABLE_UNIFIED_RADIX_TREE 环境变量启用
MiniMax M2 性能优化 — 新增 fused TP QK Norm 内核，优化张量并行场景
NVFP4 量化演进 — 支持 modelopt_fp4 量化，但 FLUX.1-dev 的 NVFP4 支持被回退，预计后续修复后重新合入
LoRA 增强 — 新增 --lora-strict-loading 参数，修复多项 LoRA 加载问题
流式会话稳定性 — 修复了流式会话的竞争条件和 incremental streaming 输出中断问题