SGLang 每日提交总结 - 2026年4月13日 (UTC+8)
统计范围: 2026-04-13 00:00 ~ 23:59 (UTC+8)
分支: main
提交总数: 32 个
一、新模型与新功能
昨日新增了 Stable Diffusion 3 和 LTX-2 相关的模型支持,以及 JIT Kernel 的 TP QK Norm 融合算子。
| Commit Message |
总结 |
PR 链接 |
[diffusion] model: support stable-diffusion-3-medium-diffusers (#19225) |
新增 Stable Diffusion 3 Medium 模型的完整支持,包括 DiT、VAE 配置、Pipeline 和文本编码器 |
#19225 |
[Feature][JIT Kernel] Fused TP QK norm For Minimax (#20673) |
为 MiniMax M2 模型新增 fused TP QK Norm 内核,优化张量并行场景下的 QK 归一化性能 |
#20673 |
[diffusion] refactor: streamline denoising stages (#22633) |
重构去噪阶段,新增 LTX-2 专用去噪器和 Wan TI2V 模型特定阶段,大幅精简 denoising_av.py |
#22633 |
[RL] Refactor NVFP4 shuffling/swizzling to in-place replacement (#22204) |
将 NVFP4 shuffling/swizzling 重构为原地替换,新增 modelopt_fp4 量化支持 |
#22204 |
二、性能优化
HiSparse 内核 CI 和基准测试的完善,以及 Unified Radix Tree V2 的大规模重构。
| Commit Message |
总结 |
PR 链接 |
[RaidxTree Refactor]: Support Unified HybridRadixTree V2 (#21206) |
统一混合基数树 V2 重构,新增统一缓存组件(full/swa/mamba/tree),大幅提升缓存管理架构 |
#21206 |
[hisparse]: Adding ci for hisparse kvcache-swap-in jit-kernel (#22155) |
为 HiSparse kvcache-swap-in JIT 内核添加完整 CI 测试覆盖 |
#22155 |
[HiSparse]: Add benchmark for hisparse kernel (#22187) |
新增 HiSparse 内核的基准测试脚本 |
#22187 |
[Intel GPU] Enable sgl-kernel-xpu fused_experts MoE kernel path for GPT-OSS bf16 models. (#22417) |
Intel GPU 上为 GPT-OSS bf16 模型启用 sgl-kernel-xpu fused_experts MoE 内核路径 |
#22417 |
[Intel GPU] Upgrade pytorch xpu version to 2.11 (#21908) |
将 Intel XPU 的 PyTorch 版本升级至 2.11 |
#21908 |
三、Bug Fix
涵盖流式会话、PD 分离部署、LoRA、Diffusion 量化和 Streaming 响应等模块的修复。
| Commit Message |
总结 |
PR 链接 |
fix: streaming session race condition + some metrics (#21875) |
修复流式会话的竞争条件问题,新增相关调度指标 |
#21875 |
fix(PD): respect pause_generation in disagg event loops (#20908) |
修复 disaggregation 事件循环中未正确响应 pause_generation 的问题 |
#20908 |
[lora] Fix partial MoE rank loading, VL lm_head, strict loading, deepseek on-demand (#21864) |
修复 LoRA 部分 MoE rank 加载、VL lm_head、严格加载模式及 DeepSeek 按需加载问题 |
#21864 |
Fix broken streaming response with --incremental-streaming-output (#22549) |
修复使用 --incremental-streaming-output 时流式响应中断的问题 |
#22549 |
diffusion: fix layerwise offload for ModelOpt quantized DiTs (#22594) |
修复 ModelOpt 量化 DiT 模型的逐层 offload 功能 |
#22594 |
[NPU]qwen3-8b and 32b md bugfix (#22687) |
修复 NPU 上 Qwen3-8B 和 32B 的文档问题 |
#22687 |
[CPU] Fix argument issues in qkv_proj_with_rope_fused_weight and bmm… (#21367) |
修复 CPU 端 qkv_proj_with_rope_fused_weight 和 bmm 的参数问题 |
#21367 |
Revert "[Diffusion] Add FLUX.1-dev ModelOpt NVFP4 support (#22574)" (#22649) |
回退 FLUX.1-dev ModelOpt NVFP4 支持(可能存在问题需要修复后重新提交) |
#22649 |
四、server_args.py 新增/变更参数
| Commit Message |
变更内容 |
PR 链接 |
[lora] Fix partial MoE rank loading... (#21864) |
新增 --lora-strict-loading 参数,启用 LoRA 适配器的严格加载模式,权重不匹配时抛出错误;修改 --lora-target-modules 的 "all" 处理逻辑,改为延迟到 lora_manager.init_lora_shapes() 中模型感知地解析 |
#21864 |
[RL] Refactor NVFP4 shuffling/swizzling... (#22204) |
扩展 FlashInfer TRTLLM routed MOE 的量化支持,新增 modelopt_fp4 为合法量化选项 |
#22204 |
Add bfloat16 KV cache validation for HiSparse (#22505) |
新增 HiSparse 的 KV cache dtype 校验,强制要求 --kv-cache-dtype=bfloat16 |
#22505 |
五、新增环境变量
| Commit Message |
新增环境变量 |
PR 链接 |
[RaidxTree Refactor]: Support Unified HybridRadixTree V2 (#21206) |
SGLANG_ENABLE_UNIFIED_RADIX_TREE (bool, 默认 False) — 启用统一 Radix Tree V2 缓存架构 |
#21206 |
六、CI/基础设施
| Commit Message |
总结 |
PR 链接 |
Upgrade CI default CUDA version from 12.9 to 13.0 (#21441) |
将 CI 默认 CUDA 版本从 12.9 升级至 13.0 |
#21441 |
[AMD] Remove aiter hotfixes in Dockerfile covered by aiter v0.1.12.post1 (#22657) |
移除 ROCm Dockerfile 中已被 aiter v0.1.12.post1 覆盖的 hotfix |
#22657 |
[CI/Docker] Clean up redundant flashinfer cubin downloads (#22491) |
清理冗余的 flashinfer cubin 下载脚本 |
#22491 |
Simplify test_chunked_prefill; remove redundant tests (#22652) |
简化 chunked prefill 测试,移除冗余用例,新增 mixed chunked prefill 测试 |
#22652 |
Extract pause_resume_in_place kit; rename test_abort to test_scheduler_control (#22647) |
提取 pause_resume_in_place 测试 kit,重命名测试类 |
#22647 |
TestStreamingSessionAbortLeakRepro: inherit stdout/stderr instead of tempfile (#22668) |
优化流式会话测试,使用继承 stdout/stderr 替代临时文件 |
#22668 |
七、文档与 NPU 支持
| Commit Message |
总结 |
PR 链接 |
[NPU] update npu doc (#22697) |
更新 NPU 支持特性文档 |
#22697 |
[Docs] Fix default values and options in Ascend server arguments documentation (#22698) |
修复 Ascend 服务参数文档中的默认值和选项 |
#22698 |
[NPU] --attn-cp-size --init-expert-location --eplb-algorithm parameter docs update (#22704) |
更新 --attn-cp-size、--init-expert-location、--eplb-algorithm 参数文档 |
#22704 |
Modify the optional values and constraints of parameter. (#22705) |
修改 NPU 参数的可选值和约束说明 |
#22705 |
Improve parameters usage constraints for npu deployment (#22700) |
完善 NPU 部署参数使用约束文档 |
#22700 |
[NPU] update glm5 running guide (#22712) |
更新 GLM5 在 NPU 上的运行指南 |
#22712 |
[codex] Add LTX-2.3 benchmark skill recipes (#22631) |
新增 LTX-2.3 基准测试 Skill 教程,包括 benchmark-and-profile 文档和脚本优化 |
#22631 |
八、其他变更
| Commit Message |
总结 |
PR 链接 |
Add bfloat16 KV cache validation for HiSparse (#22505) |
为 HiSparse 添加 bfloat16 KV cache 验证,防止使用不兼容的 KV cache 数据类型 |
#22505 |
关键亮点
- Stable Diffusion 3 支持 — 完整接入了 SD3 Medium 模型,包括 DiT、VAE、文本编码器和 Pipeline
- Unified Radix Tree V2 — 大规模重构缓存架构,引入统一混合基数树,可通过
SGLANG_ENABLE_UNIFIED_RADIX_TREE 环境变量启用
- MiniMax M2 性能优化 — 新增 fused TP QK Norm 内核,优化张量并行场景
- NVFP4 量化演进 — 支持
modelopt_fp4 量化,但 FLUX.1-dev 的 NVFP4 支持被回退,预计后续修复后重新合入
- LoRA 增强 — 新增
--lora-strict-loading 参数,修复多项 LoRA 加载问题
- 流式会话稳定性 — 修复了流式会话的竞争条件和 incremental streaming 输出中断问题