SGLang 每日提交总结 - 2026年4月13日 (UTC+8)

统计范围: 2026-04-13 00:00 ~ 23:59 (UTC+8)
分支: main
提交总数: 32 个


一、新模型与新功能

昨日新增了 Stable Diffusion 3LTX-2 相关的模型支持,以及 JIT Kernel 的 TP QK Norm 融合算子。

Commit Message 总结 PR 链接
[diffusion] model: support stable-diffusion-3-medium-diffusers (#19225) 新增 Stable Diffusion 3 Medium 模型的完整支持,包括 DiT、VAE 配置、Pipeline 和文本编码器 #19225
[Feature][JIT Kernel] Fused TP QK norm For Minimax (#20673) 为 MiniMax M2 模型新增 fused TP QK Norm 内核,优化张量并行场景下的 QK 归一化性能 #20673
[diffusion] refactor: streamline denoising stages (#22633) 重构去噪阶段,新增 LTX-2 专用去噪器和 Wan TI2V 模型特定阶段,大幅精简 denoising_av.py #22633
[RL] Refactor NVFP4 shuffling/swizzling to in-place replacement (#22204) 将 NVFP4 shuffling/swizzling 重构为原地替换,新增 modelopt_fp4 量化支持 #22204

二、性能优化

HiSparse 内核 CI 和基准测试的完善,以及 Unified Radix Tree V2 的大规模重构。

Commit Message 总结 PR 链接
[RaidxTree Refactor]: Support Unified HybridRadixTree V2 (#21206) 统一混合基数树 V2 重构,新增统一缓存组件(full/swa/mamba/tree),大幅提升缓存管理架构 #21206
[hisparse]: Adding ci for hisparse kvcache-swap-in jit-kernel (#22155) 为 HiSparse kvcache-swap-in JIT 内核添加完整 CI 测试覆盖 #22155
[HiSparse]: Add benchmark for hisparse kernel (#22187) 新增 HiSparse 内核的基准测试脚本 #22187
[Intel GPU] Enable sgl-kernel-xpu fused_experts MoE kernel path for GPT-OSS bf16 models. (#22417) Intel GPU 上为 GPT-OSS bf16 模型启用 sgl-kernel-xpu fused_experts MoE 内核路径 #22417
[Intel GPU] Upgrade pytorch xpu version to 2.11 (#21908) 将 Intel XPU 的 PyTorch 版本升级至 2.11 #21908

三、Bug Fix

涵盖流式会话、PD 分离部署、LoRA、Diffusion 量化和 Streaming 响应等模块的修复。

Commit Message 总结 PR 链接
fix: streaming session race condition + some metrics (#21875) 修复流式会话的竞争条件问题,新增相关调度指标 #21875
fix(PD): respect pause_generation in disagg event loops (#20908) 修复 disaggregation 事件循环中未正确响应 pause_generation 的问题 #20908
[lora] Fix partial MoE rank loading, VL lm_head, strict loading, deepseek on-demand (#21864) 修复 LoRA 部分 MoE rank 加载、VL lm_head、严格加载模式及 DeepSeek 按需加载问题 #21864
Fix broken streaming response with --incremental-streaming-output (#22549) 修复使用 --incremental-streaming-output 时流式响应中断的问题 #22549
diffusion: fix layerwise offload for ModelOpt quantized DiTs (#22594) 修复 ModelOpt 量化 DiT 模型的逐层 offload 功能 #22594
[NPU]qwen3-8b and 32b md bugfix (#22687) 修复 NPU 上 Qwen3-8B 和 32B 的文档问题 #22687
[CPU] Fix argument issues in qkv_proj_with_rope_fused_weight and bmm… (#21367) 修复 CPU 端 qkv_proj_with_rope_fused_weight 和 bmm 的参数问题 #21367
Revert "[Diffusion] Add FLUX.1-dev ModelOpt NVFP4 support (#22574)" (#22649) 回退 FLUX.1-dev ModelOpt NVFP4 支持(可能存在问题需要修复后重新提交) #22649

四、server_args.py 新增/变更参数

Commit Message 变更内容 PR 链接
[lora] Fix partial MoE rank loading... (#21864) 新增 --lora-strict-loading 参数,启用 LoRA 适配器的严格加载模式,权重不匹配时抛出错误;修改 --lora-target-modules"all" 处理逻辑,改为延迟到 lora_manager.init_lora_shapes() 中模型感知地解析 #21864
[RL] Refactor NVFP4 shuffling/swizzling... (#22204) 扩展 FlashInfer TRTLLM routed MOE 的量化支持,新增 modelopt_fp4 为合法量化选项 #22204
Add bfloat16 KV cache validation for HiSparse (#22505) 新增 HiSparse 的 KV cache dtype 校验,强制要求 --kv-cache-dtype=bfloat16 #22505

五、新增环境变量

Commit Message 新增环境变量 PR 链接
[RaidxTree Refactor]: Support Unified HybridRadixTree V2 (#21206) SGLANG_ENABLE_UNIFIED_RADIX_TREE (bool, 默认 False) — 启用统一 Radix Tree V2 缓存架构 #21206

六、CI/基础设施

Commit Message 总结 PR 链接
Upgrade CI default CUDA version from 12.9 to 13.0 (#21441) 将 CI 默认 CUDA 版本从 12.9 升级至 13.0 #21441
[AMD] Remove aiter hotfixes in Dockerfile covered by aiter v0.1.12.post1 (#22657) 移除 ROCm Dockerfile 中已被 aiter v0.1.12.post1 覆盖的 hotfix #22657
[CI/Docker] Clean up redundant flashinfer cubin downloads (#22491) 清理冗余的 flashinfer cubin 下载脚本 #22491
Simplify test_chunked_prefill; remove redundant tests (#22652) 简化 chunked prefill 测试,移除冗余用例,新增 mixed chunked prefill 测试 #22652
Extract pause_resume_in_place kit; rename test_abort to test_scheduler_control (#22647) 提取 pause_resume_in_place 测试 kit,重命名测试类 #22647
TestStreamingSessionAbortLeakRepro: inherit stdout/stderr instead of tempfile (#22668) 优化流式会话测试,使用继承 stdout/stderr 替代临时文件 #22668

七、文档与 NPU 支持

Commit Message 总结 PR 链接
[NPU] update npu doc (#22697) 更新 NPU 支持特性文档 #22697
[Docs] Fix default values and options in Ascend server arguments documentation (#22698) 修复 Ascend 服务参数文档中的默认值和选项 #22698
[NPU] --attn-cp-size --init-expert-location --eplb-algorithm parameter docs update (#22704) 更新 --attn-cp-size--init-expert-location--eplb-algorithm 参数文档 #22704
Modify the optional values and constraints of parameter. (#22705) 修改 NPU 参数的可选值和约束说明 #22705
Improve parameters usage constraints for npu deployment (#22700) 完善 NPU 部署参数使用约束文档 #22700
[NPU] update glm5 running guide (#22712) 更新 GLM5 在 NPU 上的运行指南 #22712
[codex] Add LTX-2.3 benchmark skill recipes (#22631) 新增 LTX-2.3 基准测试 Skill 教程,包括 benchmark-and-profile 文档和脚本优化 #22631

八、其他变更

Commit Message 总结 PR 链接
Add bfloat16 KV cache validation for HiSparse (#22505) 为 HiSparse 添加 bfloat16 KV cache 验证,防止使用不兼容的 KV cache 数据类型 #22505

关键亮点

  1. Stable Diffusion 3 支持 — 完整接入了 SD3 Medium 模型,包括 DiT、VAE、文本编码器和 Pipeline
  2. Unified Radix Tree V2 — 大规模重构缓存架构,引入统一混合基数树,可通过 SGLANG_ENABLE_UNIFIED_RADIX_TREE 环境变量启用
  3. MiniMax M2 性能优化 — 新增 fused TP QK Norm 内核,优化张量并行场景
  4. NVFP4 量化演进 — 支持 modelopt_fp4 量化,但 FLUX.1-dev 的 NVFP4 支持被回退,预计后续修复后重新合入
  5. LoRA 增强 — 新增 --lora-strict-loading 参数,修复多项 LoRA 加载问题
  6. 流式会话稳定性 — 修复了流式会话的竞争条件和 incremental streaming 输出中断问题