Sglang 每日 Commit 总结 (2026-04-18)
统计时间范围:UTC+8 2026-04-18 00:00 - 23:59
提交总数:17 个 commit
总览
昨日的提交涵盖了多个模块的改进,主要包括:
- Diffusion 模块:HunyuanVideo 性能优化、LTX-2 两阶段设备管理器、NVFP4 后端支持
- 模型支持:Qwen3-next 自动启用 flashinfer allreduce、MLX 平台 radix cache 支持
- 性能优化:MoE Triton runner 重构去重、norm dispatch 简化
- Bug Fix:HiCacheFile key suffix 修复、AMD 测试修复
- API 变更:合并 /get_load 到 /v1/loads、移除废弃的 double sparsity 特性
- 平台支持:NPU 文档更新、AMD ROCm DFLASH speculative decoding
一、新模型与新特性
新增模型支持
| Commit Message |
总结 |
PR 链接 |
Qwen3next flashinfer allreduce auto enable (#22664) |
为 Qwen3-next 模型自动启用 flashinfer allreduce,优化分布式推理性能 |
PR #22664 |
[MLX] Support radix cache (#21509) |
为 Apple MLX 后端添加 radix cache 支持,提升缓存命中率和推理效率 |
PR #21509 |
Diffusion 新特性
| Commit Message |
总结 |
PR 链接 |
[diffusion] feat: introduce ltx-2-two-stage device manager (#22869) |
引入 LTX-2 两阶段扩散模型的设备管理器,支持跨设备调度和显存管理 |
PR #22869 |
[codex] Add flashinfer TRTLLM backend for diffusion NVFP4 (#22717) |
为 diffusion NVFP4 量化添加 flashinfer TRTLLM 后端支持 |
PR #22717 |
二、性能优化
| Commit Message |
总结 |
PR 链接 |
diffusion: add HunyuanVideo GroupNorm+SiLU fast path (#22814) |
为 HunyuanVideo 模型添加 GroupNorm+SiLU 融合算子快速路径,显著提升视频生成性能 |
PR #22814 |
refactor(moe): de-duplicate triton MoE runner path into shared helpers (#23019) |
重构 MoE Triton runner,将重复代码提取为共享 helpers,减少代码冗余并提升可维护性 |
PR #23019 |
Clean up bench_one_batch warning and simplify norm dispatch (#23110) |
清理 bench_one_batch 警告并简化 norm dispatch 逻辑,优化 sgl-kernel elementwise 操作 |
PR #23110 |
[AMD] Enable DFLASH speculative decoding on ROCm (#22342) |
在 AMD ROCm 平台上启用 DFLASH speculative decoding,提升 AMD GPU 推理速度 |
PR #22342 |
三、Bug Fix
| Commit Message |
总结 |
PR 链接 |
[HiCache] fix: HiCacheFile component key suffixing (#22891) |
修复 HiCacheFile 组件的 key suffix 处理问题,确保缓存键正确生成 |
PR #22891 |
[AMD] Fix AMD Multimodal Test - skip nvfp4 tests (#23045) |
修复 AMD 多模态测试,跳过不支持的 nvfp4 测试用例 |
PR #23045 |
[main] chore: add bias for base layer with lora (#22169) |
修复 LoRA 基础层的 bias 处理,确保 bias 正确添加 |
PR #22169 |
四、API 与配置变更
server_args.py 变更
| Commit Message |
总结 |
PR 链接 |
Remove deprecated double sparsity feature (#23009) |
移除已废弃的 double sparsity 特性及相关 server_args 参数:enable_double_sparsity、ds_channel_config_path、ds_heavy_channel_num、ds_heavy_token_num、ds_heavy_channel_type、ds_sparse_decode_threshold |
PR #23009 |
Merge /get_load into /v1/loads (#23010) |
将 /get_load 端点合并到 /v1/loads,统一 API 接口 |
PR #23010 |
新增环境变量
昨日提交中新增或更新的环境变量:
| 环境变量 |
说明 |
相关 Commit |
SGLANG_USE_CUDA_HUNYUANVIDEO_GROUP_NORM_SILU |
启用 HunyuanVideo GroupNorm+SiLU CUDA 快速路径 |
HunyuanVideo GroupNorm+SiLU fast path (#22814) |
SGLANG_DIFFUSION_FLASHINFER_FP4_GEMM_BACKEND |
指定 diffusion flashinfer FP4 GEMM 后端实现 |
flashinfer TRTLLM backend for diffusion NVFP4 (#22717) |
SGLANG_LTX2_SNAPSHOT_LOW_VRAM_MODE |
LTX-2 快照低显存模式开关 |
ltx-2-two-stage device manager (#22869) |
SGLANG_LTX2_SNAPSHOT_RELEASE_EMPTY_CACHE |
LTX-2 快照后释放空缓存 |
ltx-2-two-stage device manager (#22869) |
SGLANG_LTX2_TWO_STAGE_DEVICE_MODE |
LTX-2 两阶段设备模式配置 |
ltx-2-two-stage device manager (#22869) |
NPU 推荐环境变量(文档更新)
NPU 最佳实践文档更新,推荐以下环境变量配置:
SGLANG_DP_ROUND_ROBIN=1
SGLANG_SET_CPU_AFFINITY=1
SGLANG_NPU_USE_MLAPO=1
SGLANG_USE_FIA_NZ=1
SGLANG_USE_AG_AFTER_QLORA=1
SGLANG_ENABLE_OVERLAP_PLAN_STREAM=1
SGLANG_ENABLE_SPEC_V2=1
SGLANG_DEEPEP_NUM_MAX_DISPATCH_TOKENS_PER_RANK=102
SGLANG_SCHEDULER_SKIP_ALL_GATHER=1
SGLANG_NPU_FUSED_MOE_MODE=1
五、其他变更
| Commit Message |
总结 |
PR 链接 |
Apply HF transformers patches from sglang init (#23103) |
在 sglang 初始化时应用 HF transformers patches |
PR #23103 |
Lower TestPiecewiseCudaGraphQwen25VL gsm8k threshold to 0.80 (#23099) |
降低 Qwen2.5-VL PiecewiseCudaGraph 测试的 gsm8k 阈值到 0.80 |
PR #23099 |
Update CI_PERMISSIONS (#23108) |
更新 CI 权限配置 |
PR #23108 |
[NPU] [DOC] Update npu best practice docs to match latest code (#23077) |
更新 NPU 最佳实践文档以匹配最新代码,添加详细配置指南 |
PR #23077 |
重点关注总结
新模型支持
- Qwen3-next:自动启用 flashinfer allreduce 优化
- MLX 平台:新增 radix cache 支持
性能优化
- HunyuanVideo:GroupNorm+SiLU 融合算子快速路径
- MoE:Triton runner 代码重构去重
- AMD ROCm:启用 DFLASH speculative decoding
Bug Fix
- HiCache:修复 key suffix 问题
- LoRA:修复 base layer bias 处理
- AMD 测试:跳过不支持的 nvfp4 测试
server_args.py 变更
- 移除了 6 个 double sparsity 相关参数
新增环境变量
- 新增 5 个核心环境变量(SGLANG_USE_CUDA_HUNYUANVIDEO_GROUP_NORM_SILU、SGLANG_DIFFUSION_FLASHINFER_FP4_GEMM_BACKEND 等)
- NPU 文档推荐 10 个环境变量配置