Sglang 每日 Commit 总结 (2026-04-18)

统计时间范围:UTC+8 2026-04-18 00:00 - 23:59
提交总数:17 个 commit

总览

昨日的提交涵盖了多个模块的改进,主要包括:

  • Diffusion 模块:HunyuanVideo 性能优化、LTX-2 两阶段设备管理器、NVFP4 后端支持
  • 模型支持:Qwen3-next 自动启用 flashinfer allreduce、MLX 平台 radix cache 支持
  • 性能优化:MoE Triton runner 重构去重、norm dispatch 简化
  • Bug Fix:HiCacheFile key suffix 修复、AMD 测试修复
  • API 变更:合并 /get_load 到 /v1/loads、移除废弃的 double sparsity 特性
  • 平台支持:NPU 文档更新、AMD ROCm DFLASH speculative decoding

一、新模型与新特性

新增模型支持

Commit Message 总结 PR 链接
Qwen3next flashinfer allreduce auto enable (#22664) 为 Qwen3-next 模型自动启用 flashinfer allreduce,优化分布式推理性能 PR #22664
[MLX] Support radix cache (#21509) 为 Apple MLX 后端添加 radix cache 支持,提升缓存命中率和推理效率 PR #21509

Diffusion 新特性

Commit Message 总结 PR 链接
[diffusion] feat: introduce ltx-2-two-stage device manager (#22869) 引入 LTX-2 两阶段扩散模型的设备管理器,支持跨设备调度和显存管理 PR #22869
[codex] Add flashinfer TRTLLM backend for diffusion NVFP4 (#22717) 为 diffusion NVFP4 量化添加 flashinfer TRTLLM 后端支持 PR #22717

二、性能优化

Commit Message 总结 PR 链接
diffusion: add HunyuanVideo GroupNorm+SiLU fast path (#22814) 为 HunyuanVideo 模型添加 GroupNorm+SiLU 融合算子快速路径,显著提升视频生成性能 PR #22814
refactor(moe): de-duplicate triton MoE runner path into shared helpers (#23019) 重构 MoE Triton runner,将重复代码提取为共享 helpers,减少代码冗余并提升可维护性 PR #23019
Clean up bench_one_batch warning and simplify norm dispatch (#23110) 清理 bench_one_batch 警告并简化 norm dispatch 逻辑,优化 sgl-kernel elementwise 操作 PR #23110
[AMD] Enable DFLASH speculative decoding on ROCm (#22342) 在 AMD ROCm 平台上启用 DFLASH speculative decoding,提升 AMD GPU 推理速度 PR #22342

三、Bug Fix

Commit Message 总结 PR 链接
[HiCache] fix: HiCacheFile component key suffixing (#22891) 修复 HiCacheFile 组件的 key suffix 处理问题,确保缓存键正确生成 PR #22891
[AMD] Fix AMD Multimodal Test - skip nvfp4 tests (#23045) 修复 AMD 多模态测试,跳过不支持的 nvfp4 测试用例 PR #23045
[main] chore: add bias for base layer with lora (#22169) 修复 LoRA 基础层的 bias 处理,确保 bias 正确添加 PR #22169

四、API 与配置变更

server_args.py 变更

Commit Message 总结 PR 链接
Remove deprecated double sparsity feature (#23009) 移除已废弃的 double sparsity 特性及相关 server_args 参数:enable_double_sparsityds_channel_config_pathds_heavy_channel_numds_heavy_token_numds_heavy_channel_typeds_sparse_decode_threshold PR #23009
Merge /get_load into /v1/loads (#23010) /get_load 端点合并到 /v1/loads,统一 API 接口 PR #23010

新增环境变量

昨日提交中新增或更新的环境变量:

环境变量 说明 相关 Commit
SGLANG_USE_CUDA_HUNYUANVIDEO_GROUP_NORM_SILU 启用 HunyuanVideo GroupNorm+SiLU CUDA 快速路径 HunyuanVideo GroupNorm+SiLU fast path (#22814)
SGLANG_DIFFUSION_FLASHINFER_FP4_GEMM_BACKEND 指定 diffusion flashinfer FP4 GEMM 后端实现 flashinfer TRTLLM backend for diffusion NVFP4 (#22717)
SGLANG_LTX2_SNAPSHOT_LOW_VRAM_MODE LTX-2 快照低显存模式开关 ltx-2-two-stage device manager (#22869)
SGLANG_LTX2_SNAPSHOT_RELEASE_EMPTY_CACHE LTX-2 快照后释放空缓存 ltx-2-two-stage device manager (#22869)
SGLANG_LTX2_TWO_STAGE_DEVICE_MODE LTX-2 两阶段设备模式配置 ltx-2-two-stage device manager (#22869)

NPU 推荐环境变量(文档更新)

NPU 最佳实践文档更新,推荐以下环境变量配置:

  • SGLANG_DP_ROUND_ROBIN=1
  • SGLANG_SET_CPU_AFFINITY=1
  • SGLANG_NPU_USE_MLAPO=1
  • SGLANG_USE_FIA_NZ=1
  • SGLANG_USE_AG_AFTER_QLORA=1
  • SGLANG_ENABLE_OVERLAP_PLAN_STREAM=1
  • SGLANG_ENABLE_SPEC_V2=1
  • SGLANG_DEEPEP_NUM_MAX_DISPATCH_TOKENS_PER_RANK=102
  • SGLANG_SCHEDULER_SKIP_ALL_GATHER=1
  • SGLANG_NPU_FUSED_MOE_MODE=1

五、其他变更

Commit Message 总结 PR 链接
Apply HF transformers patches from sglang init (#23103) 在 sglang 初始化时应用 HF transformers patches PR #23103
Lower TestPiecewiseCudaGraphQwen25VL gsm8k threshold to 0.80 (#23099) 降低 Qwen2.5-VL PiecewiseCudaGraph 测试的 gsm8k 阈值到 0.80 PR #23099
Update CI_PERMISSIONS (#23108) 更新 CI 权限配置 PR #23108
[NPU] [DOC] Update npu best practice docs to match latest code (#23077) 更新 NPU 最佳实践文档以匹配最新代码,添加详细配置指南 PR #23077

重点关注总结

新模型支持

  • Qwen3-next:自动启用 flashinfer allreduce 优化
  • MLX 平台:新增 radix cache 支持

性能优化

  • HunyuanVideo:GroupNorm+SiLU 融合算子快速路径
  • MoE:Triton runner 代码重构去重
  • AMD ROCm:启用 DFLASH speculative decoding

Bug Fix

  • HiCache:修复 key suffix 问题
  • LoRA:修复 base layer bias 处理
  • AMD 测试:跳过不支持的 nvfp4 测试

server_args.py 变更

  • 移除了 6 个 double sparsity 相关参数

新增环境变量

  • 新增 5 个核心环境变量(SGLANG_USE_CUDA_HUNYUANVIDEO_GROUP_NORM_SILU、SGLANG_DIFFUSION_FLASHINFER_FP4_GEMM_BACKEND 等)
  • NPU 文档推荐 10 个环境变量配置