Sglang 每日 Commit 总结 (2026-04-18)

Created2026-04-19|Updated2026-04-19|开源项目Sglang

|Post Views:

Sglang 每日 Commit 总结 (2026-04-18)

统计时间范围：UTC+8 2026-04-18 00:00 - 23:59
提交总数：17 个 commit

总览

昨日的提交涵盖了多个模块的改进，主要包括：

Diffusion 模块：HunyuanVideo 性能优化、LTX-2 两阶段设备管理器、NVFP4 后端支持
模型支持：Qwen3-next 自动启用 flashinfer allreduce、MLX 平台 radix cache 支持
性能优化：MoE Triton runner 重构去重、norm dispatch 简化
Bug Fix：HiCacheFile key suffix 修复、AMD 测试修复
API 变更：合并 /get_load 到 /v1/loads、移除废弃的 double sparsity 特性
平台支持：NPU 文档更新、AMD ROCm DFLASH speculative decoding

一、新模型与新特性

新增模型支持

Commit Message	总结	PR 链接
`Qwen3next flashinfer allreduce auto enable (#22664)`	为 Qwen3-next 模型自动启用 flashinfer allreduce，优化分布式推理性能	PR #22664
`[MLX] Support radix cache (#21509)`	为 Apple MLX 后端添加 radix cache 支持，提升缓存命中率和推理效率	PR #21509

Diffusion 新特性

Commit Message	总结	PR 链接
`[diffusion] feat: introduce ltx-2-two-stage device manager (#22869)`	引入 LTX-2 两阶段扩散模型的设备管理器，支持跨设备调度和显存管理	PR #22869
`[codex] Add flashinfer TRTLLM backend for diffusion NVFP4 (#22717)`	为 diffusion NVFP4 量化添加 flashinfer TRTLLM 后端支持	PR #22717

二、性能优化

Commit Message	总结	PR 链接
`diffusion: add HunyuanVideo GroupNorm+SiLU fast path (#22814)`	为 HunyuanVideo 模型添加 GroupNorm+SiLU 融合算子快速路径，显著提升视频生成性能	PR #22814
`refactor(moe): de-duplicate triton MoE runner path into shared helpers (#23019)`	重构 MoE Triton runner，将重复代码提取为共享 helpers，减少代码冗余并提升可维护性	PR #23019
`Clean up bench_one_batch warning and simplify norm dispatch (#23110)`	清理 bench_one_batch 警告并简化 norm dispatch 逻辑，优化 sgl-kernel elementwise 操作	PR #23110
`[AMD] Enable DFLASH speculative decoding on ROCm (#22342)`	在 AMD ROCm 平台上启用 DFLASH speculative decoding，提升 AMD GPU 推理速度	PR #22342

三、Bug Fix

Commit Message	总结	PR 链接
`[HiCache] fix: HiCacheFile component key suffixing (#22891)`	修复 HiCacheFile 组件的 key suffix 处理问题，确保缓存键正确生成	PR #22891
`[AMD] Fix AMD Multimodal Test - skip nvfp4 tests (#23045)`	修复 AMD 多模态测试，跳过不支持的 nvfp4 测试用例	PR #23045
`[main] chore: add bias for base layer with lora (#22169)`	修复 LoRA 基础层的 bias 处理，确保 bias 正确添加	PR #22169

四、API 与配置变更

server_args.py 变更

Commit Message	总结	PR 链接
`Remove deprecated double sparsity feature (#23009)`	移除已废弃的 double sparsity 特性及相关 server_args 参数：`enable_double_sparsity`、`ds_channel_config_path`、`ds_heavy_channel_num`、`ds_heavy_token_num`、`ds_heavy_channel_type`、`ds_sparse_decode_threshold`	PR #23009
`Merge /get_load into /v1/loads (#23010)`	将 `/get_load` 端点合并到 `/v1/loads`，统一 API 接口	PR #23010

新增环境变量

昨日提交中新增或更新的环境变量：

环境变量	说明	相关 Commit
`SGLANG_USE_CUDA_HUNYUANVIDEO_GROUP_NORM_SILU`	启用 HunyuanVideo GroupNorm+SiLU CUDA 快速路径	HunyuanVideo GroupNorm+SiLU fast path (#22814)
`SGLANG_DIFFUSION_FLASHINFER_FP4_GEMM_BACKEND`	指定 diffusion flashinfer FP4 GEMM 后端实现	flashinfer TRTLLM backend for diffusion NVFP4 (#22717)
`SGLANG_LTX2_SNAPSHOT_LOW_VRAM_MODE`	LTX-2 快照低显存模式开关	ltx-2-two-stage device manager (#22869)
`SGLANG_LTX2_SNAPSHOT_RELEASE_EMPTY_CACHE`	LTX-2 快照后释放空缓存	ltx-2-two-stage device manager (#22869)
`SGLANG_LTX2_TWO_STAGE_DEVICE_MODE`	LTX-2 两阶段设备模式配置	ltx-2-two-stage device manager (#22869)

NPU 推荐环境变量（文档更新）

NPU 最佳实践文档更新，推荐以下环境变量配置：

SGLANG_DP_ROUND_ROBIN=1
SGLANG_SET_CPU_AFFINITY=1
SGLANG_NPU_USE_MLAPO=1
SGLANG_USE_FIA_NZ=1
SGLANG_USE_AG_AFTER_QLORA=1
SGLANG_ENABLE_OVERLAP_PLAN_STREAM=1
SGLANG_ENABLE_SPEC_V2=1
SGLANG_DEEPEP_NUM_MAX_DISPATCH_TOKENS_PER_RANK=102
SGLANG_SCHEDULER_SKIP_ALL_GATHER=1
SGLANG_NPU_FUSED_MOE_MODE=1

五、其他变更

Commit Message	总结	PR 链接
`Apply HF transformers patches from sglang init (#23103)`	在 sglang 初始化时应用 HF transformers patches	PR #23103
`Lower TestPiecewiseCudaGraphQwen25VL gsm8k threshold to 0.80 (#23099)`	降低 Qwen2.5-VL PiecewiseCudaGraph 测试的 gsm8k 阈值到 0.80	PR #23099
`Update CI_PERMISSIONS (#23108)`	更新 CI 权限配置	PR #23108
`[NPU] [DOC] Update npu best practice docs to match latest code (#23077)`	更新 NPU 最佳实践文档以匹配最新代码，添加详细配置指南	PR #23077

重点关注总结

新模型支持

Qwen3-next：自动启用 flashinfer allreduce 优化
MLX 平台：新增 radix cache 支持

性能优化

HunyuanVideo：GroupNorm+SiLU 融合算子快速路径
MoE：Triton runner 代码重构去重
AMD ROCm：启用 DFLASH speculative decoding

Bug Fix

HiCache：修复 key suffix 问题
LoRA：修复 base layer bias 处理
AMD 测试：跳过不支持的 nvfp4 测试

server_args.py 变更

移除了 6 个 double sparsity 相关参数

新增环境变量

新增 5 个核心环境变量（SGLANG_USE_CUDA_HUNYUANVIDEO_GROUP_NORM_SILU、SGLANG_DIFFUSION_FLASHINFER_FP4_GEMM_BACKEND 等）
NPU 文档推荐 10 个环境变量配置

Author: John Doe

Link: http://example.com/2026/04/19/Sglang-%E6%AF%8F%E6%97%A5-Commit-%E6%80%BB%E7%BB%93-2026-04-18/

Copyright Notice: All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.

每日总结 Sglang

Related Articles

Sglang 每日 Commit 总结

Sglang Main 分支 Commit 总结统计时间范围：UTC+8 2026-04-11 00:00 ~ 24:00（UTC 2026-04-10 16:00 ~ 2026-04-11 16:00） Commit 总数：30 个（非 merge commit）一、新模型支持 Commit Message 总结 PR 链接 MiniMax-M2.5 - Support dp attention, dp reduce scatter, FP4 all gather, AR fusion in prepare_attn (#20067) 为 MiniMax-M2.5 模型增加 DP Attention、DP Reduce Scatter、FP4 All Gather 及 AR Fusion 支持 PR #20067 二、性能优化 Commit Message 总结 PR 链接 perf: precompute FA3 scheduler_metadata to eliminate per-layer prepare_varlen_num_blocks...

Sglang Daily Commit Report - 2026-04-19 (UTC+8)

Sglang 每日 Commit 报告报告日期： 2026-04-19 (UTC+8)统计时间： 2026-04-19 00:00 ~ 23:59 (UTC+8)Commit 总数： 4 概述昨日 main 分支共有 4 个 commit，主要涉及以下几个方面：CI 测试修复与升级、NSA 注意力内核性能优化、以及 Qwen3.5 视频处理的 bug 修复。昨日无新模型支持、无 server_args.py 新增参数、无新增环境变量。分类总结1. CI/CD 与测试昨日有 2 个 commit 与 CI/CD 相关，主要是 AMD 平台测试修复和 CUDA CI 环境升级。 Commit Message 总结 PR 链接 [AMD]Fix AMD multimodal-gen-test-2-gpu timeout by adding partition for standalone test (#23130) 修复 AMD 多模态生成器 2-GPU 测试超时问题，通过添加独立测试分区来解决 PR #23130 [CI] Add per-j...

SGLang Main 分支每日变更总结 2026-04-08

SGLang Main 分支每日变更总结 (2026-04-08)概述北京时间 2026 年 4 月 8 日 00:00 ~ 24:00，SGLang main 分支共有 38 次提交。主要变更涵盖：DFLASH 推测解码新功能、HTTP/2 服务器支持、Score API 扩展支持 SequenceClassification 模型、多项性能优化，以及跨 NVIDIA/AMD/NPU 平台的 bug 修复。一、新模型与新功能1.1 DFLASH 推测解码支持DFLASH 是一种全新的推测解码算法，使用小型 draft model 捕获 target model 的辅助隐藏状态来高效生成草稿 token。Draft model 不包含 token embedding 或 LM head（复用 target model 的），引入了专用的 worker、Triton kernel 以及与 scheduler、cuda graph runner、flashinfer backend 的深度集成。 Commit Message 总结 PR 链接 ...

Sglang Main Branch 每日变更总结 (2026-04-16)

Sglang Main Branch 每日变更总结日期: UTC+8 2026-04-16 (00:00 ~ 24:00)统计范围: 共 43 个 commits 一、新模型 / 模型支持昨日的提交中没有引入全新的模型，但有多项对已有模型的增强支持。 Commit Message 总结 PR 链接 [VLM] Enable per-image ViT cache and avoid TP CUDA context creation for Kimi-K2.5 (#22858) 为 Kimi-K2.5 启用逐图像 ViT 缓存，避免 TP CUDA 上下文创建，降低显存占用 PR #22858 [EPD][VLM] Support Kimi VL EPD (#22490) 为 Kimi VL 模型添加 EPD（Encode-Prefill-Decode） disaggregation 支持 PR #22490 [Bugfix] Preserve auto-detected quant_config for GLM NextN draft model ...

Sglang 代码变更总结 - 2026-04-03

Sglang 代码变更总结 (UTC+8 2026-04-03) 本文总结了 Sglang 项目在 2026年4月3日（UTC+8 0时到24时） main 分支的所有 commit 变更，共计 46 个 commit。总体概览分类 Commit 数量关键变更新模型/模型增强 6 Transformers 新后端、NVFP4 Marlin 回退、GPT-OSS 20B LoRA、MOVA(NPU)、VLM 多模态拆分性能优化/Kernel 9 JIT Activation、FP8 NSA(AMD)、GLM4.7(NPU)、并行状态重构、sgl-kernel 0.4.1 Bug Fix 5 CUDA graph replay、MoE graph_capture、dp-attention 信息、Llava 子模块、tool_choice 限制反汇编/PD 3 HiSparse 缓存传输、mooncake 清理、qwen3 vl PP CI/Workflow 14 测试套件修复、权限更新、超时调整、kern...

Sglang 代码变更总结 - 2026-04-06

Sglang 代码变更总结 (UTC+8 2026-04-06) 本文总结了 Sglang 项目在 2026年4月6日（UTC+8 0时到24时） main 分支的所有 commit 变更，共计 24 个 commit。总体概览分类 Commit 数量关键变更新模型/模型增强 1 LTX2.3 视频扩散模型性能优化/特性 4 Ngram Spec 外部语料库+后缀自动机、Ngram anchor match state、gfx95 量化格式缓存、TRT-LLM router_logits dtype server_args.py 新增参数 3 --speculative-ngram-external-corpus-path、--speculative-ngram-external-sam-budget、--speculative-ngram-external-corpus-max-tokens 新增环境变量 4 SGLANG_DISAGG_STAGING_BUFFER、SGLANG_DISAGG_STAGING_BUFFER_...