Sglang Main 分支 Commit 总结
统计时间范围:UTC+8 2026-04-11 00:00 ~ 24:00(UTC 2026-04-10 16:00 ~ 2026-04-11 16:00)
Commit 总数:30 个(非 merge commit)
一、新模型支持
| Commit Message |
总结 |
PR 链接 |
| MiniMax-M2.5 - Support dp attention, dp reduce scatter, FP4 all gather, AR fusion in prepare_attn (#20067) |
为 MiniMax-M2.5 模型增加 DP Attention、DP Reduce Scatter、FP4 All Gather 及 AR Fusion 支持 |
PR #20067 |
二、性能优化
| Commit Message |
总结 |
PR 链接 |
| perf: precompute FA3 scheduler_metadata to eliminate per-layer prepare_varlen_num_blocks (#21104) |
预计算 FA3 scheduler_metadata,消除每层的 prepare_varlen_num_blocks 调用 |
PR #21104 |
| perf: enable inductor combo_kernels for horizontal fusion (#21977) |
为横向融合启用 inductor combo_kernels 优化 |
PR #21977 |
| [sgl] improve mamba_track_indices perf in specdec (#22380) |
优化 speculative decoding 中 mamba_track_indices 的性能 |
PR #22380 |
| Reduce GPU memory for MoE parallel groups (#22515) |
减少 MoE 并行组的 GPU 内存占用 |
PR #22515 |
| Add offline auto-tuning for LoRA CSGMV kernel (#20391) |
增加 LoRA CSGMV kernel 的离线自动调优功能 |
PR #20391 |
| cuda graph: adjust capture time num-non-padded-tokens to align capture with replay (#22404) |
调整 cuda graph 捕获时的 num-non-padded-tokens 以对齐捕获与推理阶段 |
PR #22404 |
| [VLM] GPU Image Preprocessing for Kimi-K2.5 (#22368) |
为 Kimi-K2.5 增加 GPU 图像预处理支持,加速 VLM 推理 |
PR #22368 |
三、Bug Fix
| Commit Message |
总结 |
PR 链接 |
| fix: server crash when stop_token_ids contains null (#22175) |
修复 stop_token_ids 包含 null 时导致 server 崩溃的问题 |
PR #22175 |
| Fix tool call constrained decoding and parsing for models with native formats (#21593) |
修复具有原生工具调用格式的模型的 constrained decoding 和解析问题 |
PR #21593 |
| Fix multi_layer_eagle_worker_v2 draft extend selection, add chain style multi layer mtp test (#22340) |
修复 multi_layer_eagle_worker_v2 的 draft extend 选择逻辑,增加 chain style 多层 MTP 测试 |
PR #22340 |
| [sgl] fix using symmetric memory issues for attention_tp (#22286) |
修复 attention_tp 中使用 symmetric memory 的问题 |
PR #22286 |
| [Diffusion][CI] Fix nunchaku unit test broken by #22365 (#22560) |
修复被 #22365 破坏的 nunchaku 单元测试 |
PR #22560 |
| [diffusion] CI: improve readability and fix bug of early-return (#22507) |
修复 diffusion CI 中的 early-return bug 并提升可读性 |
PR #22507 |
| [mem] Fix idle token_usage missing mamba_usage; add FIXME for naming (#22555) |
修复 idle token_usage 缺失 mamba_usage 的问题 |
PR #22555 |
| fix: match est_time updates by backend, not just suite (#22563) |
修复 est_time 更新按 backend 匹配而非仅按 suite 匹配 |
PR #22563 |
四、server_args.py 新增参数
昨日 server_args.py 无新增命令行参数,仅有一处逻辑变更:
| Commit Message |
总结 |
PR 链接 |
| [MUSA][9/N] Add FA3 attention backend support through MATE (MUSA AI Tensor Engine) (#22051) |
MUSA 平台默认 page_size 设为 64(非 MUSA 仍为 1) |
PR #22051 |
五、新增环境变量
| 环境变量 |
类型 |
说明 |
来源 PR |
SGLANG_MUSA_FA3_FORCE_UPDATE_METADATA |
EnvBool(False) |
强制 MUSA FA3 更新 metadata |
PR #22051 |
SGLANG_LORA_CONFIG_DIR |
Path |
LoRA 离线自动调优配置文件目录 |
PR #20391 |
SGLANG_RECORD_STEP_TIME |
EnvBool(已有) |
记录 step 时间(mem 模块新增使用) |
PR #22554 |
六、内存与指标(Metrics/Memory)
| Commit Message |
总结 |
PR 链接 |
| [mem] Introduce PoolStats dataclass; unify pool metrics and token_usage (#22554) |
引入 PoolStats dataclass,统一 pool 指标和 token_usage 统计 |
PR #22554 |
[metrics] Add PoolStats.update_scheduler_stats to deduplicate metrics assignment (#22559) |
增加 PoolStats.update_scheduler_stats 方法以去重指标赋值 |
PR #22559 |
七、Tokenizer 与 Serving
| Commit Message |
总结 |
PR 链接 |
| [tokenizer] improve non streaming request processing + some small fixes. (#20310) |
改进非流式请求处理逻辑,包含多项小修复 |
PR #20310 |
八、分布式与通信
| Commit Message |
总结 |
PR 链接 |
| [sgl] _ATTN_TP and _ATTN_CP use message queue for broadcast on CPU (#22205) |
_ATTN_TP 和 _ATTN_CP 在 CPU 上使用消息队列进行 broadcast |
PR #22205 |
九、CI / 基础设施
| Commit Message |
总结 |
PR 链接 |
| [CI] Add GB200 nightly perf regression pipeline (#22461) |
增加 GB200 夜间性能回归测试流水线 |
PR #22461 |
| feat: add weekly workflow to update CI test est_time values (#22545) |
增加每周自动更新 CI 测试 est_time 值的 workflow |
PR #22545 |
| chore: update CI test est_time values (#22565) |
更新 CI 测试 est_time 值(250 个文件) |
PR #22565 |
| fix: track est_time per suite instead of per backend (#22557) |
改为按 suite 而非 backend 追踪 est_time |
PR #22557 |
| [misc] update CI_PERMISSIONS.json (#22570) |
更新 CI_PERMISSIONS.json 权限配置 |
PR #22570 |
| Update CI_PERMISSIONS.json (#22465) |
更新 CI_PERMISSIONS.json 权限配置 |
PR #22465 |
| Remove redundant test_page_size.py (#22571) |
移除冗余的 test_page_size.py 测试文件 |
PR #22571 |
十、其他平台支持
| Commit Message |
总结 |
PR 链接 |
| [MUSA][9/N] Add FA3 attention backend support through MATE (MUSA AI Tensor Engine) (#22051) |
摩尔线程 MUSA 平台增加 FA3 attention backend 支持(913 行新增) |
PR #22051 |
| [AMD] Upgrade Aiter (#22264) |
升级 AMD Aiter 依赖版本 |
PR #22264 |
十一、其他
| Commit Message |
总结 |
PR 链接 |
| feat: update ModelExpress metadata API to SourceIdentity-based schema (#21222) |
更新 ModelExpress metadata API 为基于 SourceIdentity 的 schema |
PR #21222 |
重点关注摘要
新模型
- MiniMax-M2.5:增加 DP Attention、FP4 All Gather 等高级特性支持
性能优化
- FA3 scheduler_metadata 预计算,减少 per-layer 开销
- inductor combo_kernels 用于横向融合
- LoRA CSGMV kernel 离线自动调优
- MoE 并行组 GPU 内存优化
- Kimi-K2.5 GPU 图像预处理
Bug Fix
- stop_token_ids 含 null 时 server 崩溃修复
- 工具调用 constrained decoding 修复
- multi_layer_eagle_worker_v2 draft extend 修复
- symmetric memory for attention_tp 修复
server_args.py 变更
- MUSA 平台默认 page_size 设为 64
新增环境变量
SGLANG_MUSA_FA3_FORCE_UPDATE_METADATA:强制 MUSA FA3 更新 metadata
SGLANG_LORA_CONFIG_DIR:LoRA 离线调优配置目录