Sglang Main 分支 Commit 总结

统计时间范围:UTC+8 2026-04-11 00:00 ~ 24:00(UTC 2026-04-10 16:00 ~ 2026-04-11 16:00)

Commit 总数:30 个(非 merge commit)


一、新模型支持

Commit Message 总结 PR 链接
MiniMax-M2.5 - Support dp attention, dp reduce scatter, FP4 all gather, AR fusion in prepare_attn (#20067) 为 MiniMax-M2.5 模型增加 DP Attention、DP Reduce Scatter、FP4 All Gather 及 AR Fusion 支持 PR #20067

二、性能优化

Commit Message 总结 PR 链接
perf: precompute FA3 scheduler_metadata to eliminate per-layer prepare_varlen_num_blocks (#21104) 预计算 FA3 scheduler_metadata,消除每层的 prepare_varlen_num_blocks 调用 PR #21104
perf: enable inductor combo_kernels for horizontal fusion (#21977) 为横向融合启用 inductor combo_kernels 优化 PR #21977
[sgl] improve mamba_track_indices perf in specdec (#22380) 优化 speculative decoding 中 mamba_track_indices 的性能 PR #22380
Reduce GPU memory for MoE parallel groups (#22515) 减少 MoE 并行组的 GPU 内存占用 PR #22515
Add offline auto-tuning for LoRA CSGMV kernel (#20391) 增加 LoRA CSGMV kernel 的离线自动调优功能 PR #20391
cuda graph: adjust capture time num-non-padded-tokens to align capture with replay (#22404) 调整 cuda graph 捕获时的 num-non-padded-tokens 以对齐捕获与推理阶段 PR #22404
[VLM] GPU Image Preprocessing for Kimi-K2.5 (#22368) 为 Kimi-K2.5 增加 GPU 图像预处理支持,加速 VLM 推理 PR #22368

三、Bug Fix

Commit Message 总结 PR 链接
fix: server crash when stop_token_ids contains null (#22175) 修复 stop_token_ids 包含 null 时导致 server 崩溃的问题 PR #22175
Fix tool call constrained decoding and parsing for models with native formats (#21593) 修复具有原生工具调用格式的模型的 constrained decoding 和解析问题 PR #21593
Fix multi_layer_eagle_worker_v2 draft extend selection, add chain style multi layer mtp test (#22340) 修复 multi_layer_eagle_worker_v2 的 draft extend 选择逻辑,增加 chain style 多层 MTP 测试 PR #22340
[sgl] fix using symmetric memory issues for attention_tp (#22286) 修复 attention_tp 中使用 symmetric memory 的问题 PR #22286
[Diffusion][CI] Fix nunchaku unit test broken by #22365 (#22560) 修复被 #22365 破坏的 nunchaku 单元测试 PR #22560
[diffusion] CI: improve readability and fix bug of early-return (#22507) 修复 diffusion CI 中的 early-return bug 并提升可读性 PR #22507
[mem] Fix idle token_usage missing mamba_usage; add FIXME for naming (#22555) 修复 idle token_usage 缺失 mamba_usage 的问题 PR #22555
fix: match est_time updates by backend, not just suite (#22563) 修复 est_time 更新按 backend 匹配而非仅按 suite 匹配 PR #22563

四、server_args.py 新增参数

昨日 server_args.py 无新增命令行参数,仅有一处逻辑变更:

Commit Message 总结 PR 链接
[MUSA][9/N] Add FA3 attention backend support through MATE (MUSA AI Tensor Engine) (#22051) MUSA 平台默认 page_size 设为 64(非 MUSA 仍为 1) PR #22051

五、新增环境变量

环境变量 类型 说明 来源 PR
SGLANG_MUSA_FA3_FORCE_UPDATE_METADATA EnvBool(False) 强制 MUSA FA3 更新 metadata PR #22051
SGLANG_LORA_CONFIG_DIR Path LoRA 离线自动调优配置文件目录 PR #20391
SGLANG_RECORD_STEP_TIME EnvBool(已有) 记录 step 时间(mem 模块新增使用) PR #22554

六、内存与指标(Metrics/Memory)

Commit Message 总结 PR 链接
[mem] Introduce PoolStats dataclass; unify pool metrics and token_usage (#22554) 引入 PoolStats dataclass,统一 pool 指标和 token_usage 统计 PR #22554
[metrics] Add PoolStats.update_scheduler_stats to deduplicate metrics assignment (#22559) 增加 PoolStats.update_scheduler_stats 方法以去重指标赋值 PR #22559

七、Tokenizer 与 Serving

Commit Message 总结 PR 链接
[tokenizer] improve non streaming request processing + some small fixes. (#20310) 改进非流式请求处理逻辑,包含多项小修复 PR #20310

八、分布式与通信

Commit Message 总结 PR 链接
[sgl] _ATTN_TP and _ATTN_CP use message queue for broadcast on CPU (#22205) _ATTN_TP 和 _ATTN_CP 在 CPU 上使用消息队列进行 broadcast PR #22205

九、CI / 基础设施

Commit Message 总结 PR 链接
[CI] Add GB200 nightly perf regression pipeline (#22461) 增加 GB200 夜间性能回归测试流水线 PR #22461
feat: add weekly workflow to update CI test est_time values (#22545) 增加每周自动更新 CI 测试 est_time 值的 workflow PR #22545
chore: update CI test est_time values (#22565) 更新 CI 测试 est_time 值(250 个文件) PR #22565
fix: track est_time per suite instead of per backend (#22557) 改为按 suite 而非 backend 追踪 est_time PR #22557
[misc] update CI_PERMISSIONS.json (#22570) 更新 CI_PERMISSIONS.json 权限配置 PR #22570
Update CI_PERMISSIONS.json (#22465) 更新 CI_PERMISSIONS.json 权限配置 PR #22465
Remove redundant test_page_size.py (#22571) 移除冗余的 test_page_size.py 测试文件 PR #22571

十、其他平台支持

Commit Message 总结 PR 链接
[MUSA][9/N] Add FA3 attention backend support through MATE (MUSA AI Tensor Engine) (#22051) 摩尔线程 MUSA 平台增加 FA3 attention backend 支持(913 行新增) PR #22051
[AMD] Upgrade Aiter (#22264) 升级 AMD Aiter 依赖版本 PR #22264

十一、其他

Commit Message 总结 PR 链接
feat: update ModelExpress metadata API to SourceIdentity-based schema (#21222) 更新 ModelExpress metadata API 为基于 SourceIdentity 的 schema PR #21222

重点关注摘要

新模型

  • MiniMax-M2.5:增加 DP Attention、FP4 All Gather 等高级特性支持

性能优化

  • FA3 scheduler_metadata 预计算,减少 per-layer 开销
  • inductor combo_kernels 用于横向融合
  • LoRA CSGMV kernel 离线自动调优
  • MoE 并行组 GPU 内存优化
  • Kimi-K2.5 GPU 图像预处理

Bug Fix

  • stop_token_ids 含 null 时 server 崩溃修复
  • 工具调用 constrained decoding 修复
  • multi_layer_eagle_worker_v2 draft extend 修复
  • symmetric memory for attention_tp 修复

server_args.py 变更

  • MUSA 平台默认 page_size 设为 64

新增环境变量

  • SGLANG_MUSA_FA3_FORCE_UPDATE_METADATA:强制 MUSA FA3 更新 metadata
  • SGLANG_LORA_CONFIG_DIR:LoRA 离线调优配置目录