Sglang 每日 Commit 总结
Sglang Main 分支 Commit 总结统计时间范围:UTC+8 2026-04-11 00:00 ~ 24:00(UTC 2026-04-10 16:00 ~ 2026-04-11 16:00) Commit 总数:30 个(非 merge commit) 一、新模型支持 Commit Message 总结 PR 链接 MiniMax-M2.5 - Support dp attention, dp reduce scatter, FP4 all gather, AR fusion in prepare_attn (#20067) 为 MiniMax-M2.5 模型增加 DP Attention、DP Reduce Scatter、FP4 All Gather 及 AR Fusion 支持 PR #20067 二、性能优化 Commit Message 总结 PR 链接 perf: precompute FA3 scheduler_metadata to eliminate per-layer prepare_varlen_num_blocks...
SGLang 每日 Commit 总结 - 2026-04-10
SGLang 每日 Commit 总结 (UTC+8 2026-04-10)昨日 main 分支共产生 40 个 commit,涵盖模型支持、性能优化、Bug 修复、CI/CD、Docker 优化等多个方面。 一、新模型 / 新特性 Commit Message 总结 PR 链接 [EPD][VLM] Support Kimi K25 EPD (#22269) 支持 Kimi K25 的 EPD(Encode Prefill Disaggregation),扩展 VLM disaggregation 到 Kimi 系列模型 PR #22269 [feature] asr: add chunk-based streaming ASR for Qwen3-ASR (#22089) 为 Qwen3-ASR 添加基于 chunk 的流式语音识别(ASR)支持 PR #22089 Enable DFLASH support for additional model backends (#22358) 为 DeepSeekV2、GPT-OSS、Kim...
SGLang 每日 Commit 总结 - 2026-04-09
SGLang Main Branch Commit 总结日期: 2026-04-09 (UTC+8)Commit 总数: 41 个代码变更: 206 个文件,+17272/-2562 行 一、重点关注:新模型支持1.1 扩散模型 (Diffusion) Commit Message 总结 PR 链接 [diffusion] feat: support FLUX.2-small-decoder (#22414) 为 FLUX.2-small-decoder 添加支持,更新兼容性矩阵和 VAE 配置 PR #22414 1.2 视觉语言模型 (VLM) Commit Message 总结 PR 链接 [Feature] Support eagle3 for qwen3-vl (#22230) 为 Qwen3-VL 视觉语言模型添加 Eagle3 投机解码支持,仅修改 1 个文件 +24 行 PR #22230 1.3 语音识别模型 (ASR) Commit Message 总结 PR 链接 [refactor] [asr] add t...
SGLang Main 分支每日变更总结 2026-04-08
SGLang Main 分支每日变更总结 (2026-04-08)概述北京时间 2026 年 4 月 8 日 00:00 ~ 24:00,SGLang main 分支共有 38 次提交。主要变更涵盖:DFLASH 推测解码新功能、HTTP/2 服务器支持、Score API 扩展支持 SequenceClassification 模型、多项性能优化,以及跨 NVIDIA/AMD/NPU 平台的 bug 修复。 一、新模型与新功能1.1 DFLASH 推测解码支持DFLASH 是一种全新的推测解码算法,使用小型 draft model 捕获 target model 的辅助隐藏状态来高效生成草稿 token。Draft model 不包含 token embedding 或 LM head(复用 target model 的),引入了专用的 worker、Triton kernel 以及与 scheduler、cuda graph runner、flashinfer backend 的深度集成。 Commit Message 总结 PR 链接 ...
SGLang 每日 Commit 总结 (2026-04-07)
SGLang Main Branch 每日 Commit 总结 (2026-04-07) 统计时间范围:UTC+8 2026-04-07 00:00 ~ 24:00共统计 30 个 commit,涉及 81 个文件变更 一、新模型支持昨日新增了以下模型的支持: Commit Message 总结 PR 链接 [New Model] Gemma 4 (#21952) 新增 Google Gemma 4 模型支持,包括模型定义、MoE 配置、函数调用检测器等 PR #21952 model: support qwen3-asr (#22073) 新增 Qwen3-ASR 语音识别模型支持,包含模型配置、处理器和转录服务 PR #22073 二、性能优化 Commit Message 总结 PR 链接 [Perf] Restore torch.compile fusion for topk postprocessing (#21771) 恢复 topk 后处理的 torch.compile 融合优化,提升 MoE 路由性能 PR #21771 [...
Sglang 代码变更总结 - 2026-04-02
Sglang 代码变更总结 (UTC+8 2026-04-02) 本文总结了 Sglang 项目在 2026年4月2日(UTC+8 0时到24时) main 分支的所有 commit 变更,共计 41 个 commit。 总体概览 分类 Commit 数量 关键变更 新模型/模型增强 3 GLM-4.7-Flash(NPU)、MiMo-V2-Flash reasoning parser、MiniMax-M2.5 FP8 MoE 性能优化/Kernel 7 融合 temperature+softmax sampling、ngram corpus 迁移到 TVM FFI、trtllm sparse MLA kernel、NSA trtllm 默认(Blackwell)、DSA trtllm default、flashinfer_trtllm mxfp8 gemm、多线程权重加载默认启用 Bug Fix 6 spec_v2+logprob、multi tool streaming、PCG torch dynamo recompile、tokeni...
Sglang 代码变更总结 - 2026-04-06
Sglang 代码变更总结 (UTC+8 2026-04-06) 本文总结了 Sglang 项目在 2026年4月6日(UTC+8 0时到24时) main 分支的所有 commit 变更,共计 24 个 commit。 总体概览 分类 Commit 数量 关键变更 新模型/模型增强 1 LTX2.3 视频扩散模型 性能优化/特性 4 Ngram Spec 外部语料库+后缀自动机、Ngram anchor match state、gfx95 量化格式缓存、TRT-LLM router_logits dtype server_args.py 新增参数 3 --speculative-ngram-external-corpus-path、--speculative-ngram-external-sam-budget、--speculative-ngram-external-corpus-max-tokens 新增环境变量 4 SGLANG_DISAGG_STAGING_BUFFER、SGLANG_DISAGG_STAGING_BUFFER_...
Sglang 代码变更总结 - 2026-04-05
Sglang 代码变更总结 (UTC+8 2026-04-05) 本文总结了 Sglang 项目在 2026年4月5日(UTC+8 0时到24时) main 分支的所有 commit 变更,共计 23 个 commit。 总体概览 分类 Commit 数量 关键变更 新模型 1 Voxtral 语音转文本模型 性能优化/特性 4 DeepSeek V3.2 IndexCache、AMD MLA FP8(Kimi K2.5)、Flux 2 精度修复、diffusion float64 平台支持 Bug Fix 3 Hi-MambaRadixTree 不变量违例、PD staging warmup、f-string 缺失前缀 server_args.py 新增参数 0 无 新增环境变量 0 无 CI/Workflow/工具 5 CI auto-bisect 工作流、failfast 标志、夜间测试修复、reasoning 测试整合、auto benchmark 暂停 Speculative Decoding 2 Spe...
Sglang 代码变更总结 - 2026-04-04
Sglang 代码变更总结 (UTC+8 2026-04-04) 本文总结了 Sglang 项目在 2026年4月4日(UTC+8 0时到24时) main 分支的所有 commit 变更,共计 38 个 commit。 总体概览 分类 Commit 数量 关键变更 新模型/模型增强 4 LFM2-VL 视觉语言模型、Reasoning Tokens Usage、Score API、GLM-4.7 加载格式 性能优化/Kernel 8 LoRA CUDA Graph、FA4 Speculative Decoding、VLM Chunk-aware ViT、NVFP4 CUTLASS 默认、DSV3 router GEMM 基准、norm fusion、flashinfer 0.6.7.post2、kernel 0.4.1 Bug Fix 6 killall_sglang、spec decoding flaky test、mistral embedding 回归、XGrammarBackend reset、DP attention IPv6、...
Sglang 代码变更总结 - 2026-04-03
Sglang 代码变更总结 (UTC+8 2026-04-03) 本文总结了 Sglang 项目在 2026年4月3日(UTC+8 0时到24时) main 分支的所有 commit 变更,共计 46 个 commit。 总体概览 分类 Commit 数量 关键变更 新模型/模型增强 6 Transformers 新后端、NVFP4 Marlin 回退、GPT-OSS 20B LoRA、MOVA(NPU)、VLM 多模态拆分 性能优化/Kernel 9 JIT Activation、FP8 NSA(AMD)、GLM4.7(NPU)、并行状态重构、sgl-kernel 0.4.1 Bug Fix 5 CUDA graph replay、MoE graph_capture、dp-attention 信息、Llava 子模块、tool_choice 限制 反汇编/PD 3 HiSparse 缓存传输、mooncake 清理、qwen3 vl PP CI/Workflow 14 测试套件修复、权限更新、超时调整、kern...