vLLM 0.20 与 DeepSeek V4 推动推理系统进入 kernel 与硬件竞赛
Inference Systems, vLLM 0.20, and the Hardware/Kernel Race Around DeepSeek V4
AINews 今日最有价值的信息集中在推理系统:vLLM 0.20.0 发布了一组面向内存、MoE serving 和硬件适配的更新,同时 SemiAnalysis 提到 DeepSeek V4 Pro 在 B200、B300、H200、GB200 等部署形态上的早期 serving 结果,显示大模型竞争正在快速转向推理效率、kernel 融合和硬件平台适配。
这条值得作为今日精读,因为它反映了 AI infra 的一个清晰变化:模型发布仍重要,但真正决定 builder 成本、延迟和可用性的,越来越是推理系统。vLLM 0.20.0 的重点不是单一功能,而是一组围绕内存与 MoE serving 效率的工程更新,包括 TurboQuant 2-bit KV cache,将 KV 容量提升到 4 倍;在 SM90+ 上重新启用面向 MLA prefill 的 FA4;引入新的 vLLM IR 基础;用 fused RMSNorm 带来报告中的 2.1% 端到端延迟改善;并扩展 DeepSeek V4 MegaMoE on Blackwell、Jetson Thor、ROCm、Intel XPU,以及 GB200/Grace-Blackwell 的部署支持。与此同时,SemiAnalysis 提到 DeepSeek V4 Pro 在 B200、B300、H200、GB200 分离式部署上的早期 serving 结果,其中 B300 在该工作负载上被称最高可比 H200 快 8 倍。更关键的是,后续 vLLM 0.20 benchmark 会涉及 DeepGEMM MegaMoE,把 EP dispatch、EP combine、GEMMs、SwiGLU 融合到一个 mega-kernel。邮件还提到几个推理取舍:DeepSeek V4 支持 prefill,而一些服务商已经放弃相关能力;动态 activation quantization 有额外开销,静态量化虽然需要校准,但在推理速度上常常更有优势;还有观点认为 DeepSeek 正通过 TileKernels 等方向降低 CUDA 绑定,适配异构或本土加速器集群。对开发者来说,这意味着未来选模型不能只看榜单,还要看模型结构、KV cache、prefill、量化方式、kernel 支持和目标硬件是否匹配。
推理成本和延迟正在成为 AI 产品商业化的核心变量。vLLM、DeepSeek、Blackwell/GB200、量化和 kernel 融合这些线索合在一起,说明 infra 层的优化会直接改变哪些模型可被大规模、低成本地服务。
Builder 在选型时需要更早考虑 serving stack,而不是等模型接入后再优化。开源推理框架和硬件适配能力可能成为中小团队降低成本、避免供应商锁定的重要杠杆。
- 01vLLM 0.20.0 引入 TurboQuant 2-bit KV cache,宣称可带来 4 倍 KV 容量。
- 02vLLM 更新包含 FA4 for MLA prefill、vLLM IR、fused RMSNorm,以及多硬件平台支持。
- 03SemiAnalysis 提到 DeepSeek V4 Pro 在 B300 上针对特定 serving 工作负载最高可比 H200 快 8 倍。
- 04DeepGEMM MegaMoE 方向是把 MoE dispatch、combine、GEMM、SwiGLU 等步骤融合进单个 mega-kernel。
- 05动态 activation quantization 可能带来额外开销,静态量化在推理速度上常常更有优势。
- 06DeepSeek 相关讨论显示,模型与推理栈可能会越来越重视异构硬件,而不是只围绕 CUDA 优化。
- — 评估模型时,应同时问:它在目标硬件上的 serving 数据是否足够明确?
- — KV cache、prefill、MoE dispatch 这些底层细节,会如何影响长上下文和 agent 工作负载成本?
- — 开源推理框架的硬件适配,是否会削弱单一云厂商或单一 GPU 平台的锁定效应?
- — 所谓 benchmark 加速是否只适用于特定模型结构和部署拓扑,需要继续观察。
Poolside 发布开源权重编程模型 Laguna XS.2
Poolside 发布首个公开模型 Laguna XS.2,这是一个 33B 总参数、3B active 的 MoE 编程模型,采用 Apache 2.0 许可,官方强调可以在单张 GPU 上运行。Poolside 同时还发布了 Laguna M.1 和 agent harness,并强调模型从数据、训练基础设施、RL 到推理栈均为自研。
编程模型仍是 AI builder 最直接可用的模型类别之一。Poolside 选择开放权重、Apache 2.0 和单卡部署叙事,说明开源代码模型竞争正在同时围绕性能、许可和部署门槛展开。
- — Laguna XS.2 是 33B total、3B active 的 MoE coding model。
- — 模型以 Apache 2.0 发布,官方称可在单张 GPU 上运行。
- — Poolside 同时强调自研数据、训练 infra、RL 和 inference stack。
AINews 称当天新闻较少,但列出几个模型发布观察点
AINews 在开头说明当天没有特别大的行业事件,但提到 NVIDIA Nemotron、Poolside 和 Alec Radford 相关模型发布值得关注,同时认为这些发布是否能经受时间检验还不清楚。邮件还提到 GPT-6 相关 hype 已经开始出现,但没有提供更多细节。
这类“弱信号”适合放入观察清单,而不是立即作为决策依据。它提醒读者关注模型发布节奏和社区预期变化。
- — 当天被 AINews 判断为没有太多大事发生。
- — NVIDIA Nemotron、Poolside、Alec Radford 相关模型发布被点名。
- — GPT-6 预期开始升温,但正文缺少具体事实。