顶流里最快！智谱发布 GLM-5.1-highspeed，输出达 400 tokens/s

来源：量子位（公众号 QbitAI）· 2026 年 5 月 22 日 1

智谱今天放出一个高速版 API——GLM-5.1-highspeed，输出速度达到 400 tokens/s，是目前旗舰模型 API 里跑得最快的。

速度带来什么体验变化

之前 AI 写代码像 CPU 渲图，一个字一个字往外蹦；高速版更像是 GPU 渲染，思考十几秒后整段代码一口气输出。实测中，一个包含前端结构、Canvas 动画、状态管理和交互逻辑的复杂页面，从 prompt 到可用代码仅需一次生成。

项目迭代环节，模糊指令如「波纹再快一点」「光晕偏暖一些」「粒子散开柔一点」，模型能准确理解意图并快速调整。400 tokens/s 带来的低延迟，让人和 AI 的协作从「一次性下单」变成了「来回打磨」。

实测让模型当「游戏导演」——下雪、下雨、爆炸等实时指令，模型能立刻理解游戏状态并修改代码改变世界。虽然稳定性、安全边界等工程问题还在路上，但速度维度上，这类想象已经不再只停在 PPT 里。

用一个涵盖海报标题、短视频文案、官网宣传语、公众号文案和 JSON 汇总的综合任务测试，GLM-5.1-highspeed 只花 10 秒就全部完成，且输出质量到位。

这个速度不是模型变小了，而是系统工程优化的结果。智谱 GLM 团队与 TileRT 团队联合，在三个层面做了优化：

TileRT 的思路是把推理调度单元下沉到 tile 级别，通过编译期静态编排和常驻 GPU 的 persistent Engine Kernel，压缩调度、搬运与同步开销。更通俗地理解——过去像一群工人每搬一块砖都要等工头发命令，现在路线、分工、节奏提前排好，工人持续在工地流水线协作。

国产大模型 API 的竞争，正在从「能不能答得好」，推进到「能不能又快又稳地干活」。GLM-5.1-highspeed 的意义在于，当旗舰模型能力和高速推理系统叠在一起，AI Agent 的体验会出现一个直观的变化：等待变少，反馈变密，任务推进更连续。

当然速度不能神化。400 tokens/s 需要在更多任务、更多时段、更多并发条件下持续验证。但至少趋势明确了。

本文内容源自量子位公众号原创报道，点击原文阅读完整版含动图实测。