顶流里最快!智谱发布 GLM-5.1-highspeed,输出达 400 tokens/s
智谱今天推出高速版 API GLM-5.1-highspeed,输出速度 400 tokens/s,是目前旗舰模型 API 中最快的。实测显示写代码、实时协作、内容处理等场景体验大幅提升。
来源:量子位(公众号 QbitAI)· 2026 年 5 月 22 日 1
智谱今天放出一个高速版 API——GLM-5.1-highspeed,输出速度达到 400 tokens/s,是目前旗舰模型 API 里跑得最快的。
速度带来什么体验变化
代码生成:从「逐行渲染」到「一口气喷出」
之前 AI 写代码像 CPU 渲图,一个字一个字往外蹦;高速版更像是 GPU 渲染,思考十几秒后整段代码一口气输出。实测中,一个包含前端结构、Canvas 动画、状态管理和交互逻辑的复杂页面,从 prompt 到可用代码仅需一次生成。

实时协作:更像跟设计师坐同一块画布
项目迭代环节,模糊指令如「波纹再快一点」「光晕偏暖一些」「粒子散开柔一点」,模型能准确理解意图并快速调整。400 tokens/s 带来的低延迟,让人和 AI 的协作从「一次性下单」变成了「来回打磨」。

游戏级实时响应
实测让模型当「游戏导演」——下雪、下雨、爆炸等实时指令,模型能立刻理解游戏状态并修改代码改变世界。虽然稳定性、安全边界等工程问题还在路上,但速度维度上,这类想象已经不再只停在 PPT 里。
内容处理:10 秒读完万字
用一个涵盖海报标题、短视频文案、官网宣传语、公众号文案和 JSON 汇总的综合任务测试,GLM-5.1-highspeed 只花 10 秒就全部完成,且输出质量到位。
400 tokens/s 怎么做到的
这个速度不是模型变小了,而是系统工程优化的结果。智谱 GLM 团队与 TileRT 团队联合,在三个层面做了优化:
- 推理引擎:针对 GLM-5.1 架构重写核心推理路径
- 调度系统:动态批处理、请求合并、KV 缓存调度降低尾延迟
- 基础设施:推理集群部署、网络链路和负载均衡协同优化
TileRT 的思路是把推理调度单元下沉到 tile 级别,通过编译期静态编排和常驻 GPU 的 persistent Engine Kernel,压缩调度、搬运与同步开销。更通俗地理解——过去像一群工人每搬一块砖都要等工头发命令,现在路线、分工、节奏提前排好,工人持续在工地流水线协作。
一点判断
国产大模型 API 的竞争,正在从「能不能答得好」,推进到「能不能又快又稳地干活」。GLM-5.1-highspeed 的意义在于,当旗舰模型能力和高速推理系统叠在一起,AI Agent 的体验会出现一个直观的变化:等待变少,反馈变密,任务推进更连续。
当然速度不能神化。400 tokens/s 需要在更多任务、更多时段、更多并发条件下持续验证。但至少趋势明确了。
本文内容源自量子位公众号原创报道,点击原文阅读完整版含动图实测。

围绕这条内容继续补充观点或上下文。