量子位新品速递｜第6期：AI自造框架超越英伟达、快手Keye2.0多模态升级、小鹏机器人学物理

本期汇总量子位 5 月 26 日报道的 3 款科技新品：面壁智能发布全球首例 AI 自造 AI——AI 写出的预训练框架超越英伟达 Megatron，快手 Keye2.0 将 DSA 稀疏注意力首次引入多模态领域，小鹏机器人等团队提出 DIAL 框架让机器人学会"物理直觉"。

面壁智能：AI 自己写出预训练框架，1B 模型超越 2B 级别

造 AI 这件事，主角换成了 AI。

面壁智能发布了ForgeTrain——全球首个完全由 AI 编写的生产级大模型预训练框架，在相同硬件条件下训练速度比英伟达 Megatron 快 10%，在华为昇腾上也有 10%的加速。1

ForgeTrain 训练出的端侧模型MiniCPM5-1B，以 1B 参数规模在 AA-Index 上超越了所有 2B 参数以下模型。相比 3 个月前发布的 Qwen3.5-2B，参数量减半、效果更优。FP16 精度下权重约 2GB，INT4/Q4 精度约 0.5GB，可面向手机、平板、车机等设备。

在应用场景上，面壁智能展示了 MiniCPM5-1B 作为桌面 AI 桌宠的能力——常驻电脑桌面，实时聊天、自主接话、自定义人格。推理侧支持 SGLang、vLLM、llama.cpp、Ollama 等主流框架，微调侧支持 LLaMA-Factory、ms-swift。

面壁智能将 AI 制造 AI 分为 L1 到 L5 五个阶段，ForgeTrain 对应 L3-L4——AI 已进入大模型研发最核心的基础设施层。ForgeTrain 的构建采用三阶段方法论：从现有框架采集关键数据形成评测标准，构建二进制一致的版本，再迭代优化超越参考实现。

MiniCPM5-1B 已全面开源，ForgeTrain 也已上线 GitHub。

AI 神经网络与深度学习概念图 — AI 基础框架的突破——AI 编写的预训练框架进入大模型最核心的基础设施层 1

快手 Keye2.0：DSA 注意力首次落地多模态，256K 超长视频理解

快手发布了新版多模态大模型Keye-VL-2.0-30B-A3B，首次将 DeepSeek Sparse Attention（DSA）机制引入多模态理解场景。2

DSA 的核心价值在于突破长视频理解的计算瓶颈。传统 Full Attention 在视频序列拉长时计算量指数级上升，而 Keye2.0 的 Decode 成本曲线保持平缓增长。模型实现了256K 超长上下文的深度感知，输入帧数从 64 帧扩展到 512 帧时，平均准确率逆势从 35.34%升至 42.44%。

在 TimeLens 时序理解基准测试中，Keye2.0 表现突出：

日常动作时序解析（Charades-TimeLens）：mIoU 达 58.27，对标 Gemini 3 Flash 的 61.19
视频动作定位（ActivityNet-TimeLens）：58.54，超越 Gemini 3 Flash（56.95）
高光时刻提取（QVHighlights-TimeLens）：69.92，大幅领先 Gemini 3 Flash（49.45）

Keye2.0 还首次内建了Agent 协作机制，打通了"感知-规划-执行"全链路。在 SWE-bench Verified 任务中跑通 62.00 基线成绩，TAU2-Bench 工具调用得分 82.58，跨尺寸建立显著优势。

后训练阶段引入的Context-RL 奖励机制利用混合模态参考信息构建稠密奖励信号，压制多步推理中的幻觉倾向。

未来感人形机器人特写 — 从多模态感知到具身执行——具身智能技术正在加速从仿真走向真实场景 3

小鹏机器人 DIAL：让 VLM 在隐式空间"预演"物理世界

香港大学、小鹏机器人及北卡罗来纳大学教堂山分校的研究团队提出了DIAL（Decoupling Intent and Action via Latent World Modeling）框架，让 VLM 在自己原生的特征空间里做隐式世界建模。3

DIAL 借鉴认知科学的双系统理论：

System-2（大脑） 接收当前观测画面和语言指令后，预测任务完成后的隐式视觉特征——不生成像素，而是在 VLM 原生的 ViT 空间中完成。System-1（小脑） 作为轻量级的隐式逆动力学模型，对比当前与预测的特征，计算出实现状态转移所需的精确动作指令。

训练采用两阶段策略：先解耦预热让两个系统各自独立学习，再端到端协同优化——动作执行误差回传至 VLM，促使预测的特征真正服务于下游执行。

在 RoboCasa 仿真基准测试中，DIAL 取得**70.2%**的平均任务成功率。少样本设置下仅用 10%数据即达 58.3%成功率，击败全量数据训练的最优基线方法，数据效率大幅领先。

研究团队将 DIAL 部署到小鹏 IRON-R01-1.11 人形机器人上，验证了抓放、倒水、双手交接与放置等复杂任务。在长程多阶段任务中，隐式意图为机器人提供了清晰的"视觉路线图"，避免了传统模型容易出现的动作死循环——比如垃圾已扫入簸箕后仍重复清扫。

跨具身人类数据的融入让泛化能力进一步提升：抓取未见过的异形瓶子时，去除人类数据的版本成功率从 60%骤降至 10%。

项目主页和代码均已在 GitHub 开源。

本期 3 款新品覆盖了 AI 基础框架、多模态理解和具身智能三大前沿方向。面壁智能用 AI 造 AI 的效率思路，快手 DSA 架构对长视频理解的突破，以及 DIAL 让机器人在原生特征空间做物理预演的范式，各自在各自的赛道上给出了有说服力的技术解法。

发布日期：2026 年 5 月 26 日