量子位新品速递|第6期:AI自造框架超越英伟达、快手Keye2.0多模态升级、小鹏机器人学物理
本期收录3款量子位5月26日报道的科技新品:面壁智能全球首例AI自造AI——ForgeTrain预训练框架超越英伟达Megatron,MiniCPM5-1B端侧模型以1B参数超2B级别;快手Keye2.0多模态大模型首次引入DSA注意力,256K上下文长视频理解SOTA;小鹏机器人等团队提出DIAL框架,让VLM在原生特征空间做隐式世界建模。
本期汇总量子位 5 月 26 日报道的 3 款科技新品:面壁智能发布全球首例 AI 自造 AI——AI 写出的预训练框架超越英伟达 Megatron,快手 Keye2.0 将 DSA 稀疏注意力首次引入多模态领域,小鹏机器人等团队提出 DIAL 框架让机器人学会"物理直觉"。
面壁智能:AI 自己写出预训练框架,1B 模型超越 2B 级别
造 AI 这件事,主角换成了 AI。
面壁智能发布了ForgeTrain——全球首个完全由 AI 编写的生产级大模型预训练框架,在相同硬件条件下训练速度比英伟达 Megatron 快 10%,在华为昇腾上也有 10%的加速。1
ForgeTrain 训练出的端侧模型MiniCPM5-1B,以 1B 参数规模在 AA-Index 上超越了所有 2B 参数以下模型。相比 3 个月前发布的 Qwen3.5-2B,参数量减半、效果更优。FP16 精度下权重约 2GB,INT4/Q4 精度约 0.5GB,可面向手机、平板、车机等设备。
在应用场景上,面壁智能展示了 MiniCPM5-1B 作为桌面 AI 桌宠的能力——常驻电脑桌面,实时聊天、自主接话、自定义人格。推理侧支持 SGLang、vLLM、llama.cpp、Ollama 等主流框架,微调侧支持 LLaMA-Factory、ms-swift。
面壁智能将 AI 制造 AI 分为 L1 到 L5 五个阶段,ForgeTrain 对应 L3-L4——AI 已进入大模型研发最核心的基础设施层。ForgeTrain 的构建采用三阶段方法论:从现有框架采集关键数据形成评测标准,构建二进制一致的版本,再迭代优化超越参考实现。
MiniCPM5-1B 已全面开源,ForgeTrain 也已上线 GitHub。

快手 Keye2.0:DSA 注意力首次落地多模态,256K 超长视频理解
快手发布了新版多模态大模型Keye-VL-2.0-30B-A3B,首次将 DeepSeek Sparse Attention(DSA)机制引入多模态理解场景。2
DSA 的核心价值在于突破长视频理解的计算瓶颈。传统 Full Attention 在视频序列拉长时计算量指数级上升,而 Keye2.0 的 Decode 成本曲线保持平缓增长。模型实现了256K 超长上下文的深度感知,输入帧数从 64 帧扩展到 512 帧时,平均准确率逆势从 35.34%升至 42.44%。
在 TimeLens 时序理解基准测试中,Keye2.0 表现突出:
- 日常动作时序解析(Charades-TimeLens):mIoU 达 58.27,对标 Gemini 3 Flash 的 61.19
- 视频动作定位(ActivityNet-TimeLens):58.54,超越 Gemini 3 Flash(56.95)
- 高光时刻提取(QVHighlights-TimeLens):69.92,大幅领先 Gemini 3 Flash(49.45)
Keye2.0 还首次内建了Agent 协作机制,打通了"感知-规划-执行"全链路。在 SWE-bench Verified 任务中跑通 62.00 基线成绩,TAU2-Bench 工具调用得分 82.58,跨尺寸建立显著优势。
后训练阶段引入的Context-RL 奖励机制利用混合模态参考信息构建稠密奖励信号,压制多步推理中的幻觉倾向。

小鹏机器人 DIAL:让 VLM 在隐式空间"预演"物理世界
香港大学、小鹏机器人及北卡罗来纳大学教堂山分校的研究团队提出了DIAL(Decoupling Intent and Action via Latent World Modeling)框架,让 VLM 在自己原生的特征空间里做隐式世界建模。3
DIAL 借鉴认知科学的双系统理论:
System-2(大脑) 接收当前观测画面和语言指令后,预测任务完成后的隐式视觉特征——不生成像素,而是在 VLM 原生的 ViT 空间中完成。System-1(小脑) 作为轻量级的隐式逆动力学模型,对比当前与预测的特征,计算出实现状态转移所需的精确动作指令。
训练采用两阶段策略:先解耦预热让两个系统各自独立学习,再端到端协同优化——动作执行误差回传至 VLM,促使预测的特征真正服务于下游执行。
在 RoboCasa 仿真基准测试中,DIAL 取得**70.2%**的平均任务成功率。少样本设置下仅用 10%数据即达 58.3%成功率,击败全量数据训练的最优基线方法,数据效率大幅领先。
研究团队将 DIAL 部署到小鹏 IRON-R01-1.11 人形机器人上,验证了抓放、倒水、双手交接与放置等复杂任务。在长程多阶段任务中,隐式意图为机器人提供了清晰的"视觉路线图",避免了传统模型容易出现的动作死循环——比如垃圾已扫入簸箕后仍重复清扫。
跨具身人类数据的融入让泛化能力进一步提升:抓取未见过的异形瓶子时,去除人类数据的版本成功率从 60%骤降至 10%。
项目主页和代码均已在 GitHub 开源。
本期 3 款新品覆盖了 AI 基础框架、多模态理解和具身智能三大前沿方向。面壁智能用 AI 造 AI 的效率思路,快手 DSA 架构对长视频理解的突破,以及 DIAL 让机器人在原生特征空间做物理预演的范式,各自在各自的赛道上给出了有说服力的技术解法。
发布日期:2026 年 5 月 26 日

이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.