
HuggingFace 论文日报
2026/05/22 18:09:23@gritty
HuggingFace 论文日报|2025-05-22
今日 HuggingFace 热门论文解读:Qwen 发布新 RL 算法 GSPO 稳定 MoE 训练;MUR 让 LLM 推理计算量减半准确率反升;Captain Cinema 从文字生成完整短片;TTS-VAR 将测试时缩放引入图像生成;EarthCrafter 实现大规模 3D 地球生成;TeleChat T1 115B 超越 o1-mini 和 GPT-4o;受婴儿认知启发的 SpelkeNet 在分割任务上超越 SAM。
研究速览
💡 今日速览
今天的 HuggingFace 热门论文覆盖了多个前沿方向:阿里巴巴 Qwen 团队提出了一种更稳定的 LLM 强化学习算法;多篇论文聚焦推理效率与测试时缩放;视频生成从"短片"到"3D 地球"全面开花;还有来自 Stanford 的经典词向量更新和受心理学启发的视觉新范式。
GSPO:更稳、更快、更强的 LLM 强化学习算法
作者:Chujie Zheng, Shixuan Liu 等(Qwen Team, Alibaba Inc.)|预印本 1
大语言模型的强化学习(RL)训练一直是个棘手问题。GRPO 是目前最主流的方法之一,但它在训练混合专家模型(MoE)时容易不稳定,而且基础设施设计复杂。
GSPO(Group Sequence Policy Optimization) 的核心思路很直观:不要过于细粒度地在每个 token 上都计算"重要性权重",而是把整个输出序列当做一个整体来做策略优化。这样做的优势是:
- 序列级裁剪与奖励——像一个整体打分,而不是逐字逐句调整权重,训练过程更稳定
- 对 MoE 模型特别友好——有效解决了 MoE 在 RL 训练中的不稳定性
- 简化基础设施——不需要复杂的设计就能部署
GSPO 已经在最新的 Qwen3 系列模型中落地,带来了显著提升。
MUR:让 LLM 少"想"一半,准确率反而更高
作者:Hang Yan, Fangzhi Xu 等(西安交通大学、南洋理工大学、北京大学、新加坡国立大学)|预印本 2
大模型在做推理时有一种"过度思考"的倾向——明明已经找到答案了,还会继续算下去,白白浪费 token。现有的测试时缩放(Test-Time Scaling)方法虽然能提升推理质量,但同时也加剧了这种浪费。
这篇论文的灵感来自于物理学中的动量概念。就像运动中的物体有惯性一样,模型推理过程中的"不确定性"也具有一定的连续性和累积性。
MUR(Momentum Uncertainty-guided Reasoning) 的核心做法是:
- 追踪不确定性变化——每个推理步骤的不确定性会被持续追踪和聚合,就像累积"动量"一样
- 动态分配思考预算——把更多的计算资源分配给关键推理步骤,跳过冗余计算
- γ 控制(gamma-control)——只需要一个超参数就能灵活调节推理预算
实验结果非常亮眼:在 MATH-500、AIME24/25、GPQA-diamond 四个高难度基准上,计算量平均减少 50% 以上,准确率反而提升了 0.62-3.37%。

Captain Cinema:从文字描述到完整短片
作者:Junfei Xiao 等(约翰霍普金斯大学、字节跳动 Seed、斯坦福大学、香港中文大学)|预印本 3
"给我一段故事,生成一部电影"——这是 AI 视频生成领域最令人兴奋的目标之一。但现有的模型在生成长叙事视频时,经常出现角色长相突变、场景不连贯、故事线断裂的问题。
Captain Cinema 采用了一种"先设计分镜,再填充画面"的两阶段策略:
- 自上而下关键帧规划——首先根据剧情文本,生成一组覆盖整个叙事的关键帧。这相当于"画好分镜脚本",保证了角色、场景和剧情的长程连贯性
- 自下而上视频合成——以关键帧为条件,用支持长上下文的视频合成模型生成帧之间的动态内容
技术上,团队对多模态扩散 Transformer(MM-DiT)设计了交错训练策略,让它能稳定高效地处理多场景长叙事。模型使用专门整理的电影数据集训练,同时保证了视觉连贯性和叙事一致性。
TTS-VAR:给图像生成加个"测试时缩放"
作者:Zhekai Chen 等(香港大学 MMLab、通义实验室、香港中文大学)|预印本 4
"测试时缩放"(Test-Time Scaling)在 LLM 领域已经展示出巨大潜力——推理时多花一些计算量来换取更好的结果。但在图像生成领域,这还是一个新概念。
TTS-VAR 将视觉自回归(VAR)模型的生成过程建模为路径搜索问题,在推理时动态分配计算资源:
- 自适应降批大小调度——生成过程中,逐步减少同时处理的样本数,把算力集中到最有潜力的路径上
- 粗尺度多样性搜索——在生成的早期阶段(粗尺度),通过语义特征聚类保留多种结构可能性
- 细尺度潜力筛选——在后期(细尺度),利用多尺度生成历史计算"潜力评分",优先保留高分候选
在强大的 VAR 模型 Infinity 上测试,GenEval 分数从 0.69 提升到 0.75(+8.7%),证明了推理时算力的有效利用。
EarthCrafter:大规模 3D 地球生成
作者:Shang Liu, Chenjie Cao 等(DAMO Academy 阿里巴巴、复旦大学)|预印本 5
现有的 3D 生成技术在单个物体或小场景上表现出色,但扩展到上千平方公里的地球表面时,面临数据和算力的双重挑战。
EarthCrafter 的答案是数据 + 架构的双重创新:
数据层面:构建了目前最大的 3D 航空数据集 Aerial-Earth3D,包含美国本土 5 万个精心筛选的 600m×600m 场景,共 4500 万帧多视图谷歌地球影像,附带了深度图、法向图、语义分割等完整标注。
模型层面:提出了双稀疏解耦潜在扩散架构,把结构生成和纹理生成分离开来:
- 双稀疏 3D-VAE:将高分辨率几何数据和纹理数据分别压缩到紧凑的潜在空间,大幅降低计算成本
- 条件感知流匹配:支持在语义图、图像或无条件等多种输入下灵活生成
EarthCrafter 支持语义指导的城市布局生成到无条件地形合成等多种应用,为大尺度地理空间 AI 打开了新的大门。

TeleChat2 & T1:中国电信的 115B 开源模型,超越 o1-mini
作者:Zihan Wang, Xinzhang Liu 等(TeleAI, 中国电信)|预印本 6
中国电信旗下 TeleAI 发布了最新的模型系列:TeleChat2、TeleChat2.5 和 T1,都基于 Transformer 稠密架构。
关键信息:
- 115B 参数(1150 亿),是当前最大的开源中文模型之一
- T1:面向复杂推理,支持长思维链(CoT),性能超越了 OpenAI o1-mini 和 GPT-4o
- TeleChat2.5:与 T1 相同的基础架构,但优化方向是快速推理
- 训练流程:10 万亿 token 预训练 → SFT → DPO,之后通过领域数据集继续预训练 + 强化学习进一步提升代码和数学能力
TeleAI 同时开源了 35B 和 115B 两个尺寸的版本。
受婴儿认知启发的计算机视觉:Spelke 分割
作者:Rahul Venkatesh, Klemen Kotar 等(斯坦福大学、OpenAI、Noetik Inc.)|预印本 7
你小时候有没有想过:婴儿是怎么知道一个"物体"从另一个物体分离开的?心理学家 Elizabeth Spelke 提出,人类天生就认为"一起运动的物理实体"是一个物体——这被称为 Spelke 物体。
这篇论文把这种认知心理学概念引入计算机视觉:
SpelkeNet 是一个视觉"世界模型",通过预测"戳一下这里,画面会怎么动"来理解物体的边界:
- 运动可供性图——预测哪些区域在被触碰后会发生移动
- 期望位移图——捕捉周围区域会如何跟随移动
- 统计反事实探测——对高运动可能性的区域施加"虚拟触碰",通过移动相关性来定义物体边界
实验结果:SpelkeNet 在 SpelkeBench 数据集上超越了有监督的 Segment Anything(SAM),并且在物理物体操作任务上也有显著提升。

这或许预示着,机器理解物体的方式,正在向人类认知靠拢。
📌 本期小结
| 领域 | 论文 | 看点 |
|---|---|---|
| LLM 训练 | GSPO | Qwen 新 RL 算法,MoE 训练更稳定 |
| 推理效率 | MUR | 计算减半,准确率反升 |
| 视频生成 | Captain Cinema | 文本→完整短片,两阶段架构 |
| 图像生成 | TTS-VAR | 首个视觉生成测试时缩放框架 |
| 3D 生成 | EarthCrafter | 大规模地球生成,数据+架构双重创新 |
| 开源模型 | TeleChat T1 | 115B 参数,超越 o1-mini 和 GPT-4o |
| 认知视觉 | SpelkeNet | 受婴儿认知启发的分割方法 |
围绕这条内容继续补充观点或上下文。