HuggingFace 论文日报｜2025-05-22

💡 今日速览

今天的 HuggingFace 热门论文覆盖了多个前沿方向：阿里巴巴 Qwen 团队提出了一种更稳定的 LLM 强化学习算法；多篇论文聚焦推理效率与测试时缩放；视频生成从"短片"到"3D 地球"全面开花；还有来自 Stanford 的经典词向量更新和受心理学启发的视觉新范式。

GSPO：更稳、更快、更强的 LLM 强化学习算法

作者：Chujie Zheng, Shixuan Liu 等（Qwen Team, Alibaba Inc.）｜预印本 1

大语言模型的强化学习（RL）训练一直是个棘手问题。GRPO 是目前最主流的方法之一，但它在训练混合专家模型（MoE）时容易不稳定，而且基础设施设计复杂。

GSPO（Group Sequence Policy Optimization） 的核心思路很直观：不要过于细粒度地在每个 token 上都计算"重要性权重"，而是把整个输出序列当做一个整体来做策略优化。这样做的优势是：

序列级裁剪与奖励——像一个整体打分，而不是逐字逐句调整权重，训练过程更稳定
对 MoE 模型特别友好——有效解决了 MoE 在 RL 训练中的不稳定性
简化基础设施——不需要复杂的设计就能部署

GSPO 已经在最新的 Qwen3 系列模型中落地，带来了显著提升。

MUR：让 LLM 少"想"一半，准确率反而更高

作者：Hang Yan, Fangzhi Xu 等（西安交通大学、南洋理工大学、北京大学、新加坡国立大学）｜预印本 2

大模型在做推理时有一种"过度思考"的倾向——明明已经找到答案了，还会继续算下去，白白浪费 token。现有的测试时缩放（Test-Time Scaling）方法虽然能提升推理质量，但同时也加剧了这种浪费。

这篇论文的灵感来自于物理学中的动量概念。就像运动中的物体有惯性一样，模型推理过程中的"不确定性"也具有一定的连续性和累积性。

MUR（Momentum Uncertainty-guided Reasoning） 的核心做法是：

追踪不确定性变化——每个推理步骤的不确定性会被持续追踪和聚合，就像累积"动量"一样
动态分配思考预算——把更多的计算资源分配给关键推理步骤，跳过冗余计算
γ 控制（gamma-control）——只需要一个超参数就能灵活调节推理预算

实验结果非常亮眼：在 MATH-500、AIME24/25、GPQA-diamond 四个高难度基准上，计算量平均减少 50% 以上，准确率反而提升了 0.62-3.37%。

视觉 Transformer 的三种架构感受野对比：CNN 逐步扩大，ViT 全图注意力，CNN+Transformer 混合架构｜类型：架构对比图

Captain Cinema：从文字描述到完整短片

作者：Junfei Xiao 等（约翰霍普金斯大学、字节跳动 Seed、斯坦福大学、香港中文大学）｜预印本 3

"给我一段故事，生成一部电影"——这是 AI 视频生成领域最令人兴奋的目标之一。但现有的模型在生成长叙事视频时，经常出现角色长相突变、场景不连贯、故事线断裂的问题。

Captain Cinema 采用了一种"先设计分镜，再填充画面"的两阶段策略：

自上而下关键帧规划——首先根据剧情文本，生成一组覆盖整个叙事的关键帧。这相当于"画好分镜脚本"，保证了角色、场景和剧情的长程连贯性
自下而上视频合成——以关键帧为条件，用支持长上下文的视频合成模型生成帧之间的动态内容

技术上，团队对多模态扩散 Transformer（MM-DiT）设计了交错训练策略，让它能稳定高效地处理多场景长叙事。模型使用专门整理的电影数据集训练，同时保证了视觉连贯性和叙事一致性。

TTS-VAR：给图像生成加个"测试时缩放"

作者：Zhekai Chen 等（香港大学 MMLab、通义实验室、香港中文大学）｜预印本 4

"测试时缩放"（Test-Time Scaling）在 LLM 领域已经展示出巨大潜力——推理时多花一些计算量来换取更好的结果。但在图像生成领域，这还是一个新概念。

TTS-VAR 将视觉自回归（VAR）模型的生成过程建模为路径搜索问题，在推理时动态分配计算资源：

自适应降批大小调度——生成过程中，逐步减少同时处理的样本数，把算力集中到最有潜力的路径上
粗尺度多样性搜索——在生成的早期阶段（粗尺度），通过语义特征聚类保留多种结构可能性
细尺度潜力筛选——在后期（细尺度），利用多尺度生成历史计算"潜力评分"，优先保留高分候选

在强大的 VAR 模型 Infinity 上测试，GenEval 分数从 0.69 提升到 0.75（+8.7%），证明了推理时算力的有效利用。

EarthCrafter：大规模 3D 地球生成

作者：Shang Liu, Chenjie Cao 等（DAMO Academy 阿里巴巴、复旦大学）｜预印本 5

现有的 3D 生成技术在单个物体或小场景上表现出色，但扩展到上千平方公里的地球表面时，面临数据和算力的双重挑战。

EarthCrafter 的答案是数据 + 架构的双重创新：

数据层面：构建了目前最大的 3D 航空数据集 Aerial-Earth3D，包含美国本土 5 万个精心筛选的 600m×600m 场景，共 4500 万帧多视图谷歌地球影像，附带了深度图、法向图、语义分割等完整标注。

模型层面：提出了双稀疏解耦潜在扩散架构，把结构生成和纹理生成分离开来：

双稀疏 3D-VAE：将高分辨率几何数据和纹理数据分别压缩到紧凑的潜在空间，大幅降低计算成本
条件感知流匹配：支持在语义图、图像或无条件等多种输入下灵活生成

EarthCrafter 支持语义指导的城市布局生成到无条件地形合成等多种应用，为大尺度地理空间 AI 打开了新的大门。

EarthCrafter 生成结果：基于不同语义条件生成的 3D 地球体素与地理渲染示例

TeleChat2 & T1：中国电信的 115B 开源模型，超越 o1-mini

作者：Zihan Wang, Xinzhang Liu 等（TeleAI, 中国电信）｜预印本 6

中国电信旗下 TeleAI 发布了最新的模型系列：TeleChat2、TeleChat2.5 和 T1，都基于 Transformer 稠密架构。

关键信息：

115B 参数（1150 亿），是当前最大的开源中文模型之一
T1：面向复杂推理，支持长思维链（CoT），性能超越了 OpenAI o1-mini 和 GPT-4o
TeleChat2.5：与 T1 相同的基础架构，但优化方向是快速推理
训练流程：10 万亿 token 预训练 → SFT → DPO，之后通过领域数据集继续预训练 + 强化学习进一步提升代码和数学能力

TeleAI 同时开源了 35B 和 115B 两个尺寸的版本。

受婴儿认知启发的计算机视觉：Spelke 分割

作者：Rahul Venkatesh, Klemen Kotar 等（斯坦福大学、OpenAI、Noetik Inc.）｜预印本 7

你小时候有没有想过：婴儿是怎么知道一个"物体"从另一个物体分离开的？心理学家 Elizabeth Spelke 提出，人类天生就认为"一起运动的物理实体"是一个物体——这被称为 Spelke 物体。

这篇论文把这种认知心理学概念引入计算机视觉：

SpelkeNet 是一个视觉"世界模型"，通过预测"戳一下这里，画面会怎么动"来理解物体的边界：

运动可供性图——预测哪些区域在被触碰后会发生移动
期望位移图——捕捉周围区域会如何跟随移动
统计反事实探测——对高运动可能性的区域施加"虚拟触碰"，通过移动相关性来定义物体边界

实验结果：SpelkeNet 在 SpelkeBench 数据集上超越了有监督的 Segment Anything（SAM），并且在物理物体操作任务上也有显著提升。

SpelkeNet 论文首页，构建视觉世界模型从图像中提取受心理学启发的物体边界

这或许预示着，机器理解物体的方式，正在向人类认知靠拢。

📌 本期小结

领域	论文	看点
LLM 训练	GSPO	Qwen 新 RL 算法，MoE 训练更稳定
推理效率	MUR	计算减半，准确率反升
视频生成	Captain Cinema	文本→完整短片，两阶段架构
图像生成	TTS-VAR	首个视觉生成测试时缩放框架
3D 生成	EarthCrafter	大规模地球生成，数据+架构双重创新
开源模型	TeleChat T1	115B 参数，超越 o1-mini 和 GPT-4o
认知视觉	SpelkeNet	受婴儿认知启发的分割方法