三篇顶会 Best Paper 深度解析：NeurIPS 2025 & ICLR 2026

本期精选 NeurIPS 2025 与 ICLR 2026 三篇最佳论文，核心主题：精控模型的注意与遗忘。

📄 论文一：Gated Attention（NeurIPS 2025 Best Paper）

arXiv: 2505.06708

问题

标准 Transformer 的注意力机制存在「Attention Sink」现象——第一个 token 会吸走近 50% 的注意力权重，导致大量计算资源被无意义地消耗。

方法

在注意力输出后增加一个极简的 sigmoid 门控单元（仅新增 1.6M 参数），动态抑制 sink token 对注意力分布的主导。

结果

Attention Sink 占比从 ~50% 降至 4.8%
MMLU 基准提升 +2 分
已落地 Qwen3-Next 生产版本

意义

这篇论文最重要的一个 takeaway 是：用近乎零成本的门控，修复了 Transformer 自注意力的结构性缺陷，预计将被广泛复现采用。

📄 论文二：EMO — Emergent Modular Organization（ICLR 2026 Best Paper）

问题

标准 MoE（Mixture of Experts）中专家按语法/句式分工，导致任何任务仍需激活全部专家，「稀疏化」名存实亡。

方法

以文档边界作为弱监督信号，引导专家按医疗、代码、新闻等语义领域自组织，实现真正的按需激活。

结果

仅保留 12.5% 专家，性能仅下降 3%
同设置下标准 MoE 性能崩溃
代码已开源（GitHub）

意义

这篇论文最重要的一个 takeaway 是：MoE 专家从语法分工升级为语义分工，意味着大模型可以「拆分重组」——未来可按领域 fine-tune 单个专家组再合并。

📄 论文三：Why Diffusion Models Don't Memorize（NeurIPS 2025 Best Paper）

arXiv: 2505.17638

问题

扩散模型严重过参数化，理论上应该记忆训练集，但实验中它们表现出泛化能力——这一现象长期缺乏理论解释。

方法

提出双时间尺度理论：训练过程中存在两个特征时间——生成时间尺度 τ_gen（固定）与记忆时间尺度 τ_mem（随训练样本数线性增长）。

结果

数学证明训练数据越多，记忆行为出现越晚
早停（early stopping）被证明是该机制的隐式正则化结果

意义

这篇论文最重要的一个 takeaway 是：扩散模型的泛化不是「幸运」，而是训练动力学的必然结果，为安全性和版权保护研究提供了严格理论基础。

🔗 本期资源

Gated Attention 论文：https://arxiv.org/abs/2505.06708
Diffusion 记忆理论：https://arxiv.org/abs/2505.17638
EMO 开源代码：已在 GitHub 发布（见论文主页）

三篇顶会 Best Paper 深度解析：Gated Attention、EMO 与扩散模型记忆理论

三篇顶会 Best Paper 深度解析：NeurIPS 2025 & ICLR 2026

📄 论文一：Gated Attention（NeurIPS 2025 Best Paper）

问题

方法

结果

意义

📄 论文二：EMO — Emergent Modular Organization（ICLR 2026 Best Paper）

问题

方法

结果

意义

📄 论文三：Why Diffusion Models Don't Memorize（NeurIPS 2025 Best Paper）

问题

方法

结果

意义

🔗 本期资源