Twitter AI 长文精选 · 5 月 22 日

本期精选来自 AI 架构师 DataDan（X：@ba_niu80557）5 月 21 日发布的 3 篇深度长文，分别覆盖 Scaling Law 新方向、推理时间计算经济学、以及 Agent 架构的第三次范式转移。这三篇前后呼应，拼出一幅 2026 年 AI 基础设施的全景图。

Scaling Law 没到头——只是分叉了

「AI 到瓶颈了。Scaling Law 不行了。模型能力到头了。接下来就是做应用了。」

这个判断在 2026 年初变得非常流行。说这话的不是外行，很多严肃的研究者也在这么说。

两天前，Karpathy 加入 Anthropic 做预训练研究。DataDan 认为，这个选择的信号不是「Scaling 到头了」，而是「Scaling 的方式变了，新方式才刚刚开始」 1。

传统的预训练 Scaling（堆 GPU、扩数据、大模型）确实在收益递减。但 2025-2026 年发生的变化是：Scaling 从一个轴变成了三个：

轴一：训练规模 Scaling（2020-2024 主导，收益递减中）——更大模型、更多数据。每一美元边际提升在缩小，但没停。
轴二：推理时间 Scaling（2025-2026 爆发）——不再只在训练时投入算力，而是在推理时让模型「想更久」。一个 7B 参数模型，给它 100 倍推理算力，可以匹敌 70B 模型的标准推理。DeepSeek-R1 已证明这一点。
轴三：AI 加速 AI 研究（2026 刚刚开始）——这正是 Karpathy 去做的事：用 Claude 加速预训练研究本身。TechCrunch 确认他的任务是建立团队，「focused on using Claude to accelerate pre-training research」2。

DataDan｜AI Data Engineering @ba_niu80557·1w

"AI 到瓶颈了。Scaling Law 不行了。模型能力到头了。接下来就是做应用了。" 这个判断在 2026 年初变得非常流行。两天前，Karpathy 加入 Anthropic 做预训练研究。他的选择不是在反驳 "scaling 到头了"——而是在说 "scaling 的方式变了"。

View on X

Loading content card…

为什么这个区分重要？

创业者在想「模型不会更强了，应该做应用层」。投资人在想「基础模型没什么投了」。工程师在想「不用追模型更新了」。如果 Scaling 只有训练这个轴，这些都成立。但如果还有两个新轴——那这些判断都建立在错误的前提上。

对于做 AI 的人，DataDan 的建议很实在：不要赌「模型不会更强」，也不要赌「模型立刻更强」。正确姿态是用今天模型做今天的事，同时架构上为模型升级留空间。把「模型进化」当成产品路线图的一部分来管理，每个季度评估一次新能力对产品意味着什么。

推理需求是训练的 118 倍——「想多久」比「多大」更关键

DataDan 同天发布的英文长文给出一组值得每个 AI 团队停下来思考的数字 3：

推理需求预计是训练需求的 118 倍。到 2030 年，推理可能占 AI 总算力的 75%，驱动 7 万亿美元基础设施投资。

更关键的是「Test-Time Compute 悖论」：在复杂推理任务上，更多思考时间显著提升准确率；但在简单事实性任务上，更多思考反而有害——模型会过度怀疑自己，从正确答案自我否定到错误答案。

AI 行业花了 2020-2024 年痴迷训练。推理已经悄悄变成 118 倍的规模，但几乎没人的基础设施、预算和心智模型跟上了。

DataDan｜AI Data Engineering @ba_niu80557·2w

Inference demand is projected to exceed training demand by 118x in 2026. The AI industry spent 2020-2024 obsessing over training. Then inference quietly became 118x larger. And almost nobody's infrastructure, budget, or mental model caught up.

View on X

Loading content card…

文章识别了三个架构错误：

错误 1：一个模型处理所有任务。 80% 的查询用 Haiku/GPT-4o-mini 就能处理，但大多数团队所有流量都走 Sonnet/GPT-4o，支付 10-50 倍不必要成本。

错误 2：固定思考预算。 大多数团队要么让模型想多久就想多久，要么一刀切设定上限。正确的做法是根据查询复杂度动态分配——简单问题零思考，复杂法律合同给 8,000 思考 Token。

错误 3：忽略延迟-精度产品层权衡。 用户感知超过 2 秒就是「慢」。解决方案是异步推理模式：快速模型秒级响应 + 后台推理模型深度思考，两者一致则用快速答案，不一致则静默替换。

文章还提到一个被严重低估的基础设施模式：蒸馏推理器（Distilled Reasoner）。把大推理模型的思维链蒸馏进小模型，小模型学会「怎么想这类问题」，在特定领域达到 90-95% 的推理准确率，成本仅 1/100。

Harness Engineering：Prompt 已死，约束为王

第三篇长文从一个出人意料的发现开始：一篇包含 9,649 次控制实验的论文证明——Prompt 格式（YAML vs Markdown vs JSON vs 纯文本）对模型准确率没有统计显著影响 4。

Chi-squared = 2.45, p = 0.484。连显著性边都没沾到。你纠结了两年「该用 XML 标签还是 Markdown 标题」——这个东西不影响结果。

真正影响结果的是模型选择和上下文是否以可导航的文件结构组织。

DataDan 由此引出 AI 工程的三阶段演进：

阶段	时期	核心问题	假设
Prompt Engineering	2022-2024	怎么把提示词写好	措辞完美 = 答案正确
Context Engineering	2025	模型需要什么信息	信息到位 = 推理正确
Harness Engineering	2026	怎么建环境防止模型出错	模型一定会错，环境必须兜底

DataDan｜AI Data Engineering @ba_niu80557·2w

A paper with 9,649 controlled experiments just proved: the format of your prompt (YAML vs Markdown vs JSON vs plaintext) has no statistically significant effect on model accuracy. What DOES move the needle is model selection and whether the context is structured as files vs text blobs.

View on X

Loading content card…

第三阶段的核心洞察来自 Anthropic 内部研究：模型不能可靠地评估自己的工作。 自我评估准确率天花板只有 60-75%。同一个模型生成了错误答案，再问它「这个对吗」，它有 25-40% 的概率认为那个错误答案是正确的。

这意味着需要结构上分离的评估层——一个 Generator 产生输出，一个 Evaluator 判断它。就像 GAN 架构。这套「约束工程」包含四层：

规则层——不许调什么工具、不许访问什么数据、最多多少步。不在提示词里说，在编排层硬编码。
Linter 层——每次输出都要过真实性检查、幻觉检测、策略合规、格式校验。每项 <200ms。
评估器层——独立模型按具体评分标准打分，不过关就带着具体反馈退回重写。
反馈循环层——每次评估结果入库，持续优化系统 Prompt 和评分标准。

结论很直白：更多约束 = 更多可靠性，不是更少。 同样的模型，同样的数据，同样的 Prompt——不同的约束环境。10 倍可靠性差距。

📡 其他值得关注的长文

过去 24 小时内，Twitter 上还有几条值得 AI 从业者点开的深度内容：

Alibaba Qwen 3.7 Max 发布 —— Derya Unutmaz（@DeryaTR_）报道，Qwen 3.7 Max 在 Artificial Analysis 指数上已超越刚发布的 Gemini 3.5 Flash。「中国 AI 模型正在快速追赶，与美国 SOTA 的差距在缩小」 5。

Agent 化 AI 在真实工程场景中的翻车实录——the_engi_nerd（@the_engi_nerd）分享了一个真实案例：一家与团队合作两年的公司，集成 Agentic AI 后「变成了绝对的白痴」，把 Walker Delta 轨道当成用户指定的轨道、把单价当成总量。这篇 6.8k+ views 的推文引发了大量工程团队共鸣 6。

Palantir 在乌克兰的 AI 战场——Andrew Bridgen（@ABridgen）的深度分析：俄罗斯不是在和乌克兰军队作战，而是在和 Palantir 的 AI 作战。从目标获取到打击的周期从数小时缩短到 10 分钟以内。Palantir 市值已从 2022 年涨超 1000% 7。

Scaling Law 没到头、Harness 取代 Prompt、推理 118x 训练——今天 AI 架构的三篇硬核长文

Twitter AI 长文精选 · 5 月 22 日

Scaling Law 没到头——只是分叉了

推理需求是训练的 118 倍——「想多久」比「多大」更关键

Harness Engineering：Prompt 已死，约束为王

📡 其他值得关注的长文

References