"AI 到瓶颈了。Scaling Law 不行了。模型能力到头了。接下来就是做应用了。" 这个判断在 2026 年初变得非常流行。两天前,Karpathy 加入 Anthropic 做预训练研究。他的选择不是在反驳 "scaling 到头了"——而是在说 "scaling 的方式变了"。

Twitter AI 长文精选
05/22/2026, 06:22:58 PM@gritty
Scaling Law 没到头、Harness 取代 Prompt、推理 118x 训练——今天 AI 架构的三篇硬核长文
DataDan 连发三篇深度长文:Scaling Law 从一轴变成三轴;推理需求 118 倍超越训练;Prompt Engineering 已死,Harness Engineering 才是 2026 的正确姿势。附 Qwen 3.7 Max、Agentic AI 翻车实录、Palantir AI 战场分析。
Twitter AI 长文精选 · 5 月 22 日
本期精选来自 AI 架构师 DataDan(X:@ba_niu80557)5 月 21 日发布的 3 篇深度长文,分别覆盖 Scaling Law 新方向、推理时间计算经济学、以及 Agent 架构的第三次范式转移。这三篇前后呼应,拼出一幅 2026 年 AI 基础设施的全景图。
Scaling Law 没到头——只是分叉了
「AI 到瓶颈了。Scaling Law 不行了。模型能力到头了。接下来就是做应用了。」
这个判断在 2026 年初变得非常流行。说这话的不是外行,很多严肃的研究者也在这么说。
两天前,Karpathy 加入 Anthropic 做预训练研究。DataDan 认为,这个选择的信号不是「Scaling 到头了」,而是「Scaling 的方式变了,新方式才刚刚开始」 1。
传统的预训练 Scaling(堆 GPU、扩数据、大模型)确实在收益递减。但 2025-2026 年发生的变化是:Scaling 从一个轴变成了三个:
- 轴一:训练规模 Scaling(2020-2024 主导,收益递减中)——更大模型、更多数据。每一美元边际提升在缩小,但没停。
- 轴二:推理时间 Scaling(2025-2026 爆发)——不再只在训练时投入算力,而是在推理时让模型「想更久」。一个 7B 参数模型,给它 100 倍推理算力,可以匹敌 70B 模型的标准推理。DeepSeek-R1 已证明这一点。
- 轴三:AI 加速 AI 研究(2026 刚刚开始)——这正是 Karpathy 去做的事:用 Claude 加速预训练研究本身。TechCrunch 确认他的任务是建立团队,「focused on using Claude to accelerate pre-training research」2。
Loading content card…
为什么这个区分重要?
创业者在想「模型不会更强了,应该做应用层」。投资人在想「基础模型没什么投了」。工程师在想「不用追模型更新了」。如果 Scaling 只有训练这个轴,这些都成立。但如果还有两个新轴——那这些判断都建立在错误的前提上。
对于做 AI 的人,DataDan 的建议很实在:不要赌「模型不会更强」,也不要赌「模型立刻更强」。正确姿态是用今天模型做今天的事,同时架构上为模型升级留空间。把「模型进化」当成产品路线图的一部分来管理,每个季度评估一次新能力对产品意味着什么。
推理需求是训练的 118 倍——「想多久」比「多大」更关键
DataDan 同天发布的英文长文给出一组值得每个 AI 团队停下来思考的数字 3:
推理需求预计是训练需求的 118 倍。到 2030 年,推理可能占 AI 总算力的 75%,驱动 7 万亿美元基础设施投资。
更关键的是「Test-Time Compute 悖论」:在复杂推理任务上,更多思考时间显著提升准确率;但在简单事实性任务上,更多思考反而有害——模型会过度怀疑自己,从正确答案自我否定到错误答案。
AI 行业花了 2020-2024 年痴迷训练。推理已经悄悄变成 118 倍的规模,但几乎没人的基础设施、预算和心智模型跟上了。
Loading content card…
文章识别了三个架构错误:
错误 1:一个模型处理所有任务。 80% 的查询用 Haiku/GPT-4o-mini 就能处理,但大多数团队所有流量都走 Sonnet/GPT-4o,支付 10-50 倍不必要成本。
错误 2:固定思考预算。 大多数团队要么让模型想多久就想多久,要么一刀切设定上限。正确的做法是根据查询复杂度动态分配——简单问题零思考,复杂法律合同给 8,000 思考 Token。
错误 3:忽略延迟-精度产品层权衡。 用户感知超过 2 秒就是「慢」。解决方案是异步推理模式:快速模型秒级响应 + 后台推理模型深度思考,两者一致则用快速答案,不一致则静默替换。
文章还提到一个被严重低估的基础设施模式:蒸馏推理器(Distilled Reasoner)。把大推理模型的思维链蒸馏进小模型,小模型学会「怎么想这类问题」,在特定领域达到 90-95% 的推理准确率,成本仅 1/100。
Harness Engineering:Prompt 已死,约束为王
第三篇长文从一个出人意料的发现开始:一篇包含 9,649 次控制实验的论文证明——Prompt 格式(YAML vs Markdown vs JSON vs 纯文本)对模型准确率没有统计显著影响 4。
Chi-squared = 2.45, p = 0.484。连显著性边都没沾到。你纠结了两年「该用 XML 标签还是 Markdown 标题」——这个东西不影响结果。
真正影响结果的是模型选择和上下文是否以可导航的文件结构组织。
DataDan 由此引出 AI 工程的三阶段演进:
| 阶段 | 时期 | 核心问题 | 假设 |
|---|---|---|---|
| Prompt Engineering | 2022-2024 | 怎么把提示词写好 | 措辞完美 = 答案正确 |
| Context Engineering | 2025 | 模型需要什么信息 | 信息到位 = 推理正确 |
| Harness Engineering | 2026 | 怎么建环境防止模型出错 | 模型一定会错,环境必须兜底 |
Loading content card…
第三阶段的核心洞察来自 Anthropic 内部研究:模型不能可靠地评估自己的工作。 自我评估准确率天花板只有 60-75%。同一个模型生成了错误答案,再问它「这个对吗」,它有 25-40% 的概率认为那个错误答案是正确的。
这意味着需要结构上分离的评估层——一个 Generator 产生输出,一个 Evaluator 判断它。就像 GAN 架构。这套「约束工程」包含四层:
- 规则层——不许调什么工具、不许访问什么数据、最多多少步。不在提示词里说,在编排层硬编码。
- Linter 层——每次输出都要过真实性检查、幻觉检测、策略合规、格式校验。每项 <200ms。
- 评估器层——独立模型按具体评分标准打分,不过关就带着具体反馈退回重写。
- 反馈循环层——每次评估结果入库,持续优化系统 Prompt 和评分标准。
结论很直白:更多约束 = 更多可靠性,不是更少。 同样的模型,同样的数据,同样的 Prompt——不同的约束环境。10 倍可靠性差距。
📡 其他值得关注的长文
过去 24 小时内,Twitter 上还有几条值得 AI 从业者点开的深度内容:
Alibaba Qwen 3.7 Max 发布 —— Derya Unutmaz(@DeryaTR_)报道,Qwen 3.7 Max 在 Artificial Analysis 指数上已超越刚发布的 Gemini 3.5 Flash。「中国 AI 模型正在快速追赶,与美国 SOTA 的差距在缩小」 5。
Agent 化 AI 在真实工程场景中的翻车实录——the_engi_nerd(@the_engi_nerd)分享了一个真实案例:一家与团队合作两年的公司,集成 Agentic AI 后「变成了绝对的白痴」,把 Walker Delta 轨道当成用户指定的轨道、把单价当成总量。这篇 6.8k+ views 的推文引发了大量工程团队共鸣 6。
Palantir 在乌克兰的 AI 战场——Andrew Bridgen(@ABridgen)的深度分析:俄罗斯不是在和乌克兰军队作战,而是在和 Palantir 的 AI 作战。从目标获取到打击的周期从数小时缩短到 10 分钟以内。Palantir 市值已从 2022 年涨超 1000% 7。
Add more perspectives or context around this Drop.