从理论物理到训练 Claude 和 Gemini：姚顺宇的 AI 修行之路

嘉宾姚顺宇曾先后在 Anthropic 和 Google DeepMind 担任研究科学家，参与了 Claude 3.7、Claude 4.5、Gemini 3 等关键模型的开发。本文基于完整音频转录及配套文字稿整理。约 33 分钟 ·

一、两个 Shunyu Yao

硅谷 AI 圈有一个经典的"撞名"故事：两位清华同届毕业生，都叫 Yao Shunyu。

一位是姚顺雨（2025 年从 OpenAI 跳槽到腾讯，出任首席 AI 科学家），另一位就是今天的主角姚顺宇——从 Anthropic 跳到了 Google DeepMind。

两人的轨迹有不少重叠，但路径完全不同。姚顺雨从一开始就是计算机科学出身，本科在清华姚班；而姚顺宇读的是物理，先做凝聚态理论，后来去斯坦福做理论高能物理，是个实打实的"半道出家"。

有意思的是去向也反了过来——学计算机的姚顺雨去了以物理闻名的普林斯顿，而学物理的姚顺宇去了以 CS 见长的斯坦福。

"我们俩还真的挺不一样。他是一个比我有趣得多的人。比如在 AI 方面，他花了很多时间思考人和 AI 的交互、一些产品的事。对我来说，是一个很不一样的朋友。"

两人至今保持着频繁联系——在硅谷时每隔几周就见面，"但好像见面是为了凑一块玩"，纯聊天、散步、打牌。姚顺雨回国之后，两人依然定期通话。

二、一个 Underdog 的成长路径

在聊物理和 AI 之前，姚顺宇的成长故事本身就很有意思——充满了"义无反顾选择 underdog"的决策模式。

他出生在宁夏大武口（"一个因为煤矿才存在的小城"），小学后半段跟父母去了上海。中考前面临一个选择：去上海四大名校的普通班，还是去稍差一档的格致中学的竞赛班。他选了后者。

"那时候用现在的话说就是 underdog，用当时的话说就是光脚的不怕穿鞋的。"

从没搞过竞赛，就是因为"没搞过所以想搞"——这个模式在他身上反复出现。

更精彩的是清华自主招生的故事：高中参加清华夏令营时，最后一天听说北京学生有自主招生考试的机会，他当场疯狂给招生办老师发短信，要求一起参加。

"我从那件事得到的人生最重要的道理就是——胆子要大。你不争取是永远得不到，争取了也有可能得不到，但不争取就绝对得不到。"

结果还真成了——老师同意让上海学生参加，他签下了降分到一本线的自主招生协议，后来高考确实没考到清华线，但凭这次机会进了清华。

三、九年物理：一个昂贵的教训

姚顺宇的物理生涯分为两段，走向截然不同。

本科阶段（清华，凝聚态理论）：进展顺利，在量子物理领域很快做出了有影响力的学术成果，涉及非厄米系统中的范式级变化。

博士阶段（斯坦福，高能物理）：足够难，但足够落寞。高能理论的核心困境在于——实验已经完全追不上理论的发展。没有实验验证，研究好坏就只能依赖"领域内一些老登的主观判断"。

"我这个博士对自己学到很多东西、成长很大；但于这个世界，没有产生什么贡献。没有影响，几乎为零。"

他对自己在博士期间的总结极为坦率——达到了外界标准，论文也没人说不好，"但摸着良心说，对这个世界有多大的影响？几乎没有"。

五年博士留下的最大教训是什么？

"要做有比较客观评价标准的事，要做对这个世界能够产生影响的事。"

这也直接影响了他后来的选择。博士快结束时，他发现量子计算和 AI 是两条给年轻人机会较多的路。深入了解后发现——量子计算的主要瓶颈在实验（他不擅长），而 AI 更像是"有想法就能用数值去验证"，和做物理非常像。

"为什么我一直爱把 AI 和 18 世纪的物理学做比较？那个时代理论和实验不分家，没有什么理论物理学家、实验物理学家，你就是搞物理的。AI 就有点像那个时代。"

于是他做了一个果断的决定：博士后在伯克利只待了两个星期就辞职了。

四、2026 Q1 快照：模型能力拉平之后

访谈先聊了一些当下的行业判断。这些内容在文字版中被省略，但信息密度很高。

AI 进入"定义焦虑"时代

"一年之前大家担心的还是——OpenAI 的 reasoning 做得这么强，我们有没有机会追上。现在在 Gemini、OpenAI 和 Anthropic 这三家中，没有哪一家会真的担心自己追不上。现在对大家更难的事情是——想明白要去做什么。"

他认为 AI 已经从"能力焦虑"（能不能做到）转入了"定义焦虑"（该做什么）。Benchmark 上各家差距已经缩到噪声级别（SWE-bench 都在 80% 附近），但用户体感仍有区别——Claude 在 agent 和工具使用上最强，Codex 在纯 coding 上追近，Gemini 在 reasoning 和日常使用上领先。

关于 OpenClaw 和 Manus

"Manus 和 OpenClaw 之间的质的区别是什么？是一个我其实自己没太看明白的事情。如果你要回头问我说为什么 Manus 做不了 OpenClaw 那个事儿——我不明白 Manus 为什么做不了。"

对于这两个产品形态背后的意义，他的判断是：技术上不令人惊讶（模型能力的自然溢出），真正的价值是让大众意识到了 long horizon 的可能性。

但壳最终都卖给了模型公司（Manus 卖给 Meta，OpenClaw 卖给 OpenAI），说明壁垒仍在模型侧。

Cursor 与 Anthropic 的微妙关系

"Cursor 和 Anthropic 已经进入了一个非常微妙的关系。曾经他们是亲密无间的合作伙伴——Anthropic 提供模型，Cursor 提供产品。后来 Anthropic 自己有了 Claude Code，变得非常成功。然后 Cursor 又自己试图训自己的 Composer 模型。"

他指出，效率工具很容易出现赢家通吃，这对所有做 coding 的公司来说都是担忧。创业公司的两条生存路径：要么长得足够快（Cursor 试图走的路），要么市场足够小让大公司懒得管（Midjourney 的路）。

AI 对研究效率的影响

作为一线研究员，他自己 90%+ 的代码是模型写的，做实验实现 idea 的效率是一年半前的二十到五十倍。

"因为开发速度变快了之后就越试越想试，有越来越多的想法要去试。从工作时间上来说，我觉得工作时间反而变长了，而且工作密度也变高了。"

他每天大约早上九点开始，一个人在美国时通常待到晚上十点十一点。"在 AI 这个领域没有谁可以养老。"

预训练撞墙？大多数是有 Bug

"我觉得绝大多数撞到墙的人是因为第三种——工作里有个 bug 自己没发现。很多时候修好一个 bug 带来的进展是远大于一些很神奇的技巧的。"

他认为"预训练到头"是一个信念问题：如果你觉得 bug 可以解决，就会觉得还没到头。关键是做事系统——遇到和预期不符的结果时，能否系统性排除各种可能性。"这是 Gemini 和 Anthropic 做得比较好的事。"

五、AI 的"热力学时代"：Scaling Law 与智能涌现

作为一个从基础物理转过来的人，姚顺宇对 AI 领域的若干热门概念有独到的看法。

Scaling Law 是科学规律吗？

"Scaling Law 目前肯定还是很经验。但经验规律和科学规律之间的界限很模糊。热力学那些定律——第一定律、第二定律、克拉伯龙方程——当年被发现的时候，也都是经验规律。后来慢慢知道了微观机制，就变成了科学规律。"

他把当前 AI 的状态类比为 17-18 世纪的热力学——人们不理解"热"的微观理论，不知道热到底是什么东西，就像现在人们无法理解语言模型里哪一个矩阵元在干什么。但不妨碍你有好的经验定律，不妨碍技术继续发展。

"智能涌现"——一个不太科学的说法

"这个话本身就不太科学，自然也没法用科学的话来表达一个不科学的事。智能涌现，对我来说，它更多是一种主观的感觉，而不是客观现象。"

他认为人们说"涌现"时，脑子里想的是模型从只能做单一任务到好像什么都能做。但真正发生的是技术上的涌现——"我们发现了该怎么去做大规模的训练，能够水平提升所有能力"。

预训练到头了吗？

"我的想法经历过摇摆。在 3.7 那个时代，我也曾经抱过'预训练 party is over'的想法。但后来随着了解越来越深入，我觉得还有做的空间。"

他指出，预训练 Scaling Law 的本质不是告诉你要一直变大，而是一个系统的框架，告诉你做什么事更有效。事实上 Anthropic 和 Gemini 的预训练一直在进展，"OpenAI 自己卡了很久"。

六、Anthropic 内部：一个非常 Top Down 的战斗组织

2024 年秋天，姚顺宇以完全没有 AI 工业背景的状态加入了 Anthropic，进入了一个叫 Horizon 的大团队——这个团队后来几乎涵盖了强化学习的方方面面。

为什么 Anthropic 有那么多物理出身的人？

"主要原因还是 connection。Anthropic 创始团队里有两个现在还在技术一线领导的人，都是做物理出身——Jared Kaplan 和 Sam McCandlish。他们招的人也做物理出身，就这样延续下来。但在我之后，几乎没怎么再招完全没有 AI 背景的人了。所以是一个时代的产物。"

Coding 豪赌的由来

Claude 在 coding 上的优势，并不是一开始就规划好的。

"Claude 3 放了之后，Twitter 上很多人讨论说 Claude 3 好像写 code 比 GPT-4 强。在那个年代，GPT-4 和大家 gap 很大，能有一件重要的事比 GPT-4 强，就很厉害了。"

起初可能是偶然发现——"有一个纯技术原因"，是某个团队做了某件事。但 Anthropic 的强处在于它能极快地把信号转化为全公司级别的 bet。

"这是 Anthropic 非常强的一点，它非常 reactive，反应非常快。一旦给它一个信号，让它觉得是 reasonable、该做的事，就会铺上去。它没有大组织的冗余。"

Top Down 的秘密

"实行 top down 有一个很难的点——你做技术的决策人，必须也得是公司的决策人。技术上得能服众，又得能为公司负这个责任。Anthropic 有这个条件——它的技术领导人就是公司的 cofounder。Jared Kaplan 和 Sam McCandlish 自己做这个决定，那是人家的公司。"

这一点其他公司很难复制——

"比如说 OpenAI 就干不了。Ilya 在的时候有可能可以，但后来他好像就失去了做决策的能力，然后他就走了。"

Anthropic 创始团队的团结也是关键："他们是一块趴过战壕的人。他们甚至很多人都是在 Scaling Law、GPT-3 这些关键论文上的合著者。互相之间的信任很关键。"

七、训练 Claude 3.7：大尺度强化学习的幕后

Claude 3.7 对 Anthropic 的后训练来说是一个分水岭。在 3.7 之前，后训练都处于"修修补补"的状态；3.7 是第一次在大规模上做成了后训练强化学习。

时间线

从开始研究到发布，整个过程花了约四五个月：前期研究两三个月，训练到发布又花了两个月——"中间磕磕绊绊，很多新的基础设施要处理"。

核心方法

"得找到合适的环境，这个环境回馈信号足够清晰，本身也是一个很强的数据源。在这个上面能让训练非常稳定，这事就能做成。"

为什么 Coding 是个好赌注？

研究飞轮：coding 做好了能让研究效率翻倍提升，形成正反馈
好的抽象：coding 是模型使用工具和环境交互的绝佳抽象——回归信号清晰，数据充分。"很难在别的场景下找到能同时有这两个特质的使用工具场景。"

Tips 没什么用

"技术的 tips，是一个大家很愿意听，公司又不让你说，但实际又没啥用的事儿。因为很多算法设计并不独立于算法，它非常强的依赖于你的基础设施。"

他举了一个例子：不同公司在强化学习中采样器和训练器的差异程度不同，算法设计也会完全不同。"本质上回答这个问题也是在误导他。现代 AI 训练是一个大的系统，要了解系统的方方面面，才能有全局的认识。"

八、为什么离开 Anthropic

在 Anthropic 待了大约一年后，姚顺宇选择离开。原因有几个：

价值观分歧："不太特别认同 Dario 反华这个事。他个人有什么观点都无所谓，但作为公司 CEO 把观点推到极端地步，是非常情绪化的体现。"
文化冲击：公司从七八百人迅速扩张到接近两千人，从"大家都是朋友"的小作坊变成了有文化冲突的大组织——"确实有一些人我个人不是很喜欢，不太喜欢在这个领域里说很多话的人。Idea is cheap。"
学习驱动：Anthropic 非常专注于语言模型和 coding，但"完全没有人做多模态生成"，也没有在底层工程基础设施上花太多精力。

关于 Claude Code 的诞生，他特别提到了 Boris Cherny——"Claude Code 这个事的开端，是他自己想要做这个事、提高自己或者同事的工作效率，最后变成了一个对所有人都很重要的事。"这也让他感慨，产品经理可能是目前最难被 AI 取代的角色之一。

在他离开时，对 Anthropic 的前景其实是悲观的——主要收入来源是卖 Token 的 API，"这是个差生意，eventually 就是要打价格战"。但后来 Anthropic 在产品上的巧思证明了他的悲观是过度的。

"你要问我 OpenAI 和 Anthropic 哪个会先变得没那么重要——我当时会觉得可能是 Anthropic。但后来 OpenAI 被 Google 揍了一拳，Anthropic 自己又上道了。"

九、"AI 本质是简单的"

这是姚顺宇全场最挑战常识的判断。

"这甚至不是一个结论，这是我的一个 statement。它可对可错。"

他的逻辑是：AI 和真正"难"的东西（比如高能物理）的区别在于——AI 什么实验都能做。高能物理没有对应能标的实验数据，就理解不了那个能标的理论；但 AI 不受这个约束，"理解不了没关系，也可以往前发展"。

"AI 没有给人感觉碰壁的原因是，首先很多东西你都能试，其次不是大家已经想空了脑袋没有想法可以试。更多的是有太多想法，得一个个试，花时间。"

进一步地，他认为在 Transformer / GPT 范式被发现之后，大多数工作在智力层面并不困难：

"AI 这个事，本来也不太需要脑子——真的不太需要脑子。我觉得都是一些本科生就能干的活。这个行业最重要的特质，就是靠谱，就是做事细，对自己做的事情负责任。"

十、加入 Gemini：Google 的另一套打法

2025 年 9 月底，姚顺宇加入了 Google DeepMind 的 Gemini 团队。

Google 为什么追上来了？

他认为两个事件共同造就了 Gemini 的转折：Nano Banana（爆款事件，大量用户下载 APP）和紧接着发布的 Gemini 3（把涌入的用户留住）。

"如果只有 Gemini 3，可能也不会有这么好的效果。市占率不到 10% 的时候，模型好一点坏一点，传播太慢了。Nano Banana 把量打起来，Gemini 3 把人留回来。"

他提出了一个有趣的观点——OpenAI 其实救了 Google 一命：

"大家以前一直担心聊天机器人会完全把搜索取代掉。好在 OpenAI 先把这个事做了，让 Google 意识到很重要，但 OpenAI 又没有做到极致、没有把搜索干掉。结果让 Google 自己把聊天机器人追上来了。现在难受的就是 OpenAI 了。"

大公司 vs Startup

	Anthropic	Google/Gemini
决策方式	Top down，极快响应	Bottom up，系统化框架
核心优势	Make bets，集中赌一件事	方方面面有储备，任何事成了都能跟上
预训练	持续进展	已进入 Google 舒适区，变成"工程项目"
后训练	更成熟	更 bottom up，大家广泛探索
文化	小作坊→快速扩张	传统工程师文化，系统性强

十一、当前的两个关键方向：ML Coding 与 Long Horizon

ML Coding

目标是实现 AI 自己训练自己的完整链条——不仅能写代码，还能跑实验、看结果、分析结果、提出新假设、设计新实验。

"这条链条目前还没有完整。但下一步会慢慢变得完整。未来的 6-12 个月，AI 就会自己做实验。"

Long Horizon

核心命题：train with finite, but use as infinite——用有限的上下文训练，但用起来像无限的上下文。

他把人类作为类比——人的 context 其实非常短（"你现在问我昨天晚上吃什么，我一点也想不起来了"），但人能选择性遗忘、选择性检索，把与当前场景相关的信息抓回来。

技术方案有两个大方向：

预训练侧：sparse attention 等（如 DeepSeek 的相关工作）
后训练侧：类似 Cursor 的 context management，让模型学会扔掉不重要的信息、存储重要信息

他个人更看好后训练方案——"能不能用短的 context 去训练，但能做长 context 的事。预训练方案本质上还是需要数据里有长 context。"

"基于我当下的认知，一个关键的重要的 bet 是什么？——Long horizon。"

十二、集体主义与"老登"哲学

贯穿整场访谈的一个核心观点：AI 个人英雄主义的时代已经过去了。

"找到那个技术之后，很长一段时间，从模型侧来说都是集体主义。这个集体能不能一起工作、能不能为了一个目标花自己的时间和精力，是最重要的事。"

如何招到靠谱的人？

他设计了一道独特的面试题：要求候选人在 24 小时内从零完成一个强化学习项目，然后进行一小时讨论。考验两件事：能不能有效利用 AI，以及有没有真正理解 AI 做了什么。至于为什么是 24 小时——"就是为了看这个人有多看重这个机会。如果他足够熬夜，就能撑住。"

对"老登"的犀利点评

"没有哪个老登是你的亲属，所以你觉得他傻，他就是傻，就可以直接说他傻。无所谓的啊。"

"人年纪大了不一定会变成老登。一种状态叫德高望重——少指手画脚，花力气培养年轻人。另一种就是老登——自己也不懂，还爱指手画脚。"

不过他也承认，物理界还是有真正让他敬佩的人——博士导师 Douglas Stanford（"他比我聪明太多了"）、Haldane（"有异常的远见，在他那个时代格格不入"）。在 AI 界，勉强能算英雄的是 Geoffrey Hinton（在大家都不确定的时候坚持一个方向），以及 Transformer 论文的作者群体——"一个英雄集体"。

十三、几个散落的判断

"预训练也是一种 RL"：他认为预训练/SFT 和强化学习之间没有本质的算法区别——前者只是把数据当成专家输出去靠近，后者是自己产生结果、好的往上靠坏的远离。真正的区别在数据分布上：预训练要求分布够广、质量不必极高；后训练反过来，分布窄但质量要求极高。

Google DeepMind 的权力结构：

"很多大的决定可能不是由他来决定怎么做，但最后拍板得 Sergey 来拍。"

在一线出现更多的人是 Koray（Demis 的 CTO，也是 Google 的 SVP），Demis 本人更多管偏 science 的事。至于 xAI——"它们一直都挺动荡的，我也不知道发生了啥。"

关于世界模型：

"一万个人有一万个世界模型——定义不清晰。"

关于 Continual Learning：他认为 continual learning 和 long horizon 没有本质区别——"context 里那些词自己的 KV 不也是一种权重吗？"

做事系统的真正含义：

"一个研究员如果做不到对全局去考虑的话，他就不是一个好的研究员。在学术界做 research 是一个人吃饱全家不愁——为我的项目负责。但在公司里，得为整个公司负责。"

关于 Neo Labs：

"绝大多数的 neo lab 都会死。有些确实在 deliver 新东西，比如 Thinking Machine。但有些——请帮我把名字哔掉——我就完全不知道他们要干嘛。"

关于 AI 安全：

"Anthropic 的解释是'我得拥有最前沿的模型，大家不得不听我的，来推进我的安全政策'。从我个人角度，这个想法非常幼稚。"

他类比核武器控制——最终受控的方式是多方制衡（Multiparty Control），而不是寄望于某一家公司制定规则。

关于 Chatbot 不是终局：

"人类到现在只通过 chatbot 跟 AI 沟通，让你觉得很蠢是吧？——很蠢。那应该用什么？——没想明白。要想明白我就干了。"

关于入行时机：

"纯做语言模型，已经不是蓝海了。晚了，末班车已经发车了。我感觉我入行就是那个末班车。"

十四、中美 AI 的两种打法

美国做 toB，中国做 toC

"中国很强的就是 C 端——它能想出一些非常复杂的产品结构，用一种很间接、很不自然的方式把利润滚起来。比如抖音，不是看一个视频收你两毛钱，而是你可以免费看视频，但我偷偷加广告、做直播、做电商。"

"但做效率软件没有这个事儿——我帮你写 code，成本一个月一百五，卖你两百，我挣五十。非常直接。"

他认为字节跳动在消费者市场上"没有哪个美国公司能和它竞争"，并且"被严重低估"。美国公司至今没有真正看懂字节。

"中国的产品一开始不挣钱，但一旦开始挣钱你就拦不住它——它把那个圈转起来的时候，你再想往里插就插不进去了。"

豆包的独特之处

他对豆包的语音能力给出了罕见的高评价：

"客气地说可能是全世界最好的之一，不客气地说就是全世界最好的。"

但他也指出美国的几家还没有在日常体验优化上花太多精力——"现在美国这几家还都处于在努力把智能的上限往前不断推进"的阶段。

写在最后

姚顺宇是个有趣的矛盾体。

一方面，他是个极度谦逊的人——反复说"我对那个事没那么重要"，把所有成就归于集体和运气；另一方面，他又毫不掩饰地说"AI 不需要脑子"、点评谁"蠢的始终如一"。

这种矛盾的根源或许在于他的物理训练——在高能理论领域见过真正"难"的问题（也见过那些问题带来的无力感），再看 AI 时，既不会高估自己的作用，也不会高估这个领域的智力门槛。

如果用一句话总结这场 4 小时对话的核心信息，大概是：

AI 是一个本质简单、但需要极度靠谱的人去做的集体主义事业。不要神话任何个体，不要迷信任何 tips，找到好的环境、做干净的实验、对结果负责——就这么简单。

本文基于「张小珺Jun｜商业访谈录」第 140 期播客完整音频转录及配套文字稿整理。播客时长近 4 小时，本文做了大量精简，完整版请收听播客或观看视频。
播客收听：小宇宙FM · Apple Podcast · Spotify
视频观看：Bilibili · 小红书 · 视频号