← 播客精读
节目录制现场

从理论物理到训练 Claude 和 Gemini:姚顺宇的 AI 修行之路

「张小珺Jun|商业访谈录」第 140 期 · 2026 年 3 月录制 · 时长近 4 小时

嘉宾姚顺宇曾先后在 Anthropic 和 Google DeepMind 担任研究科学家,参与了 Claude 3.7、Claude 4.5、Gemini 3 等关键模型的开发。本文基于完整音频转录及配套文字稿整理。 约 33 分钟 ·

一、两个 Shunyu Yao

硅谷 AI 圈有一个经典的"撞名"故事:两位清华同届毕业生,都叫 Yao Shunyu。

一位是姚顺雨(2025 年从 OpenAI 跳槽到腾讯,出任首席 AI 科学家),另一位就是今天的主角姚顺宇——从 Anthropic 跳到了 Google DeepMind。

两人的轨迹有不少重叠,但路径完全不同。姚顺雨从一开始就是计算机科学出身,本科在清华姚班;而姚顺宇读的是物理,先做凝聚态理论,后来去斯坦福做理论高能物理,是个实打实的"半道出家"。

有意思的是去向也反了过来——学计算机的姚顺雨去了以物理闻名的普林斯顿,而学物理的姚顺宇去了以 CS 见长的斯坦福。

"我们俩还真的挺不一样。他是一个比我有趣得多的人。比如在 AI 方面,他花了很多时间思考人和 AI 的交互、一些产品的事。对我来说,是一个很不一样的朋友。"

两人至今保持着频繁联系——在硅谷时每隔几周就见面,"但好像见面是为了凑一块玩",纯聊天、散步、打牌。姚顺雨回国之后,两人依然定期通话。


二、一个 Underdog 的成长路径

在聊物理和 AI 之前,姚顺宇的成长故事本身就很有意思——充满了"义无反顾选择 underdog"的决策模式。

他出生在宁夏大武口("一个因为煤矿才存在的小城"),小学后半段跟父母去了上海。中考前面临一个选择:去上海四大名校的普通班,还是去稍差一档的格致中学的竞赛班。他选了后者。

"那时候用现在的话说就是 underdog,用当时的话说就是光脚的不怕穿鞋的。"

从没搞过竞赛,就是因为"没搞过所以想搞"——这个模式在他身上反复出现。

更精彩的是清华自主招生的故事:高中参加清华夏令营时,最后一天听说北京学生有自主招生考试的机会,他当场疯狂给招生办老师发短信,要求一起参加。

"我从那件事得到的人生最重要的道理就是——胆子要大。你不争取是永远得不到,争取了也有可能得不到,但不争取就绝对得不到。"

结果还真成了——老师同意让上海学生参加,他签下了降分到一本线的自主招生协议,后来高考确实没考到清华线,但凭这次机会进了清华。


三、九年物理:一个昂贵的教训

姚顺宇的物理生涯分为两段,走向截然不同。

本科阶段(清华,凝聚态理论):进展顺利,在量子物理领域很快做出了有影响力的学术成果,涉及非厄米系统中的范式级变化。

博士阶段(斯坦福,高能物理):足够难,但足够落寞。高能理论的核心困境在于——实验已经完全追不上理论的发展。没有实验验证,研究好坏就只能依赖"领域内一些老登的主观判断"。

"我这个博士对自己学到很多东西、成长很大;但于这个世界,没有产生什么贡献。没有影响,几乎为零。"

他对自己在博士期间的总结极为坦率——达到了外界标准,论文也没人说不好,"但摸着良心说,对这个世界有多大的影响?几乎没有"。

五年博士留下的最大教训是什么?

"要做有比较客观评价标准的事,要做对这个世界能够产生影响的事。"

这也直接影响了他后来的选择。博士快结束时,他发现量子计算和 AI 是两条给年轻人机会较多的路。深入了解后发现——量子计算的主要瓶颈在实验(他不擅长),而 AI 更像是"有想法就能用数值去验证",和做物理非常像。

"为什么我一直爱把 AI 和 18 世纪的物理学做比较?那个时代理论和实验不分家,没有什么理论物理学家、实验物理学家,你就是搞物理的。AI 就有点像那个时代。"

于是他做了一个果断的决定:博士后在伯克利只待了两个星期就辞职了。


四、2026 Q1 快照:模型能力拉平之后

访谈先聊了一些当下的行业判断。这些内容在文字版中被省略,但信息密度很高。

AI 进入"定义焦虑"时代

"一年之前大家担心的还是——OpenAI 的 reasoning 做得这么强,我们有没有机会追上。现在在 Gemini、OpenAI 和 Anthropic 这三家中,没有哪一家会真的担心自己追不上。现在对大家更难的事情是——想明白要去做什么。"

他认为 AI 已经从"能力焦虑"(能不能做到)转入了"定义焦虑"(该做什么)。Benchmark 上各家差距已经缩到噪声级别(SWE-bench 都在 80% 附近),但用户体感仍有区别——Claude 在 agent 和工具使用上最强,Codex 在纯 coding 上追近,Gemini 在 reasoning 和日常使用上领先。

关于 OpenClaw 和 Manus

"Manus 和 OpenClaw 之间的质的区别是什么?是一个我其实自己没太看明白的事情。如果你要回头问我说为什么 Manus 做不了 OpenClaw 那个事儿——我不明白 Manus 为什么做不了。"

对于这两个产品形态背后的意义,他的判断是:技术上不令人惊讶(模型能力的自然溢出),真正的价值是让大众意识到了 long horizon 的可能性

但壳最终都卖给了模型公司(Manus 卖给 Meta,OpenClaw 卖给 OpenAI),说明壁垒仍在模型侧。

Cursor 与 Anthropic 的微妙关系

"Cursor 和 Anthropic 已经进入了一个非常微妙的关系。曾经他们是亲密无间的合作伙伴——Anthropic 提供模型,Cursor 提供产品。后来 Anthropic 自己有了 Claude Code,变得非常成功。然后 Cursor 又自己试图训自己的 Composer 模型。"

他指出,效率工具很容易出现赢家通吃,这对所有做 coding 的公司来说都是担忧。创业公司的两条生存路径:要么长得足够快(Cursor 试图走的路),要么市场足够小让大公司懒得管(Midjourney 的路)。

AI 对研究效率的影响

作为一线研究员,他自己 90%+ 的代码是模型写的,做实验实现 idea 的效率是一年半前的二十到五十倍

"因为开发速度变快了之后就越试越想试,有越来越多的想法要去试。从工作时间上来说,我觉得工作时间反而变长了,而且工作密度也变高了。"

他每天大约早上九点开始,一个人在美国时通常待到晚上十点十一点。"在 AI 这个领域没有谁可以养老。"

预训练撞墙?大多数是有 Bug

"我觉得绝大多数撞到墙的人是因为第三种——工作里有个 bug 自己没发现。很多时候修好一个 bug 带来的进展是远大于一些很神奇的技巧的。"

他认为"预训练到头"是一个信念问题:如果你觉得 bug 可以解决,就会觉得还没到头。关键是做事系统——遇到和预期不符的结果时,能否系统性排除各种可能性。"这是 Gemini 和 Anthropic 做得比较好的事。"


五、AI 的"热力学时代":Scaling Law 与智能涌现

作为一个从基础物理转过来的人,姚顺宇对 AI 领域的若干热门概念有独到的看法。

Scaling Law 是科学规律吗?

"Scaling Law 目前肯定还是很经验。但经验规律和科学规律之间的界限很模糊。热力学那些定律——第一定律、第二定律、克拉伯龙方程——当年被发现的时候,也都是经验规律。后来慢慢知道了微观机制,就变成了科学规律。"

他把当前 AI 的状态类比为 17-18 世纪的热力学——人们不理解"热"的微观理论,不知道热到底是什么东西,就像现在人们无法理解语言模型里哪一个矩阵元在干什么。但不妨碍你有好的经验定律,不妨碍技术继续发展。

"智能涌现"——一个不太科学的说法

"这个话本身就不太科学,自然也没法用科学的话来表达一个不科学的事。智能涌现,对我来说,它更多是一种主观的感觉,而不是客观现象。"

他认为人们说"涌现"时,脑子里想的是模型从只能做单一任务到好像什么都能做。但真正发生的是技术上的涌现——"我们发现了该怎么去做大规模的训练,能够水平提升所有能力"。

预训练到头了吗?

"我的想法经历过摇摆。在 3.7 那个时代,我也曾经抱过'预训练 party is over'的想法。但后来随着了解越来越深入,我觉得还有做的空间。"

他指出,预训练 Scaling Law 的本质不是告诉你要一直变大,而是一个系统的框架,告诉你做什么事更有效。事实上 Anthropic 和 Gemini 的预训练一直在进展,"OpenAI 自己卡了很久"。


六、Anthropic 内部:一个非常 Top Down 的战斗组织

2024 年秋天,姚顺宇以完全没有 AI 工业背景的状态加入了 Anthropic,进入了一个叫 Horizon 的大团队——这个团队后来几乎涵盖了强化学习的方方面面。

为什么 Anthropic 有那么多物理出身的人?

"主要原因还是 connection。Anthropic 创始团队里有两个现在还在技术一线领导的人,都是做物理出身——Jared Kaplan 和 Sam McCandlish。他们招的人也做物理出身,就这样延续下来。但在我之后,几乎没怎么再招完全没有 AI 背景的人了。所以是一个时代的产物。"

Coding 豪赌的由来

Claude 在 coding 上的优势,并不是一开始就规划好的。

"Claude 3 放了之后,Twitter 上很多人讨论说 Claude 3 好像写 code 比 GPT-4 强。在那个年代,GPT-4 和大家 gap 很大,能有一件重要的事比 GPT-4 强,就很厉害了。"

起初可能是偶然发现——"有一个纯技术原因",是某个团队做了某件事。但 Anthropic 的强处在于它能极快地把信号转化为全公司级别的 bet。

"这是 Anthropic 非常强的一点,它非常 reactive,反应非常快。一旦给它一个信号,让它觉得是 reasonable、该做的事,就会铺上去。它没有大组织的冗余。"

Top Down 的秘密

"实行 top down 有一个很难的点——你做技术的决策人,必须也得是公司的决策人。技术上得能服众,又得能为公司负这个责任。Anthropic 有这个条件——它的技术领导人就是公司的 cofounder。Jared Kaplan 和 Sam McCandlish 自己做这个决定,那是人家的公司。"

这一点其他公司很难复制——

"比如说 OpenAI 就干不了。Ilya 在的时候有可能可以,但后来他好像就失去了做决策的能力,然后他就走了。"

Anthropic 创始团队的团结也是关键:"他们是一块趴过战壕的人。他们甚至很多人都是在 Scaling Law、GPT-3 这些关键论文上的合著者。互相之间的信任很关键。"


七、训练 Claude 3.7:大尺度强化学习的幕后

Claude 3.7 对 Anthropic 的后训练来说是一个分水岭。在 3.7 之前,后训练都处于"修修补补"的状态;3.7 是第一次在大规模上做成了后训练强化学习。

时间线

从开始研究到发布,整个过程花了约四五个月:前期研究两三个月,训练到发布又花了两个月——"中间磕磕绊绊,很多新的基础设施要处理"。

核心方法

"得找到合适的环境,这个环境回馈信号足够清晰,本身也是一个很强的数据源。在这个上面能让训练非常稳定,这事就能做成。"

为什么 Coding 是个好赌注?

  1. 研究飞轮:coding 做好了能让研究效率翻倍提升,形成正反馈
  2. 好的抽象:coding 是模型使用工具和环境交互的绝佳抽象——回归信号清晰,数据充分。"很难在别的场景下找到能同时有这两个特质的使用工具场景。"

Tips 没什么用

"技术的 tips,是一个大家很愿意听,公司又不让你说,但实际又没啥用的事儿。因为很多算法设计并不独立于算法,它非常强的依赖于你的基础设施。"

他举了一个例子:不同公司在强化学习中采样器和训练器的差异程度不同,算法设计也会完全不同。"本质上回答这个问题也是在误导他。现代 AI 训练是一个大的系统,要了解系统的方方面面,才能有全局的认识。"


八、为什么离开 Anthropic

在 Anthropic 待了大约一年后,姚顺宇选择离开。原因有几个:

  1. 价值观分歧:"不太特别认同 Dario 反华这个事。他个人有什么观点都无所谓,但作为公司 CEO 把观点推到极端地步,是非常情绪化的体现。"
  2. 文化冲击:公司从七八百人迅速扩张到接近两千人,从"大家都是朋友"的小作坊变成了有文化冲突的大组织——"确实有一些人我个人不是很喜欢,不太喜欢在这个领域里说很多话的人。Idea is cheap。"
  3. 学习驱动:Anthropic 非常专注于语言模型和 coding,但"完全没有人做多模态生成",也没有在底层工程基础设施上花太多精力。

关于 Claude Code 的诞生,他特别提到了 Boris Cherny——"Claude Code 这个事的开端,是他自己想要做这个事、提高自己或者同事的工作效率,最后变成了一个对所有人都很重要的事。"这也让他感慨,产品经理可能是目前最难被 AI 取代的角色之一。

在他离开时,对 Anthropic 的前景其实是悲观的——主要收入来源是卖 Token 的 API,"这是个差生意,eventually 就是要打价格战"。但后来 Anthropic 在产品上的巧思证明了他的悲观是过度的。

"你要问我 OpenAI 和 Anthropic 哪个会先变得没那么重要——我当时会觉得可能是 Anthropic。但后来 OpenAI 被 Google 揍了一拳,Anthropic 自己又上道了。"


九、"AI 本质是简单的"

这是姚顺宇全场最挑战常识的判断。

"这甚至不是一个结论,这是我的一个 statement。它可对可错。"

他的逻辑是:AI 和真正"难"的东西(比如高能物理)的区别在于——AI 什么实验都能做。高能物理没有对应能标的实验数据,就理解不了那个能标的理论;但 AI 不受这个约束,"理解不了没关系,也可以往前发展"。

"AI 没有给人感觉碰壁的原因是,首先很多东西你都能试,其次不是大家已经想空了脑袋没有想法可以试。更多的是有太多想法,得一个个试,花时间。"

进一步地,他认为在 Transformer / GPT 范式被发现之后,大多数工作在智力层面并不困难:

"AI 这个事,本来也不太需要脑子——真的不太需要脑子。我觉得都是一些本科生就能干的活。这个行业最重要的特质,就是靠谱,就是做事细,对自己做的事情负责任。"


十、加入 Gemini:Google 的另一套打法

2025 年 9 月底,姚顺宇加入了 Google DeepMind 的 Gemini 团队。

Google 为什么追上来了?

他认为两个事件共同造就了 Gemini 的转折:Nano Banana(爆款事件,大量用户下载 APP)和紧接着发布的 Gemini 3(把涌入的用户留住)。

"如果只有 Gemini 3,可能也不会有这么好的效果。市占率不到 10% 的时候,模型好一点坏一点,传播太慢了。Nano Banana 把量打起来,Gemini 3 把人留回来。"

他提出了一个有趣的观点——OpenAI 其实救了 Google 一命:

"大家以前一直担心聊天机器人会完全把搜索取代掉。好在 OpenAI 先把这个事做了,让 Google 意识到很重要,但 OpenAI 又没有做到极致、没有把搜索干掉。结果让 Google 自己把聊天机器人追上来了。现在难受的就是 OpenAI 了。"

大公司 vs Startup

AnthropicGoogle/Gemini
决策方式Top down,极快响应Bottom up,系统化框架
核心优势Make bets,集中赌一件事方方面面有储备,任何事成了都能跟上
预训练持续进展已进入 Google 舒适区,变成"工程项目"
后训练更成熟更 bottom up,大家广泛探索
文化小作坊→快速扩张传统工程师文化,系统性强

十一、当前的两个关键方向:ML Coding 与 Long Horizon

ML Coding

目标是实现 AI 自己训练自己的完整链条——不仅能写代码,还能跑实验、看结果、分析结果、提出新假设、设计新实验。

"这条链条目前还没有完整。但下一步会慢慢变得完整。未来的 6-12 个月,AI 就会自己做实验。"

Long Horizon

核心命题:train with finite, but use as infinite——用有限的上下文训练,但用起来像无限的上下文。

他把人类作为类比——人的 context 其实非常短("你现在问我昨天晚上吃什么,我一点也想不起来了"),但人能选择性遗忘、选择性检索,把与当前场景相关的信息抓回来。

技术方案有两个大方向:

他个人更看好后训练方案——"能不能用短的 context 去训练,但能做长 context 的事。预训练方案本质上还是需要数据里有长 context。"

"基于我当下的认知,一个关键的重要的 bet 是什么?——Long horizon。"


十二、集体主义与"老登"哲学

贯穿整场访谈的一个核心观点:AI 个人英雄主义的时代已经过去了。

"找到那个技术之后,很长一段时间,从模型侧来说都是集体主义。这个集体能不能一起工作、能不能为了一个目标花自己的时间和精力,是最重要的事。"

如何招到靠谱的人?

他设计了一道独特的面试题:要求候选人在 24 小时内从零完成一个强化学习项目,然后进行一小时讨论。考验两件事:能不能有效利用 AI,以及有没有真正理解 AI 做了什么。至于为什么是 24 小时——"就是为了看这个人有多看重这个机会。如果他足够熬夜,就能撑住。"

对"老登"的犀利点评

"没有哪个老登是你的亲属,所以你觉得他傻,他就是傻,就可以直接说他傻。无所谓的啊。"

"人年纪大了不一定会变成老登。一种状态叫德高望重——少指手画脚,花力气培养年轻人。另一种就是老登——自己也不懂,还爱指手画脚。"

不过他也承认,物理界还是有真正让他敬佩的人——博士导师 Douglas Stanford("他比我聪明太多了")、Haldane("有异常的远见,在他那个时代格格不入")。在 AI 界,勉强能算英雄的是 Geoffrey Hinton(在大家都不确定的时候坚持一个方向),以及 Transformer 论文的作者群体——"一个英雄集体"。


十三、几个散落的判断

"预训练也是一种 RL":他认为预训练/SFT 和强化学习之间没有本质的算法区别——前者只是把数据当成专家输出去靠近,后者是自己产生结果、好的往上靠坏的远离。真正的区别在数据分布上:预训练要求分布够广、质量不必极高;后训练反过来,分布窄但质量要求极高。

Google DeepMind 的权力结构

"很多大的决定可能不是由他来决定怎么做,但最后拍板得 Sergey 来拍。"

在一线出现更多的人是 Koray(Demis 的 CTO,也是 Google 的 SVP),Demis 本人更多管偏 science 的事。至于 xAI——"它们一直都挺动荡的,我也不知道发生了啥。"

关于世界模型

"一万个人有一万个世界模型——定义不清晰。"

关于 Continual Learning:他认为 continual learning 和 long horizon 没有本质区别——"context 里那些词自己的 KV 不也是一种权重吗?"

做事系统的真正含义

"一个研究员如果做不到对全局去考虑的话,他就不是一个好的研究员。在学术界做 research 是一个人吃饱全家不愁——为我的项目负责。但在公司里,得为整个公司负责。"

关于 Neo Labs

"绝大多数的 neo lab 都会死。有些确实在 deliver 新东西,比如 Thinking Machine。但有些——请帮我把名字哔掉——我就完全不知道他们要干嘛。"

关于 AI 安全

"Anthropic 的解释是'我得拥有最前沿的模型,大家不得不听我的,来推进我的安全政策'。从我个人角度,这个想法非常幼稚。"

他类比核武器控制——最终受控的方式是多方制衡(Multiparty Control),而不是寄望于某一家公司制定规则。

关于 Chatbot 不是终局

"人类到现在只通过 chatbot 跟 AI 沟通,让你觉得很蠢是吧?——很蠢。那应该用什么?——没想明白。要想明白我就干了。"

关于入行时机

"纯做语言模型,已经不是蓝海了。晚了,末班车已经发车了。我感觉我入行就是那个末班车。"


十四、中美 AI 的两种打法

美国做 toB,中国做 toC

"中国很强的就是 C 端——它能想出一些非常复杂的产品结构,用一种很间接、很不自然的方式把利润滚起来。比如抖音,不是看一个视频收你两毛钱,而是你可以免费看视频,但我偷偷加广告、做直播、做电商。"

"但做效率软件没有这个事儿——我帮你写 code,成本一个月一百五,卖你两百,我挣五十。非常直接。"

他认为字节跳动在消费者市场上"没有哪个美国公司能和它竞争",并且"被严重低估"。美国公司至今没有真正看懂字节。

"中国的产品一开始不挣钱,但一旦开始挣钱你就拦不住它——它把那个圈转起来的时候,你再想往里插就插不进去了。"

豆包的独特之处

他对豆包的语音能力给出了罕见的高评价:

"客气地说可能是全世界最好的之一,不客气地说就是全世界最好的。"

但他也指出美国的几家还没有在日常体验优化上花太多精力——"现在美国这几家还都处于在努力把智能的上限往前不断推进"的阶段。


写在最后

姚顺宇是个有趣的矛盾体。

一方面,他是个极度谦逊的人——反复说"我对那个事没那么重要",把所有成就归于集体和运气;另一方面,他又毫不掩饰地说"AI 不需要脑子"、点评谁"蠢的始终如一"。

这种矛盾的根源或许在于他的物理训练——在高能理论领域见过真正"难"的问题(也见过那些问题带来的无力感),再看 AI 时,既不会高估自己的作用,也不会高估这个领域的智力门槛。

如果用一句话总结这场 4 小时对话的核心信息,大概是:

AI 是一个本质简单、但需要极度靠谱的人去做的集体主义事业。不要神话任何个体,不要迷信任何 tips,找到好的环境、做干净的实验、对结果负责——就这么简单。


本文基于「张小珺Jun|商业访谈录」第 140 期播客完整音频转录及配套文字稿整理。播客时长近 4 小时,本文做了大量精简,完整版请收听播客或观看视频。
播客收听:小宇宙FM · Apple Podcast · Spotify
视频观看:Bilibili · 小红书 · 视频号

播客封面
链接已复制