姚顺宇 4h 访谈速读：从 Anthropic 到 Gemini 的 15 个犀利判断

🔥 最炸裂的判断

1

Hot Take

"AI 这个事，本来也不太需要脑子——真的不太需要脑子。我觉得都是一些本科生就能干的活。"

他认为 Transformer 之后的大量工作在智力层面并不困难，这个行业最重要的特质是"靠谱、做事细、对自己做的事负责任"。

2

Hot Take

"AI 个人英雄主义时代已经过去了，所以也没有什么英雄。有时候甚至觉得旧时代英雄有点蠢。"

他点评了某位业界名人"蠢的始终如一"——说话太模糊，not even wrong，什么结果出来都能自圆其说。

3

Hot Take

"没有哪个老登是你的亲属，所以你觉得他傻，他就是傻，就可以直接说他傻。无所谓的啊。"

不是 AI 出身的好处——没有导师、没有旧友、没有人情债。他区分两种老去方式：德高望重 vs 老登（自己不懂还爱指手画脚）。

🏢 行业格局判断

4

组织

"Anthropic 能 top down 的秘密：技术决策人必须也是公司决策人。OpenAI 就干不了。"

Jared Kaplan 和 Sam McCandlish 是 cofounder，自己做技术决策。Ilya 曾经可以，但后来失去了做决策的能力。关键是 cofounding team 互相信任——"一块趴过战壕的人"。

5

组织

"从某种意义上来说，OpenAI 是救了 Google 一命。"

OpenAI 做了聊天机器人让 Google 意识到威胁，但又没做到极致、没干掉搜索。等 Google 追上来之后，现在难受的反而是 OpenAI。

6

组织

"Cursor 和 Anthropic 已进入非常微妙的竞争关系。效率工具很容易赢家通吃。"

曾经亲密无间——Anthropic 给模型，Cursor 做产品。现在 Anthropic 有了 Claude Code，Cursor 开始训自己的模型。创业公司两条路：长得够快 or 市场够小。

对比

Anthropic

Top down，极快响应
集中赌一件事（coding）
小作坊→快速扩张
纵深：语言模型全链路

Google / Gemini

Bottom up，系统化框架
方方面面有储备
工程管理能力极强
横向：不同方向自由探索

两种打法都能 work。预训练在 Google 已进入"舒适区"——变成了一个可控的工程项目。

🧪 技术判断

7

技术

"预训练到头了？绝大多数撞墙的人是因为有 bug 没发现。"

他亲身经历从"party is over"到重新乐观。三种可能：规律适用范围到头、某个条件不满足、有 bug。"修好一个 bug 带来的进展远大于很多神奇的技巧。"

8

技术

"技术 tips 是一个大家很愿意听、公司又不让你说、但实际又没啥用的事儿。"

算法设计强依赖基础设施。每家公司的 sampler 和 trainer 差异不同，算法设计完全不同。"本质上回答这个问题也是在误导他。"

9

技术

"我的关键 bet：Long Horizon。Train with finite, but use as infinite."

人的 context 极短（昨晚吃什么已经忘了），但能选择性遗忘和检索。他更看好后训练方案——用短 context 训练，做长 context 的事。预训练方案本质上还是需要数据里有长 context。

10

技术

"Pretraining 也是一种 RL。真正的区别在数据分布，不在算法。"

预训练/SFT 是把数据当专家输出去靠近，RL 是自己产生结果做筛选——前者是后者的子集。区别只在分布：预训练要广不要精，后训练要精不要广。

🧭 职业与人生

11

职业

"离开 Anthropic 的原因：Dario 反华占 40%，不是控股原因，但是 majority holder。"

其他原因：文化冲击（人从 800 扩到 2000，"不喜欢在 Slack 上讲大道理的人"）；想学 Anthropic 不做的东西（多模态生成、底层工程基础设施）。

12

职业

"纯做语言模型已经不是蓝海了。末班车已经发车了。我感觉我入行就是那个末班车。"

但 AI 方向很大——多模态生成、机器人、用 AI 做科学研究都还是蓝海。"做现在最热的事并不是正确选择，做现在没有人做到的事可能更好。"

13

面试

"24 小时面试题：从零做一个 RL 项目，然后跟我讨论 1 小时。"

考两件事：① 能不能有效利用 AI（不是考写代码）② 有没有真正理解 AI 做了什么（全盘扔给 AI 但不理解，讨论时会露馅）。设 24 小时是为了看你有多看重这个机会——能不能熬夜。

🇨🇳 中美差异

14

中美

"字节跳动被严重低估。没有哪个美国公司能在消费者市场和它竞争。美国公司至今没看懂字节。"

中国 C 端产品：复杂结构、间接变现（免费看视频→广告/直播/电商）。美国效率工具：成本 150 卖 200 挣 50，非常直接。"中国产品一开始不挣钱，但一旦转起来你插不进去。"

15

中美

"豆包的语音，不客气地说就是全世界最好的。"

但美国几家还没在日常体验上花精力——"都在努力把智能上限往前推"。蒸馏方面：字节是蒸馏最少的，模型"比较有特点"。他区分了"硬蒸"（抄 token，商业不道德且智力上愚蠢）和"聪明的蒸"（用别家模型当评价者，技术上有趣——可能是真正的 multi-agent 训练先驱）。

AI 是一个本质简单、但需要极度靠谱的人去做的集体主义事业。
不要神话任何个体，不要迷信任何 tips，
找到好的环境、做干净的实验、对结果负责。

姚顺宇访谈速读：从 Anthropic 到 Gemini

Anthropic

Google / Gemini

姚顺宇访谈速读：
从 Anthropic 到 Gemini