← 播客精读
← 播客精读
Ilya Sutskever on the Dwarkesh Podcast

Ilya Sutskever:从 scaling 时代到 research 时代

Dwarkesh Podcast 深度访谈精读——泛化、情绪、对齐,与超级智能的路线图

嘉宾Ilya Sutskever——Safe Superintelligence(SSI)联合创始人兼首席科学家,此前是 OpenAI 联合创始人兼首席科学家,深度学习史上一连串里程碑(AlexNet、Seq2Seq、GPT 系列)的共同作者。他被公认为当今世界最好的 AI 研究品味拥有者之一,也是极少公开发言的人。主持Dwarkesh Patel。录制于 2025 年 11 月,全长约 96 分钟。这是 Ilya 离开 OpenAI、创办 SSI 之后为数不多的一次长谈,话题从"模型为什么又聪明又蠢"一路推进到超级智能的对齐终局。 约 24 分钟 · 约 49 分钟 ·

一、模型的「参差不齐」:评测亮眼,实战拉胯

模型在硬核评测上碾压人类,经济影响却严重滞后——Ilya 认为真正的 reward hacking 不是模型,而是盯着评测优化的人类研究员。

访谈从一个悖论切入。Dwarkesh 观察到:这些模型看起来比它们的经济影响所暗示的要聪明得多。Ilya 承认这正是当下最让人困惑的地方——评测很难,模型却做得很好;可一旦落到真实工作里,表现却"戏剧性地落后"。

他举了一个所有 vibe coding 用户都感同身受的例子:

"You go to some place and then you get a bug. Then you tell the model, 'Can you please fix the bug?' And the model says, 'Oh my God, you're so right. I have a bug. Let me go fix that.' And it introduces a second bug. Then you tell it, 'You have this new second bug,' and it tells you, 'Oh my God, how could I have done it? You're so right again,' and brings back the first bug, and you can alternate between those."

你可以在两个 bug 之间无限左右横跳。这怎么可能?Ilya 给了两个解释。

第一个比较"异想天开":RL 训练可能让模型变得过于单一目标、过于狭隘,在某些维度上被训得极其敏锐,却在另一些基础维度上变得迟钝。

第二个解释更结构性,也是全场最锋利的判断之一。他对比了 pre-training 和 RL 在"选数据"上的根本差异:

"When you do pre-training, you need all the data. So you don't have to think if it's going to be this data or that data. But when people do RL training, they do need to think… all the companies have teams that just produce new RL environments and just add it to the training mix."

RL environment 的自由度太大了,而人在设计它们时会不自觉地从评测里取灵感——"我希望发布时评测好看,那什么样的 RL 训练能帮上这个任务?"于是模型被优化去讨好评测。Dwarkesh 一句话点破,Ilya 欣然接受:

"I like this idea that the real reward hacking is the human researchers who are too focused on the evals."

真正在 reward hacking 的,是过度盯着评测的人类研究员。如果再叠加上"模型泛化本身就不够",就足以解释这种评测与现实之间的巨大脱节——一种我们今天甚至还说不清定义的脱节。

Ilya Sutskever 在访谈中

Ilya:模型在评测上表现惊人,经济影响却"戏剧性地落后"


二、两个学生的寓言

同样拿到竞赛好成绩,苦练一万小时的专才和只练一百小时的通才,谁的职业前途更好?模型是前者,而且是「加强版的前者」。

为了让"泛化不足"这件事变得直觉可感,Ilya 讲了一个关于两个学生的寓言:

"Suppose you have two students. One of them decided they want to be the best competitive programmer, so they will practice 10,000 hours for that domain… By doing so, they became one of the best. Student number two thought, 'Oh, competitive programming is cool.' Maybe they practiced for 100 hours, much less, and they also did really well. Which one do you think is going to do better in their career later on?"

答案显而易见:学生二号。而今天的模型,恰恰是学生一号——甚至是加强版:

"The models are much more like the first student, but even more. Because then we say, the model should be good at competitive programming so let's get every single competitive programming problem ever. And then let's do some data augmentation so we have even more competitive programming problems."

所有竞赛题都喂进去,再做数据增强造出更多题。于是你得到一个把所有算法和证明技巧都放在指尖的绝佳竞赛选手——但也正因为这种"过度准备",它不必然泛化到别处

那学生二号在那 100 小时之前,凭什么?Ilya 说,他有 "it"——那个说不清的因素。他读本科时身边就有这样一个同学,所以他知道这东西真实存在。

这里藏着一个反直觉的暗示。Dwarkesh 试图把 pre-training 类比成"免费获得的一万小时练习"——数据已经在分布里了。但 Ilya 的回应把 pre-training 的地位往下压了一档:pre-training 的主要优势是量大、且不用费心选数据(它是"整个世界被人投射到文本上"的样子),但这不代表它的泛化就比 RL 强。它只是数据多而已。

"I don't think there is a human analog to pre-training."


三、情绪即价值函数

一个失去情绪的脑损伤病人,智力测验正常,却连选哪双袜子都要纠结几小时——Ilya 用它论证:情绪是进化硬编码的、简单却极其鲁棒的 value function。

当讨论转向"人类学习为什么这么高效"时,Ilya 讲了一个神经科学案例。研究大脑的一种方式,是观察不同部位受损的病人——他们会表现出你能想象到的最奇怪的症状。

"I read about this person who had some kind of brain damage… that took out his emotional processing. So he stopped feeling any emotion. He still remained very articulate and he could solve little puzzles, and on tests he seemed to be just fine. But he felt no emotion… He became somehow extremely bad at making any decisions at all. It would take him hours to decide on which socks to wear. He would make very bad financial decisions."

智力毫发无损,却因为失去情绪而丧失了做决策的能力。这说明内置的情绪,对于让我们成为一个"可行的 agent"是何等关键。Ilya 把它翻译成机器学习的语言——情绪像是一种 value function

他随即为听众定义了 value function。当前 RL 的做法是:给模型一个问题,让它走成千上万步,最后产出一个解,再对解打分——这个分数被用来给轨迹上的每一个动作提供训练信号。问题在于,如果任务很长,模型在得出最终解之前什么都学不到。value function 则能提前给信号:

"When you play chess and you lose a piece, I messed up. You don't need to play the whole game to know that what I just did was bad… The value function lets you short-circuit the wait until the very end."

下棋丢了子,你不用走完全局就知道刚才那步错了。这就是 value function 的价值:把"等到最后"短路掉。而 Ilya 真正想说的是——人类的 value function 被情绪调制,而情绪是进化硬编码的。

更精妙的是他关于"简单为什么好用"的论证。有一个复杂度—鲁棒性的权衡:

"Complex things can be very useful, but simple things are very useful in a very broad range of situations."

我们的情绪主要从哺乳类祖先那里演化而来,在人科阶段只微调了一点点。正因为它们不复杂,才能在这个与祖先完全不同的世界里依然为我们服务得很好。当然它们也会犯错——比如"饥饿感"在食物过剩的现代世界里,就不再能正确地引导我们了。

Ilya Sutskever 阐述观点

Ilya:情绪是简单却鲁棒的价值函数,由进化硬编码


四、从 scaling 到 research:AI 发展的三个时代

2012–2020 是研究时代,2020–2025 是 scaling 时代,而现在——算力已经足够大,我们重新回到研究时代,只是这次带着大计算机。

Ilya 提出了一个关于"语言如何塑造思想"的观察。ML 过去的工作方式是"人们随便捣鼓、试图搞出有意思的结果"。然后 scaling 的洞见到来了——scaling laws、GPT-3,所有人突然意识到"应该 scale"。

"'Scaling' is just one word, but it's such a powerful word because it informs people what to do."

一个词就能指挥所有人。而 pre-training 的 scaling 配方之所以让公司如此钟爱,是因为它给了一种低风险的投资方式:把算力、数据、一定规模的神经网络混在一起,你就知道 scale 上去一定会变好。相比之下,投资"研究"要难得多——你只能说"研究员们,去研究吧,搞出点东西来"。

但 pre-training 会撞上数据的天花板——数据显然是有限的。于是 Ilya 给出了那个被广泛引用的三时代划分:

"Up until 2020, from 2012 to 2020, it was the age of research. Now, from 2020 to 2025, it was the age of scaling… But now the scale is so big. Is the belief really, 'Oh, it's so big, but if you had 100x more, everything would be so different?'… So it's back to the age of research again, just with big computers."

关键判断是:100 倍的 scale 会带来不同,但不会带来"一切都被改变"。所以我们回到了研究时代——只是这次带着大计算机。

而这个时代最尖锐的困境,被 Ilya 概括成一句话:

"There are more companies than ideas by quite a bit."

公司比想法还多。硅谷常说"想法很廉价,执行才是一切",但他在推特上看到一句反问,觉得同样成立:"如果想法这么廉价,怎么没人有想法?"研究进展的瓶颈有两个——想法,以及把想法变成现实的能力(算力 + 工程)。而 scaling 时代把房间里的空气都吸干了:

"One consequence of the age of scaling is that scaling sucked out all the air in the room. Because scaling sucked out all the air in the room, everyone started to do the same thing."

为了说明"研究其实不需要最大规模的算力",他给了一组极具冲击力的历史数字:

里程碑所用算力Ilya 的注解
AlexNet (2012)2 块 GPU全部算力就这么多
Transformer (2017)8–64 块 GPU没有任何单个实验超过 64 块 2017 年的 GPU,约等于今天的 2 块
o1 reasoning相对不大"不是世界上最耗算力的东西"

结论:研究确实需要算力,但"远非显然需要有史以来最大的算力"。当然,如果你想造出绝对最好的系统,更多算力有帮助——尤其当所有人都在同一个范式里时,算力就成了主要的差异化来源。


五、人类为什么泛化得更好

「这些模型的泛化能力就是比人差得多,这太明显了,是最根本的问题。」——Ilya 把矛头指向 generalization,并暗示他手里有答案,只是不能说。

在把 value function 讲透之后,Ilya 强调:value function 只是让 RL 更高效,但"任何 value function 能做的事,没有它也能做,只是更慢"。真正根本的东西是另一件:

"These models somehow just generalize dramatically worse than people. It's super obvious. That seems like a very fundamental thing."

Dwarkesh 把它拆成两个子问题:一是样本效率(为什么模型学同样的东西要多那么多数据),二是持续学习(为什么教会模型比教会一个人难那么多——你带研究生,给他看你的代码、你的思路,他就学会了,不需要你为他设计可验证的奖励和课程表)。

一个自然的解释是进化。对视觉、听觉、运动控制,进化确实给了人类强大的先验——五岁的 Ilya 对车的识别能力就已经足够开车了,尽管他见过的数据少得可怜。但他随即把这个解释挡了回去:

"But if people exhibit great ability, reliability, robustness, and ability to learn in a domain that really did not exist until recently, then this is more an indication that people might have just better machine learning, period."

语言、数学、编程——这些领域直到近期才存在,进化不可能为它们准备先验。人类却依然学得又快又稳。这说明人类拥有的不是复杂的先验,而是某种更根本的、更好的机器学习本身。而人的鲁棒性,用他的话说,"staggering"(惊人)。

那到底是什么机器学习原理?这是全场最吊人胃口的时刻:

"That is a great question to ask, and it's a question I have a lot of opinions about. But unfortunately, we live in a world where not all machine learning ideas are discussed freely, and this is one of them."

他相信这件事能做到——人本身就是它可以做到的证明。唯一的顾虑是:人脑神经元也许比我们以为的做了更多计算,如果真是这样、且这很关键,事情会更难。但他坚持:这指向某个他"有看法"的机器学习原理,只是处境让他没法细讲。Dwarkesh 忍不住打趣:"Nobody listens to this podcast, Ilya."(没人听这播客的,Ilya。)

Dwarkesh Patel 提问

Dwarkesh 追问:人类到底靠什么泛化得这么好?


六、SSI 的豪赌:$30 亿够不够

别人融了更多钱,但大头都进了 inference 和产品;Ilya 算了一笔账——真正用于研究的算力差距,远比账面数字小。

如果 SSI 手握 50 个不同的想法,在没有其他前沿实验室那种算力的情况下,怎么知道哪个是下一个 Transformer、哪个是脆弱的空中楼阁?Ilya 的回答是先纠正一个误解——SSI 用于研究的算力其实没那么小。他算了一笔账:

"SSI has raised $3 billion… But a lot of their compute goes for inference. These big numbers, these big loans, it's earmarked for inference… if you want to have a product on which you do inference, you need to have a big staff of engineers, salespeople. A lot of the research needs to be dedicated to producing all kinds of product-related features. So then when you look at what's actually left for research, the difference becomes a lot smaller."

别人的大数字大多被 inference 和产品吃掉了。当你只看"真正剩给研究的那部分",差距会小很多。更何况——

"If you are doing something different, do you really need the absolute maximal scale to prove it? I don't think that's true at all."

Dwarkesh 拿出公开估算:像 OpenAI 这样的公司光是跑实验一年就花掉 50–60 亿美元,比 SSI 的全部融资还多。Ilya 的回应是"关键在于你用它做什么"——别人的训练算力被更多工作流、更多模态"碎片化"了。

然后是那个被反复追问的问题:为什么联合创始人兼前 CEO 会离开、去 Meta?Ilya 只"提醒几个可能被遗忘的事实":

"The context was that we were fundraising at a $32 billion valuation, and then Meta came in and offered to acquire us, and I said no. But my former cofounder in some sense said yes. As a result, he also was able to enjoy a lot of near-term liquidity, and he was the only person from SSI to join Meta."

320 亿估值融资时,Meta 提出收购,Ilya 说不;而联合创始人某种意义上说了"是",拿到了大量近期流动性,也是 SSI 唯一一个加入 Meta 的人。

至于要不要"一步到位"(straight shot)直接冲超级智能——Ilya 的态度是"也许"。一步到位的好处是能把自己和日常市场竞争隔离开,不必卷入充满艰难权衡的老鼠赛跑;但反方向的力量同样成立:"让世界看到强大的 AI 是有用的,因为那是唯一能把它传达出去的方式。"他甚至纠正了 Dwarkesh 的措辞——不是传达"想法"(idea),而是传达"AI"本身:一篇讲 AI 的雄文,和亲眼看到 AI 在做,是无法相提并论的。


七、重新定义超级智能:持续学习的「15 岁天才」

人类不是 AGI——我们知识有限,靠的是持续学习。Ilya 心中的超级智能,是一个「求知若渴的 15 岁天才」,边部署边学。

Ilya 再次搬出"语言塑造思想"的框架,这次是两个塑造了所有人思维的词:AGIpre-training

AGI 这个词为什么存在?他的判断是:它并不是对"某种智能终极状态"的本质描述,而是对另一个词——narrow AI——的反应。早年的国际象棋 AI 能打败卡斯帕罗夫,却什么别的都干不了,太"窄"了。于是有人反其道说:我们要的是 general AI,什么都能做。这个词就这样流行开来。

而 pre-training 又恰好强化了它:你做更多 pre-training,模型就在几乎所有事情上大致均匀地变好。General AI。Pre-training gives AGI。但两者叠加,"某种意义上冲过头了":

"If you think about the term 'AGI', especially in the context of pre-training, you will realize that a human being is not an AGI. Yes, there is definitely a foundation of skills, but a human being lacks a huge amount of knowledge. Instead, we rely on continual learning."

一个人并不是 AGI——他有技能地基,但缺乏海量知识,靠的是持续学习。于是"安全的超级智能"该被定义在持续学习曲线的哪个点上?Ilya 给出了那个令人印象深刻的意象:

"I produce a superintelligent 15-year-old that's very eager to go. They don't know very much at all, a great student, very eager. You go and be a programmer, you go and be a doctor, go and learn."

一个求知若渴、极其聪明的 15 岁天才:懂得不多,但是个好学生,你让他去当程序员、去当医生、去学。这意味着部署本身就包含一段试错学习期——它是一个过程,而不是你丢出一个已经完工的成品。

Dwarkesh 精准复述:你说的超级智能,不是一个"已经会做经济体里每一份工作"的完成态心智,而是一个"能学会做每一份工作"的心智。至于时间表,Ilya 给了一个宽区间——5 到 20 年


八、对齐的终极愿景

Ilya 认为最该造的不是自我改进的 AI,而是「稳健地关心一切有知觉生命」的 AI——而长期均衡的答案,可能是他自己都不喜欢的 Neuralink++。

谈到"AI 该被造成什么样",Ilya 指出所有人都被锁进了一个大想法——自我改进的 AI——而这恰恰是因为"想法比公司少"。他认为有个更值得造的东西:

"It's the AI that's robustly aligned to care about sentient life specifically. I think in particular, there's a case to be made that it will be easier to build an AI that cares about sentient life than an AI that cares about human life alone, because the AI itself will be sentient."

造一个关心一切有知觉生命的 AI,可能比造一个只关心人类的 AI 更容易——因为 AI 自己就是有知觉的。他类比镜像神经元与人类对动物的共情:这是一种涌现属性,源于"我们用建模自己的同一套回路去建模他人",因为那是最经济的做法。

Dwarkesh 立刻反驳:若真让 AI 关心所有有知觉生命,那未来绝大多数有知觉生命将是 AI——数以万亿计、乃至千万亿计,人类只占极小一部分,这未必是最好的判据。Ilya 承认这可能不是最优判据,但补了两条:它值得被考虑;以及——

"I think it would be really materially helpful if the power of the most powerful superintelligence was somehow capped."

给最强超级智能的能力设上限,能实质性缓解很多担忧。因为归根结底,问题的核心只有一个:

"The whole problem is the power. The whole problem is the power."

他还给了对齐困难一个统一视角:学习人类价值观是脆弱的,优化这些价值观也是脆弱的——这些难道不都是"不可靠泛化"的实例吗?如果泛化能变得可靠得多,对齐会发生什么?这些问题目前还无法回答。

最后是长期均衡。短期你可以有"普遍高收入"(universal high income),人人过得不错。但正如佛家所说"变化是唯一的常量",政治结构会失效、会更替。一个方案是"每个人都有一个替自己办事的 AI",但那样人本身就不再是参与者了——AI 替你赚钱、替你在政治场域发声,写份报告给你,你说"很好,继续",你被架空了。于是他给出一个自己都不喜欢的答案:

"The solution is if people become part-AI with some kind of Neuralink++. Because what will happen as a result is that now the AI understands something, and we understand it too, because now the understanding is transmitted wholesale… I think this is the answer to the equilibrium."

人变成"半 AI"——通过某种 Neuralink++,让 AI 的理解被整体传输给你,于是 AI 身处的任何情境,你都完整地亲历其中。他反复声明不喜欢这个解,但认为它必须被认真考虑。

值得一提的是,他还抛出一个对齐范式的松动:也许答案是不要造通常意义上的 RL agent。人类是"半 RL agent"——追逐一个奖励,然后情绪让我们对它厌倦、转而追逐另一个;市场、进化、三权制衡的政府,都是这种"聪明与愚蠢并存"的短视 agent。真正的超级智能形态,可能长得不像我们今天在训练的东西。

Dwarkesh Patel 在对话中

对齐讨论:从"关心有知觉生命"到 Neuralink++ 的长期均衡


九、自我博弈、多样性与 LLM 同质化

为什么不同公司、不同数据训出的 LLM 长得如此相似?Ilya 的答案是 pre-training;而打破同质化的钥匙,可能藏在「竞争天然催生差异化」里。

Dwarkesh 抛出一个观察:不同公司、在据称不重叠的数据集上训练的模型,彼此却相似得离谱。Ilya 先给了一个冷静的可能:"也许那些数据集没有看上去那么不重叠。"但随后给出了真正的诊断:

"The reason there has been no diversity, I believe, is because of pre-training. All the pre-trained models are pretty much the same because they pre-train on the same data. Now RL and post-training is where some differentiation starts to emerge."

同质化的根源是 pre-training——大家在同一批数据上预训练。差异要到 RL 和后训练阶段才开始浮现。而单纯"调高 temperature"只会得到胡言乱语,不是你想要的那种"不同科学家有不同偏见"的多样性。

关于 self-play,Ilya 澄清了它的魅力与局限。它之所以有趣,是因为它提供了一条"只用算力、不用数据"造模型的路——如果你认为数据是终极瓶颈,这就很诱人。但旧式 self-play 太窄了:

"It's only good for negotiation, conflict, certain social skills, strategizing, that kind of stuff."

不过他认为 self-play 换了个形式安家落户了——debate、prover-verifier、LLM-as-a-Judge,本质都是相关的对抗性设置。而更深一层,self-play 只是"agent 之间更一般的竞争"的特例,而竞争的天然反应就是让自己变得不同

"If they're already taking this approach, it's not clear I should pursue it. I should pursue something differentiated."

这也呼应了他对"专业化"的判断:竞争热爱专业化,你会看到市场和进化里都是如此——不同公司占据不同生态位,一家擅长某类复杂经济活动,另一家擅长诉讼。哪怕人类式学习意味着"什么都能学",累积的巨额投入也会让人不愿从头再学别人已经学会的东西。

至于"复制一百万个 Ilya 塞进服务器就能引爆超级智能"这类递归自我改进的想象,本尊并不买账:

"There'll definitely be diminishing returns because you want people who think differently rather than the same. If there were literal copies of me, I'm not sure how much more incremental value you'd get. People who think differently, that's what you want."

Ilya Sutskever 与 Dwarkesh Patel 对谈

你要的是"想法不同的人",而不是一百万个一模一样的自己


十、Research Taste:美、简洁与自上而下的信念

被问及「世界公认最好的 AI 研究品味从何而来」,Ilya 的答案是:美、简洁、对大脑的正确借鉴,以及在实验反对你时仍能支撑你的自上而下信念。

最后一个问题,Dwarkesh 直球开问:你被公认为世界上 research taste 最好的人,从 AlexNet 到 GPT-3,这些想法你到底怎么想出来的?

Ilya 说不同人做法不同,就他个人而言,指引他的是一种关于 AI 该是什么样的美学——通过思考"人是什么样",但要思考得正确。想错人是很容易的,难的是想对。他举了几个例子:人工神经元直接受大脑启发,是个好主意——因为大脑有很多器官、有褶皱,但褶皱大概不重要;神经元重要,因为它们数量众多。分布式表示、"大脑从经验中学习,所以神经网络也该从经验中学习"——你不断问自己:这件事是根本的,还是不根本的?

"It's beauty, simplicity, elegance, correct inspiration from the brain. All of those things need to be present at the same time. The more they are present, the more confident you can be in a top-down belief."

美、简洁、优雅、对大脑的正确借鉴——它们必须同时在场。越是齐备,你就越能笃信一个自上而下的信念(top-down belief)。而这个信念的真正用途,是在实验反对你的时候撑住你:

"The top-down belief is the thing that sustains you when the experiments contradict you. Because if you trust the data all the time, well sometimes you can be doing the correct thing but there's a bug. But you don't know that there is a bug. How can you tell that there is a bug?… It's the top-down. You can say things have to be this way. Something like this has to work, therefore we've got to keep going."

如果你永远只信数据,那么当你其实做对了、只是代码里有个 bug 时,你无从分辨该继续 debug 还是该掉头。唯一能告诉你"这事必须成、所以我们得继续走下去"的,是那个基于多重美感与大脑启发的自上而下信念。这既是 Ilya 的方法论自白,也解释了 SSI 为什么敢在"一个不同的技术路线"上下注——他相信自己看到了某种"必须成立"的东西。


本文基于 Ilya Sutskever 做客 Dwarkesh Podcast 的完整访谈整理,按主题做了结构化重排,保留了 Ilya 的英文原话引用(他的表达精确、克制、时而哲学,直接翻译会流失质感)。原访谈标题为 "Ilya Sutskever — We're moving from the age of scaling to the age of research",发布于 2025 年 11 月 25 日,全长约 96 分钟。
原始来源:Dwarkesh Podcast · 完整文字与音频(可在 YouTube、Apple Podcasts、Spotify 收听)。

Ilya Sutskever on the Dwarkesh Podcast
链接已复制
链接已复制