← 播客精读
节目封面

Agent 技术演化简史:从逻辑智能体到 Language Agent 的范式跃迁

「张小珺Jun|商业访谈录」第 139 期 · 2026 年 5 月 1 日发布 · 时长 2 小时 17 分钟

嘉宾苏煜,俄亥俄州立大学计算机系教授、创业公司 NeoCognition 创始人、2025 年斯隆研究奖(Sloan Research Fellowship)得主。研究方向是 Language Agent,是少数见证过 Agent 从逻辑时代到语言时代完整演化周期的学者之一。本文基于完整音频转录及节目 Show Notes 整理。 约 25 分钟 ·

一、苏煜是谁

苏煜是俄亥俄州立大学计算机系教授,研究方向是 Language Agent——用自然语言驱动的智能体。他也是 2025 年斯隆研究奖得主,这是美国学术界授予年轻学者的最高荣誉之一。

在学术之外,苏煜最近创办了 NeoCognition,完成了 $40M 的种子轮融资。他是少数同时具备学术深度和产业实战经验的 Agent 研究者,也是最早从 Semantic Parsing 转型做 Language Agent 的学者之一。

张小珺在节目开头说得很明确:这期的定位是一次技术综述——不是投资分析,不是产品评测,而是从更长的技术史视角,把 Agent 的来龙去脉讲清楚。


二、Agent 四幕进化史

苏煜把 Agent 的技术演化分成了四个清晰的阶段。这个框架是理解当下 Language Agent 浪潮的关键——它不是凭空出现的,而是站在六十年积累之上。

Agent 的本质定义

在进入历史之前,苏煜先给出了一个干净的定义。一个完备的 Agent 需要三个要素:

Agent 的能力可以沿两个维度展开:

第一幕:逻辑智能体(1950s–1990s)

以专家系统为代表。核心思路是用逻辑语言表达知识,然后用推理引擎做决策。

"最大的问题其实对于这个早期的这些专家系统来说,后来大家发现是这个 knowledge acquisition 的 bottleneck。你要去获得这些知识太难了,当时主要就是依靠这些工程师去给这些领域专家做采访,然后想办法把这些采访的内容写成逻辑语言的形式,那个过程是非常痛苦而且非常低效的。"

第二幕:神经智能体(2000s–2010s)

以 AlphaGo 为代表,用深度强化学习替代了手工规则。在游戏等受限环境中表现惊人。

但问题同样明显:推理是隐式的(黑箱),计算量固定(不能给难题分配更多思考时间),且样本效率极低——AlphaGo 需要几百万盘对局数据才能学会下棋。

第三幕:语义解析(2000s–2020)

这是"另一边的故事"。语义解析关注的问题是:如何把人类语言转化为机器可读的正式表达?

这条路线看起来不那么性感,却为后来的 Language Agent 打下了关键基础——它扩大了 Agent 的行动空间,让机器不再局限于棋盘或游戏,而是能理解和执行人类用自然语言描述的任务。苏煜自己就是这个方向的研究者。

第四幕:语言智能体(2022 至今)

基于 LLM 的全新范式。核心变化是:语言成为了"脚手架"(Scaffold),同时支撑感知、推理与行动。

"我们经常说现在 AI 是在 we live in a compressed timeline,就是现在每一年甚至每一个月这个 AI 的发展,是以前可能你要十年才能达到的。这点还挺有意思的,因为它其实跟人类的这个整个自然界的演化历史是有一些微妙的相似之处的。"


三、语言:进化的加速器

苏煜在这里做了一个精彩的类比——把语言在 Agent 演化中的角色,和语言在人类进化中的角色对照。

压缩即智能

大语言模型的训练本质上是对世界信息的压缩:从表层符号压缩为对世界模型的内部表达。这不是简单的"记住文本",而是在海量数据中提取出结构、规律和因果关系。

符号化进化的"新赛道"

人类的进化史有一个关键节点:语言的出现。在此之前,知识只能通过基因和个体经验传递;语言出现后,信息可以跨越时空和代际传递,文明因此指数型发展。

"尤其是最近的五六千年,实际上是这个人类整个文明大爆炸式发展的时候,对吧。所以 language 在这里面是起到极其重要的作用。而现在在 Agent 的演化、在 AI 的演化过程中,好像又是一个类似的效果。"

语言作为脚手架

语言不仅是沟通工具,更是推理的媒介——这就是 Chain of Thought 的核心洞察。更关键的是,语言让计算变得自适应:简单的问题用几个 token 就能回答,复杂的任务可以分配更多的 token(即计算量)。这是固定计算量的神经网络做不到的。


四、Language Agent 三年狂飙

苏煜复盘了 2022–2025 年间 Language Agent 领域的关键工作。这三年的进展速度,超过了此前几十年的总和。

关键突破包括:

这些工作的共同趋势是:Agent 的行动空间在不断扩大——从执行代码,到操作浏览器,到操控桌面,到编写和修改完整的软件系统。


五、通用数字智能体:边界在消弭

苏煜指出了一个重要趋势:Browser Use、Desktop Use、Coding Agent 这些原本各自独立的方向,正在快速融合

"At the end of day,大家想要的就是一个 universal digital agent。我之所以会提到这些 boundary 都在消弭,其实也是跟 coding 有关系的。Coding 它是最根本性的 fabric、building layer,你所有东西都能用 code 来表达 at the end of day。"

为什么 coding 是边界消弭的关键?因为一旦 Agent 能写代码,它就获得了一种元能力:可以为自己创建新工具、自动化新流程、连接新系统。代码是通往一切数字环境的万能钥匙。


六、OpenClaw Moment

2025–2026 年出现的 OpenClaw Moment,苏煜认为它和 ChatGPT Moment 有非常多相似之处。

相似性

ChatGPT Moment(2022.11)OpenClaw Moment(2025–26)
技术底层GPT-3.5 能力已积累Agent 技术栈已成熟
引爆点对话交互形式24h 在线 + YOLO 模式 + IM 交互
核心变化模型范式的确立自动化 Agent 范式的确立
大众认知"原来 AI 能聊天""原来 AI 能替我干活"

技术层面并不令人惊讶——底层能力已经到位。真正的价值在于交互形式的质变:OpenClaw 让大众意识到了 Agent 做长程任务的可能性。


七、中美科技辐射差异

苏煜观察到中美两国在科技传播上有截然不同的 pattern。

"两边舆论或者科技辐射形式有一个一贯的、很明显的 pattern 的不同。中国更加出圈,更加全民化一点。中国一向是在前端技术的应用上,应用层动作是很快的。Eric Schmidt 专门聊过这一点,这在 AI 时代是一个很大的优势。"

在美国,新技术通常先在技术社区扩散(Hacker News → Twitter Tech → 早期采用者),然后缓慢渗透到大众。在中国,微信、小红书、抖音等平台让技术话题几乎同步触达全民

这种差异在 Agent 领域表现得尤为明显:中国的应用层创新往往比美国更快落地——不是因为技术更先进,而是因为信息辐射和用户触达的效率更高。


八、NeoCognition:专业化的赌注

苏煜的创业项目 NeoCognition 最近完成了 $40M 的种子轮融资。这个赌注背后的核心判断是:

通用智能廉价化,专业智能价值化

当通用智能成为标配(所有大模型都能聊天、写代码、搜索),差异化将来自于专业化(Specialization)

"这个世界不是一个世界,它是由可能几百万个小世界组成的。每一个小世界要做到真正产生价值,它需要的是 specialization。这是可能大模型公司很难做的,因为他们天然会去想做平台性的东西、统一的东西,而不想去做这种需要 specialize 的东西。"

从"实习生"到"专家"

目前大多数 Agent 的状态类似一个聪明但没有经验的实习生——通用知识充足,但对特定环境缺乏深刻理解。NeoCognition 要解决的正是这个跃迁:让 Agent 通过持续学习,逐步积累专业化的领域知识和操作经验。


九、持续学习与微观世界模型

苏煜认为,持续学习(Continual Learning)是 2026 年 Agent 领域最关键的技术主题。

为什么 Agent 还不够可靠?

目前 Agent 在长程任务中不稳定,根本原因不是模型能力不够,而是缺乏对特定环境的深刻理解。每次交互都是从零开始——没有记忆、没有经验积累、没有对用户偏好和环境特征的持续建模。

微观世界模型

苏煜提出了一个概念:微观世界模型(Micro World Model)。大模型掌握的是宏观的世界知识(百科全书式的广泛理解),但要在特定场景中可靠工作,还需要构建该场景独有的微观模型。

打个比方:一个新入职的员工可能知道所有的管理理论,但不知道这家公司的报销流程具体怎么走、哪个审批人容易卡、周五下午提交的单子要等到下周一才有人处理。这些"微观知识"就是微观世界模型。

"你现在用很多 Agent,虽然乍一用觉得非常强大,可能百分之六七十概率能做对,但百分之三四十就不知道因为什么原因失败了。人不是这样的——如果我们真的成为了某一个事情的专家的话,我们就基本上是百分之百能做对。这是因为我们有这样的一个 specialization 的过程。"


十、GUI vs CLI:Agent 交互的未来

关于 Agent 应该通过图形界面(GUI)还是命令行(CLI)与世界交互,苏煜的判断很明确:

GUI 不会消失

人类是视觉动物——这是进化决定的。GUI 是人与机器建立信任、执行审计和进行交互的最佳通道。即使 Agent 可以直接调用 API,人类仍然需要通过 GUI 来监控和验证 Agent 的行为。

Agent 的"双轨制"交互

时间维度交互模式原因
短期Agent 兼容 GUI利用现有商业逻辑和约束;人类需要可审计的界面
长期Agent 间用高效接口API/CLI 通讯效率远高于模拟 GUI 操作
始终GUI 作为"事实接口"人类需要看到 Agent 在做什么——信任需要可见性

十一、Agent 的瓶颈与 2026 展望

苏煜对 Agent 当前最大的瓶颈和未来一年的发展做出了判断。

最大瓶颈:可靠性

Agent 目前最大的问题不是能力——大模型已经足够聪明。问题是可靠性:在真实环境中,Agent 执行长程任务时仍然容易出错、漏步、走偏。这直接阻碍了企业级应用的落地。

2026 年的主旋律

核心课题是解决 Agent 在真实部署环境中的自我进化——让 Agent 从"实习生"成长为"专家"。这需要:

技术的民主化

"作为 Agent 的研究员来说,我们是需要让这些 Agent 变得真正的好用、容易用,让每个人都能去把他的想法变成实践。这样可以去一定程度上推动技术的民主化,而不是让核心技术因为门槛比较高所以只能被少数巨头去垄断。"


十二、大厂的 Agent 押注

苏煜分享了他对各大科技公司在 Agent 方向上的观察。

每家公司的 Agent 策略都反映了其核心优势和组织基因:

有意思的是,这些公司的 Agent 策略正在趋同——都在朝通用数字智能体的方向收敛。差异更多体现在切入路径和生态优势上。


十三、Conceptual Framework:搭建认知框架的乐趣

苏煜说了一句很个人的话:

"我最喜欢的事情是去不断地 build out 我的 conceptual framework。我并不是那种想事情非常快的人或者记性特别好的人,但我是属于能去学很多很多的东西,然后把这些东西给串起来,看到它们之间的联系。"

他对自己角色的定位很清晰:不只是做具体的技术创新,而是试图为 Agent 领域提供一套完整的认知框架。从逻辑智能体到语言智能体,从记忆到自主性,从专业化到持续学习——这些不是零散的观点,而是一个连贯的思考体系。

这也解释了为什么这期播客的信息密度如此之高:苏煜不是在分享碎片化的行业八卦,而是在输出一套完整的技术世界观。


十四、快问快答与推荐书单

节目最后的快问快答中,苏煜推荐了几本对理解 AI 发展至关重要的书:

这份书单很有意思:不是清一色的 AI 技术书,而是横跨语言学、神经科学和进化论。这反映了苏煜的核心信念——要理解 AI Agent 的未来,需要先理解语言和智能的本质


张小珺商业访谈录

基于「张小珺Jun|商业访谈录」第 139 期播客完整音频转录整理
小宇宙 · Bilibili · Apple Podcast

链接已复制