一、OpenClaw 的三天冲击:从产品惊艳到研究助手
罗福莉与 OpenClaw 的故事始于春节期间的一个深夜。凌晨两点装好,一直用到天亮六点——
"那一晚上我觉得我的脑内的不知道是多巴胺还是内啡肽就持续在分泌,就是让我兴奋到完全睡不着觉。"
但真正让她重新定义这个工具的,不是第一天的惊艳,而是三天内认知的连续跃迁。
第一天:产品设计超出预期
OpenClaw 的"灵魂感"来自大量微妙的 context 编排——在每轮对话前拼上当前时间、分层分级的 memory 系统、主动提醒用户休息。
"这些很大家没有关注的角落上把 context 给编排得非常好。"
她起初和很多人一样排斥 OpenClaw——认为它"偏运营导向""非常玄幻"。但实际使用后发现,这些看似 boring 的单个设计点,整合在一起"完成度是非常高的"。
第二天:替代生活与工作的一部分
她开始把框架"做不成的日常生活中的事情"交给 OpenClaw——讨论如何激发团队好奇心、筛选人才、构建组织架构,甚至进行了一小时的深入哲思探讨。
"它现在已经基本上变成了我的某一个数字分身,至少在这个事情上。"
第三天:促进研究
她把构建 user agent(用于模拟多轮交互以生成后训练数据)这个她认为"不会一两个小时就把它做出来"的研究任务交给 OpenClaw,结果大概一两个小时就完成了。
"它从一个我最开始对它的认知只是一个有灵魂有温度的产品设计,到它可以帮我替代生活或工作当中的一部分,到最后它能促进我研究——这也就是三天发生的事情,每天都能给我额外更多的惊喜。"
而到了用了一段时间后,她反而"已经可能让 Ops 帮我把 Agent 框架给打造好过后,让我惊艳的事情就越来越少了"——
"我觉得现在缺乏的是第一个是想象力——我要疯狂去想还有什么事情它做不了。第二个就是怎么去优化它的成本和速度。"
二、Agent 框架:弥补模型短板的中间层
OpenClaw 对罗福莉最大的认知冲击不在产品层面,而在它作为一个 Agent 框架所展现的能力——弥补模型本身的短板。
她做了一个关键实验:把小米自己训练中的模型(甚至一个 3B 的端侧小模型)接到 OpenClaw 框架中——
"在这一套很复杂的 scaffold 的 agent 框架情况下,它依然能做那些我自己认为不可能是一个非常小的模型能够做出来的事情。所以这是我第一次感受到原来一个非常复杂的 agent 框架设计是能够弥补非常多模型能力的短板。"
Agent 框架 ≠ 产品
"产品可以定义成是你直接人交互能感受到的那一层。Agent 框架确实在定义交互层,但同时又在定义你怎么跟模型沟通那一层。它甚至能知道模型能力的长板短板,然后知道怎么去更好做调度。它相当于人和模型之间的中间层。"
这个中间层可以做得非常厚重,而前端 UI 展示"是最薄的一层,已经不是很关键了"。
OpenClaw vs Claude Code
| Claude Code | OpenClaw | |
|---|---|---|
| 上限 | 更高(Claude 4.6 Ops) | 依赖接入的模型 |
| 框架可见性 | 黑盒 | 完全开源 |
| 可操纵性 | 改不了 memory / workflow | 可自由改造 |
| 适用场景 | 严肃编程、for 软件工程 | 日常任务、泛编程 |
| 弱模型表现 | 受限 | 框架弥补短板 |
"我让 Cloud Ops 4.6 给我改好后,这套框架本身就非常好用了。再切换到 Sonic、再切换到国内的一些模型,甚至我们正在训的 V2 Pro,我就觉得它非常强大。"
她还指出,Claude Code 的很多设计后来被 OpenClaw 开源社区吸纳——持久化记忆、remote 界面操控等——"这也是一个双向的触动"。
三、群体智能:一百人改同一个框架
罗福莉把 OpenClaw 推给团队的方式极其直接:
"如果第二天 OpenClaw 对话次数不超过 100 轮的人,可以直接 quit(辞职)。"
她事后承认,这只是为了传达态度——"我没有最终去考核","我只是想给大家表达一种态度是你不用你可能真的要落后了"。
为了降低门槛,她买了几台 Mac Mini 部署好环境,把团队拉到飞书群里分方向使用。效果是爆炸性的——十分钟不看就 999+ 消息。
"个人的想象力真的是局限的。但当你看到别人用 OpenClaw 居然能干成这个事情的时候,你就会激发你自己的想象力。所以我觉得大家想象力是一个乘积的作用。"
最让她有冲击的不是某个具体任务,而是"大家一块去改那个框架本身"——几个小时就迭代一轮。近一百人在群里使用同一个 Agent,每个人有不同的 context 和背景,但框架"对每个人的画像的把控"没有串得太厉害。
"我觉得这也是我第一次感受到你怎么用一群人的智慧去提升一个事情本身。如果我自己单一地去改 Agent 框架,进步速度非常慢。但一群人去改进它,可能几个小时就迭代一轮。"
三四天后接上自家模型——"怎么也挺好用的,怎么还没训就跟 Cloud 的差不多了"。
她总结:"我们基本上在三四周的时间做完了以前可能三四十周才能做到的事情。"
四、MiMo-V2 架构选择:为什么不选 MLA
Hybrid Attention:为 Long Context 效率而生
MiMo-V2 从设计之初就有一个核心目标:for Long Context 的效率来设计模型结构。当时更主流的选择是 MLA(Multi-Latent Attention,DeepSeek 的方案),同期的 GLM 和 Kimi K2 都选了 MLA。
罗福莉选了另一条路——Hybrid Attention(混合 Sliding Window + Full Attention),理由是 MLA 有一个根本性限制:
"MLA 在设计之初是为了达到很好的访存跟计算的比例,在当时的 H 系列芯片上实现更高的效率。在这样架构下设计出来的模型没有任何可发挥的空间——你要用 MTP 的话,会发现它又卡在计算 Bound 上。"
"所有 MLA 模型不管是 Gemma 也好、Kimi 也好,我猜测都没有上 MTP——上了之后就被计算 Bound,所以模型都会慢一些。"
而 Hybrid Attention 天然在计算上留有大量富余,恰好可以被 MTP 填满——
"通过 Sliding Window Attention 减少 KV Cache,让它在长文上效果更好。同时通过 MTP 把节省的算力填上,达到访存跟计算的很好的平衡。"
MTP 的选择:一个后验的惊喜
MTP 并不是从一开始就规划好的。模型训到中后期,团队在设计推理方案时发现"计算剩余实在太多太多了"——
"预训练加 MTP 是因为它能提升基座能力。推理时用 MTP 是因为我们模型结构天然在计算上有大量富余——这是我们后边去设计推理架构时悟到的。"
MTP 在推理时会被 verify——预测准了才采纳,"所以它没有任何幻觉"。
从 5:1 到 7:1:更大模型可以更稀疏
从 Flash 到 Pro,Sliding Window 与 Full Attention 的比例从 5:1 提升到 7:1。
"更大模型能够吃更大的 attention sparsity 比例。小模型太稀疏效果会 drop 得很严重。"
这使得 Pro 在扩大参数量的同时保持长文效率与 Flash 接近,同时智能水平大幅提升。她的决策逻辑是:"我们希望在长文效率相当的情况下 scaling 模型的水平上限。"
MLA 会成为主流吗?
"我觉得应该不会。"
她的理由涉及范式转变:MLA 的设计假设了后训练是短周期的(可能一个月就做完)、推理卡是固定的。但在 Agent 时代,后训练周期在大幅拉长,场景在快速变化——
"你在 post train 要做半年或一年的场景下,前半年假定的非常多的东西可能都失效了。以前大家觉得 128K 就够了,但过几个月大家觉得需要十兆上下文。"
五、1T 模型是入场券
罗福莉对"入场券"有一个精确的定义:
"1T 是 Agent 的你要做到接近 Cloud 4.6 Ops 水平的这样一个入场券。"
训 1T 的决策很自然——"我训过 DeepSeek V3 六七百 B 的模型,不会再想训同样的,肯定继续往下一步 scaling。"1T 是当时已有卡的数量下的一个比较极限的区间。
训练中的全方位挑战
数据不是最大的挑战——更大模型对脏数据的容忍度更高。真正的挑战是训练过程中的问题排查。
"很多团队会把 loss spike 当做一个很正常的事情。但我们会尽量让它没有 loss spike。有 loss spike 肯定会导致某些 expert 被打死——参数更新后再也不会有 token 送到那个 expert 上。"
团队需要一套严密的监控系统——看 expert 负载、每层参数的输入输出、激活值是否异常。"你要从很表层然后查到很底层的因素"——可能是结构原因、可能是 infra bug、甚至可能是通信算子写错了。
"如果所有卡都排查了没问题,你会怀疑到是不是今天太阳黑子爆发了——就会怀疑到一些很玄学的问题上。"
最长的一次停训排查用了两周。焦虑吗?"因为我们又没有什么目标"——但紧接着又说"晚上都睡不好,经常做梦说为什么 loss 又 spike 了"。
卡的分配:研究 : 预训练 : 后训练 = 3 : 1 : 1
"预训练和后训练投入的算力应该是相当的。研究的比例应该至少是正式训练卡总量的还要多一点。"
过去 Chat 时代 for 研究:预训练:后训练大约是 3:5:1——后训练投入远小于预训练。
"预训练跟后训练一个比例(1:1),这是今年可能发生的很大变化。顶尖团队应该都是 1 比 1 了。"
参数量能决定智力上限吗?
"参数量加上 context 本身共同决定。但至少要达到当代大家觉得最强的 Agent 的水平,至少要 1T 以上参数规模,总参 1T 以上。当然更关键的还是激活参数。"
六、组织平权:无职级、无组、热爱驱动
罗福莉管理一个约 100 人的团队(包含语言、多模态、语音三个方向的算法工程师,数据采集、数据质量、infra、开发、产品等全链路角色,实习生比例很高),但她坚持"不存在管理"——"大家一块去解决问题就好了"。
没有组的划分
"很多人对两个方向都感兴趣。如果你把组划分得非常清晰和固定,其实是在扼杀一部分人的创造力,或者说扼杀他未来的成长空间。"
做预训练数据的人自然流向后训练——因为"对数据的直觉"是共通的,"对多样性的关注"是共通的。"大部分是大家自然而然发生的,但我确实能预料到哪些人会做这样的迁移。"
没有职级
"平权本身是有利于所有人去平等地贡献自己的创造力和智慧。任何层级一定程度上都是在规范和约束,规范和约束本身是压制创造力的。"
"尤其是对于最重要那个 leader,他不要有特别强的掌控感,以及觉得'没了我就不行'——一旦有这样的想法,反而不利于创新团队。"
热爱驱动
管理方式?"靠热爱驱动。去选择激发大家的热情,让大家围绕自己愿意信仰的事情去自驱做事。"
她用 OpenClaw 的推广方式来说明——不是考核一百轮对话,而是让大家去体验。体验之后热情自然被点燃。
招人哲学:环境比经验更重要
团队中大部分人之前没做过大模型——有做工程的、做开发的,有的只训过 7B 模型。
"这些能力都是可以会被——我觉得最多一两个月,慢的话三四个月——确实都可以被快速习得。所以我环境反而比经验更重要。"
"我更在乎他初始化 checkpoint 的上限高不高,不太在乎他被 supervised learning 后的那个点的状态高不高。"
她甚至开始倾向招大二大三的本科生——"他们的灵活性和适应程度都感觉没有被污染,天然更接纳这个事情会产生巨大价值。"
后训练团队的两类人
- 更注重跟模型"玩"的人——维护自己的私有测试库,疯狂测不同模型边界,分享独特体验。"跟模型交互频次更高的人会非常适应这个范式。"
- 能做 RL infra 的人——RL infra 要容错、要处理异构资源、要兼容框架快速变化。"它对灵活性和敏捷性都提出了新的要求。"
七、预训练 vs 后训练的范式迁移
Agent 改变了后训练的一切
罗福莉给出了一个关键判断——Agent 时代后训练的核心不再是让模型"思考很久给出一个答案":
"正确的事情就是你要在一套非常复杂的 agent 的框架或多样的 agent 的框架上,去端到端地完成更高复杂度的任务,以此为目标作为你的后训练范式。而不是在一个很局限的场景里,针对一个 benchmark 定制的简洁架构里去做。"
RL Infra 的革命
Chat 时代的 RL infra 以推理引擎(rollout engine)为核心。Agent 时代完全不同:
"它从以 rollout 推理引擎为核心切换到了以 Agent 为核心的更复杂系统。这里边要解决的 infra 问题跟上一个 chat 时代做 R1 这种 reasoning 的 infra 问题完全不一样。"
这套系统需要处理异构资源(GPU + CPU + 存储)、容忍中断(Agent 框架随时可能断)、兼容框架快速变化——
"做 RL infra 跟做 pretrain infra 的最大不同——RL 会更在乎容错。pretrain 你不能容错,出现一个 loss spike 就不允许。但做 RL 你必须允许容错。"
Skills 改变了模型生态
Skills 提供了一种人与 Agent 共创的方式——把组织遗留下来的规范、不存在于预训练数据中的 in-the-loop 信息教给 Agent。
"如果你没有那么多这种另类信息跟当前 Agent 共创的话,那么最顶尖模型的能力也很难发挥出来。"
八、Coding 的泛化性:贯穿三个范式
罗福莉对 Coding 的判断从一开始就很坚定,而这个判断在每次范式转变中都得到了验证:
预训练范式:Code 是长上下文中信号最密集的数据——文件间关联强,依赖清晰。
"基本上能达到 128K 到 1M 长度的数据只有两类:code 和书籍。但书籍的信号太发散了。"
R1 / Reasoning 范式:Code 和 Math 都有 verified 的指标,天然适合强化学习。
Agent 范式:Code 有很好的 environment,软件开发天然是长程任务。
"Coding 基本上在每个范式上都戳中了那个点。你都可以在 code 上做到研究的自闭环,并且在这个路径上做出来的东西很容易 scaling 到其他通用领域。"
在 Agent 时代,coding 的意义还在进一步放大:
"Code 带来的泛化性——它拉模型的上限,你训其他领域是保它的下限。软件开发真的是一个非常长程的任务,做好了基本上模型很多通用特质就已经好了。"
九、过去三年 AI 进化史
罗福莉给出了一个清晰的阶段划分:
2022 · ChatGPT:在 4K context 里展现了预训练的智能水平。Chat 作为交互方式,让人第一次感知到模型已经这么强了——"否则你不知道这个模型已经这么强了"。
2023 · 开源追赶:Llama 开了预训练范式的头。两股力量分化——
- Qwen:沿 Llama 架构做更大规模 scaling + 全尺寸全模态生态,"for 开发者的生态做得非常好"
- DeepSeek:关注架构创新(MoE + MLA),"在更差的芯片上做 scaling"
"一个在做生态价值,一个在做研究高度,彼此促进。"
2024 · O1 / R1:Reasoning 范式爆发。她强调这背后的关键不是算法,而是团队和组织的范式转变。
"O1 跟 R1 在 DeepSeek 内部也算是一次奇袭。"
她从 R1 得到的最大感知是:code 和 math 的 reasoning 能泛化到通用场景——"这个是 O1 也没有走通的,是我没有预料到的事情。"
2025 · 交错之年:可以选择在 chat 范式下深耕 reasoning,也可以全面拥抱 Agent。
"比较聪明的团队二五年年中就会全面拥抱 Agent。"
MiniMax 是国内转得最早的——"他们用一个 10B 模型做到目前的 Agent 能力,后训练的敏捷程度是非常惊艳的。"
2026 · 生产力变革:Agent 框架 + 模型能力双向迭代。
"接下来两三个月会非常精彩。"
十、中美差距与竞争
两三个月代差
"国内已经具备 1T 以上基座的公司有好几家:Kimi、MiMo,还有一些。如果反应速度足够快的话,应该只有两三个月的代差。不是说两三个月过后能追上两三个月过后的 Claude,而是能追上当代的 Claude。这个概率蛮高的。"
"在路径更清晰的情况下,国内大模型团队进入加速追赶的状态。"
预训练上没有代差,甚至有结构优势
"国内大模型团队在预训练结构上是有优势的。我们甚至一度认为 Cloud 的很多 context engineering 是因为模型结构不先进而做的妥协。但回头来看,这些 context 管理搭配 Agent 架构,是为了配合模型发挥更强大的任务完成度而设计的。"
竞争维度变多、速度变快
"做预训练你不可能一个月出一个模型,但做后训练你确实可以一个月出一个模型。"
决策链路也变长了——不仅要决策预训练架构,还要预判 Agent 框架演变、推理芯片供需、是否提前规划更大规模 scaling。
留在牌桌上的条件
- 预训练基座不能错——大于 1T,code 上潜能充分
- 让 Agent 框架与模型互相自迭代提升
- 让 Agent 架构耦合你的战略资源——操作系统、硬件、流量、社交
- 愿意用一套新方式做事——思考原来所有做的东西是不是都是错的
十一、AI 训 AI 与 AGI 时间线
罗福莉的一个核心信念是 AI 正在获得训练自身的能力。
"我之前认为我们自己做的工作已经足够有创造力、足够不会被 Skill 化、不会被 Workflow 化。但我现在发现,它竟然也能!"
她的逻辑链条:AI 能吸收人的 context → AI 能复原研究者的科研成长路径 → AI 能跟你讨论同样 topic 时"跟你一样聪明"→ AI 能训模型 → AI 能自我迭代。
"那它可不可以训出更强的模型呢?然后它就自己左脚踩右脚就提升了呢?我觉得这个事情是很有可能发生的。"
"它先吸收所有人的智能,然后再靠自己产生更强的智能。我觉得这个事肯定就在这一两年发生。"
关于 AGI 时间线——两个月前她认为"至少两年以上",现在修改为"两年以内"。
"通往 AGI 的历程,感觉已经到了百分之二十。今年能走到百分之六七十。"
AGI 后会先颠覆工作模式(因为工作产生生产力价值),生活模式被颠覆会更滞后(需要机器人等硬件突破)。
十二、开源的意义:加速 AGI
"开源一定是加速 AGI 的事情。"
她的推演逻辑:AGI 爆发 → 大规模产生经济价值依赖算力 → 芯片分散在不同厂商 → 用的模型不会是同一个 → 开源对 Agent 框架、芯片、能源各环节都有促进作用。
每个公司开源的决策取决于是否有"别人短期内拿不下的战略生态位":
"如果有,你就敢开源。如果没有,你就认为模型就是你的生态位,那你就不开源。"
在大公司做开源有压力吗?她说小米整体"非常的创业导向","做事的灵活度非常高"。
关于与老板的关系——"磊总同意就行了",在加入前就高度统一,"后边不需要有过多的解释和说明,做就行了"。
十三、每天在否认昨天的自己
被问到过去半年意味着什么,罗福莉给出了一个坦诚的回答:
"这个时代可能就是——我感觉每天都在否定昨天的自己。不管是做事方式上,还是对事情未来的判断上,我基本上都在一直去否定。在这种否定当中自我内省和反省当中成长的。"
缓解压力的方式
"我的脑子就是一个 Sliding Window 的东西——我忘得非常快。快的话一两个小时,慢的话睡一觉第二天就过了。"
"但这也基于一个前提:你第二天会有一些新的有想象力的事情给它冲掉。如果还在那个 context,应该就忘不掉。"
心法
做量化时的心法是"总有方式去建模价格"——价格就是 reward。做大模型后 reward 不那么清晰了,变成了——
"做当下符合我价值观的事情。一定是要对更多人产生价值的、更有意义的事情。如果创造大模型的这一批人没有这样的内驱力,那最后会非常危险。"
信息来源
"来源——自迭代。真的,来源自迭代。我最近连跟人沟通都很少了。"
如果 AGI 实现了?
"中国很多基础研究太要求有完整的产品证明了。能不能搞一个公益型的组织来 support 做基础研究的人?"
她的工作状态:早上十一点到凌晨一二三四五点,睡眠四到六个小时就够——"做的事情有点兴奋,睡太多有点浪费时间。"
本文基于「张小珺Jun|商业访谈录」第 138 期播客完整音频转录整理。播客时长约 3.5 小时,本文按主题重组并做了精简,完整版请收听播客或观看视频。
播客收听:小宇宙FM · Apple Podcast · Spotify
视频观看:Bilibili
文字版:微信公众号