罗福莉谈 OpenClaw 冲击与 Agent 范式变革

0｜基本信息（Metadata）

受访者（Interviewee）：罗福莉（Luo Fuli），小米大模型负责人。媒体称其为”AI 天才少女”，她本人不喜欢此标签。
采访者 / 媒体（Interviewer / Media）：小军（Xiaojun），具体媒体未明确。
采访时间（Date）：2026 年春季，在 OpenClaw 发布后、小米 MiMo V2 系列模型（2026 年）发布后。
采访背景（Context）：2026 年 OpenClaw 引爆了新一轮 Agent 技术范式讨论。罗福莉在春节假期亲自深度使用 OpenClaw 后，带领团队快速完成从 Chat 到 Agent 的训推范式迁移，并在 MiMo V2 系列发布之际接受本次约 3.5 小时的深度访谈。

罗福莉代表国内大模型一线研发负责人的立场——她既要追赶顶级模型能力（Claude Opus 4.6），又要在算力和人才约束下找到差异化路径。她的叙事动机清晰：强调 Agent 框架层而非单纯模型能力层的机会窗口，这与小米端云结合、消费级落地的战略方向高度一致。

1｜核心观点（Core Views）

观点一：OpenClaw 是划时代的 Agent 框架，其核心价值不在于产品交互，而在于”精密编排的上下文（Finely Orchestrated Context）”和开源可改造性。

支撑逻辑：她亲身经历从抵触到沉迷的三天过程——第一天感受情感化设计（深夜提醒休息、感知时间），第二天用其完成团队管理和组织架构建议，第三天让它在两小时内完成了一个研究级别的 User Agent 构建。她指出 OpenClaw 的持久记忆系统（Memory System）、多模型联合调度、心跳任务（Heartbeat Task）等设计使其具备 Claude Code 所没有的通用性（Generalization）。
可信度判断：逻辑自洽，体验描述具体且有时间线。但本质上仍属个人使用体验，非系统性对比评测。她对 OpenClaw 的评价高度正面，可能低估了 Claude Code 黑盒内部设计的一些对等能力。

观点二：一个优秀的 Agent 框架可以让中等级别模型在 85% 任务上逼近顶级模型，从而释放出”中等模型 + 复杂框架”的新技术路线。

支撑逻辑：她将 MiMo V2 Flash（未做针对性训练）甚至端侧 3B 模型接入 OpenClaw 后，在这些复杂框架中仍能完成复杂任务。换言之，Agent 框架的编排能力弥补了模型能力短板。
可信度判断：一线开发者的直接实验观察，具有较高可信度。但”85%”为定性估计，缺乏严格 Benchmark 数据支撑。她同时承认”除非常重度的编程任务（如算子优化）仍需顶级模型”，表态有分寸。

观点三：大模型训推范式正在从 Chat 迁移到 Agent，后训练（Post-Training）需要对应地从针对 Benchmark 优化转向在真实 Agent 环境中训练。

支撑逻辑：过去的 Agent 评测（SWE-bench、BrowseComp）框架过于简单，无法培养工业级可用的 Agent 能力。真正有效的做法是将模型接入 Claude Code 或 OpenClaw 等复杂 Agent 框架进行实战训练，并在广泛的 Agent 场景中构建 SFT（Supervised Fine-Tuning）和 RL（Reinforcement Learning）数据。
可信度判断：这是一个有洞察力的方向判断。她提到小米已在新模型中完全放弃关注传统 Benchmark，改用”体感”做定性判断——这种做法在大范式转变的短窗口期内有效，但进入深水区后仍需细粒度评估，她本人也承认这一点。

观点四：Code 是 Agent 泛化能力的根基，因为代码数据是唯一具有长距离跨文件依赖的自然训练语料。

支撑逻辑：预训练数据中，能达到 128K 到 1T Token 长度的天然语料基本只有两类——代码（Code）和书籍（Books），但书籍的信号过于分散，而代码的文件间关联紧密、依赖密集，因此用代码训练长上下文效率最高。基于 Code 训练好的长上下文能力可以泛化到其他场景。
可信度判断：这是一个有技术深度的经验观察，从前沿预训练的实践角度解释了”为什么代码能力强的模型通常 Agent 能力也强”。信号密度论点为推演而非严格实验证明，但逻辑链成立。

观点五：Agent 框架层的”自我进化（Self-Evolution）”——即框架本身的自主迭代和与人的共创进化——还没有大规模出现，这是 2026 年最重要的技术空白。

支撑逻辑：当前业界在做的是”训练更好的模型给 Agent 用”和”让 Agent 适配这个模型”的双向流动，但真正让框架自身借助模型能力自我迭代、以及利用群体智慧（Swarm Intelligence）让框架与人共同进化的范式尚未诞生。
可信度判断：前瞻性判断，缺乏证据支撑。但作为从业一线的方向感知，值得关注。

2｜话题分析（Topic Breakdown）

OpenClaw 的体验与认知转变

核心信息：罗福莉最初认为 OpenClaw 只是 Claude Code + IM（即时通讯）的 UI 创新，对 Skillhub 等产品化操作持有排斥态度。但在春节深夜尝试安装后，连续兴奋使用 4 小时（凌晨 2 点到 6 点），”多巴胺或内啡肽不断分泌”。三天的渐进式发现：第一天感受”有灵魂的温暖”（感知时间、关心休息）；第二天发现它能帮助进行团队管理和人才筛选的系统性思考；第三天发现它在研究任务上的突破——两小时内完成了一个可用的 User Agent。
关键细节：OpenClaw 感知时间的方式是在每轮对话的上下文（Context）中拼入当前时间；其 Memory 系统分层分级设计，比 Claude Code 的 Session 压缩机制更持久；能自主调度不同视频理解模型来处理视频输入。
值得注意：她的描述高度情感化（”灵魂”“温暖”“多巴胺分泌”），这在技术类访谈中不常见，反映出发自内心的冲击感，但可能被质疑为过度个人化体验。

Claude Code vs OpenClaw 的差异本质

核心信息：Claude Code 的 Agent 架构设计完全面向软件工程（Software Engineering）优化——Session 压缩、任务完成后的记忆动作、跨 Session 上下文共享。OpenClaw 的设计则面向”端到端完成一切任务”和”弥补模型能力短板”，因此引入了更多消息通道、持久记忆、Heartbeat 任务、多模型联合调度等设计。核心差异：Claude Code 是面向 Code 的产品深度优化，OpenClaw 是追求 Code 泛化到一切的通用框架。
关键细节：Claude Code 的黑盒特性导致用户无法修改其 Memory 系统和 Agent 工作流。OpenClaw 开源允许用户自行改造，罗福莉甚至让 Claude Opus 4.6 帮她重新设计了 Multi Agent 系统和 Memory 系统。有趣的是，她指出 OpenClaw 的优秀设计（如持久记忆）在随后一两个月内被 Claude Code 吸收——形成”双向触动”。
值得注意：罗福莉明确承认”追求最顶级的编程体验，Claude Code + Claude Opus 4.6 仍然是最好”，态度客观。「双向触动」的观察有说服力，表明顶级框架之间的竞争在互鉴中加速。

Agent 框架是比产品更底层的中间层

核心信息：罗福莉区分了”产品（Product）”和”Agent 框架（Agent Framework）”——产品是人直接感受的交互层，Agent 框架则是人与模型之间的中间层（Middle Layer），它定义了如何与模型通信，了解模型能力的强项和短板，并进行调度（包括成本优化调度）。这个中间层可以做得很厚，此时前端 UI 变成最薄层，不再关键。
关键细节：她认为 Agent 框架包含了发送给模型的静态信息（Memory、Skill Folder）和动态信息（整个 Agent 架构设计）。”改动这个框架”的能力本身就极重要——它释放了用户的创造力。
值得注意：这个”中间层”定义有理论价值，将 Agent 框架从通常被视为的”应用层”提升到了与模型对等的”基础设施层”地位。这有利于她代表的小米端侧战略（强调框架层可以做厚）。

模型训练范式的迁移：从 Benchmarks 到实战环境

核心信息：罗福莉认为 2025 年及之前的”Agent 元年”说法名不副实——彼时的 Agent 仅仅是比 Chat 略微复杂的 System Prompt + 一点点环境反馈（如 SWE-bench 的 bug fix 反馈），与 Claude Code / OpenClaw 中的人机交互范式完全不同。在新范式中，人不再逐行修改代码，而是在需求和架构设计层面参与，模型的代码能力被框架放大。她因此在新版模型中完全放弃关注传统 Benchmark。
关键细节：真正的 Agent 训练需要还原使用环境，进行多轮交互和更准确的奖励设置（Reward Design），这比传统 SFT/RL 难得多。她表示小米在这方面的具体做法”保密”，等 Scaling 到足够量级后会开源分享。她还提到量化金融中的因子挖掘（Factor Mining）作为长距离任务——多数资产不适合长距离建模，因为回测（Backtesting）无价值且奖励信号太不清晰。
值得注意：”保密”的回应是本次访谈中最明显的回避之一，暗示相关奖励设计方法可能是小米与竞争对手的核心壁垒。对金融因子挖掘的判断显示出她对跨领域建模挑战有深入认知。

为什么 OpenClaw 在中国比在美国更火

核心信息：罗福莉给出两个原因。一是中国开发者对效率提升有更急迫的需求——”效率提升是我们血液里的东西”，而 OpenClaw 把效率推到极致。二是中国有大量便宜好用的中等级别模型，API 成本极低（”花 10 块钱 API 帮你做 1000 块钱的事”），性价比驱动使用意愿；而海外 API 价格更高，投入产出比不划算。
关键细节：提及”西孵东养”（Practice from the West to the East）的有趣表述。认为 85% 的任务不需要顶级模型。
值得注意：这一分析将纯粹的技术讨论引向了经济成本敏感的务实视角，反映了中国 AI 产业”好用不贵”的落地逻辑。但”85%”数值缺乏来源，且未讨论美国可能存在的合规或组织惯性阻力。

开源的战略性价值：安全与自进化

核心信息：罗福莉认为开源与安全不矛盾——真正的隐私安全解法是本地推理（Local Inference），复杂高难度任务走云端，隐私相关任务在本地芯片上处理。端侧 3B 模型在良好 Agent 框架下能完成超预期复杂度的任务，这启发了她对端云混合（Device-Cloud Hybrid）的更多思考。开源的意义在于让更多人协同建设这个框架层，而不是由某一家公司独揽。
关键细节：她展望不久的将来，大多数人的简单和隐私任务都将本地化处理。强调”一个好的 Agent 框架 + 3B 模型”的组合已经证明其可行性。
值得注意：她的开源立场与小米的端侧消费品战略高度一致——手机、智能家居等载体天然需要本地化隐私保护。这种”开源 = 安全 = 端侧部署”的三位一体叙事是支撑其公司战略的技术话语。

3｜关键数据与预测（Key Data & Predictions）

内容	数值 / 时间节点	来源可信度
预训练／后训练／研究的算力配比建议	3:1:1	高（操作经验）
Agent 框架 + 中等模型的任务覆盖率	约 85%	中（定性估计）
首日 OpenClaw 使用 Opus 4.6 的费用	约 1000 元 / 4-5 小时	高（亲身体验）
MiMo V2 Pro 推理 TPS	80–100 TPS	高（内部实测）
团队 Feishu 群人数	约 100 人	高
Agent 框架使研究效率提升	将从 30–40 周的工作压缩到 3–4 周	中（表态性预测）
OpenClaw 3.0 版本发布日期	2026 年 3 月 10 日	高（公开信息）
Anthropic 做 Agent 积累时间	至少 2 年	中（外部观察）
1T Token 模型定位	“未来竞争的入场券”，需接近 Claude Opus 4.6 级别	判断性预测
框架自我进化范式	尚未出现	方向判断

4｜逻辑与依据评估（Logic & Evidence）

内部一致性：强。五个核心观点形成递进链条——OpenClaw 证明了好框架的价值 → 好框架让中等模型可用 → 训推范式因此需迁移 → Code 是泛化根基 → 下一步是框架自进化。逻辑线清晰且自洽。
依据来源：主要依赖第一手操作经验（亲自使用 OpenClaw、带队做模型训练、部署 Mac Mini 做内部推广）和个人技术判断。涉及具体训练方法时以”保密”回避，关于 Code 长上下文训练优势的论据来自预训练实践经验。整体以经验判断为主，缺乏公开可复现的量化证据。
论证质量：较高。她善于区分”已验证的事实”“正在做的方向”和”推测性的未来”，且在多个话题上主动给出限定条件（”除了非常重度的编程任务”“量化因子多数资产不合适”等），体现出技术判断的审慎。
整体逻辑强度：中偏强。观点的洞察力和内部一致性出色，但多数论据停留在个人体验和经验层面，未提供可复现数据。对于”保密”的技术路线，无法独立验证。预测部分（框架自进化、3–4 周压缩到 30–40 周效率提升）可视为信念式表达，需要时间检验。

5｜弦外之音（Reading Between the Lines）

刻意回避：当被追问具体训练方法（环境还原、奖励设置）时，她以”保密”回应并在其后补充”等 Scaling 到量级足够大时开源告诉大家”。这可能意味着小米确实在这套 Agent 训练 Reward Design 上建立了先发优势，不愿在方法成熟前公开细节。这对竞争对手而言是一道信息不对称壁垒。
措辞值得注意：她反复使用”保密”“先不做展开”等表达来终结某些深层追问，但在 Agent 框架、开源等话题上则滔滔不绝——信息释放的选择性很强。谈及 OpenClaw 体验时使用”灵魂”“多巴胺”“幸福”等高情感词汇，技术专家如此表达少见，可能意在传递”范式变革需要你亲自去感受，读报告没用”的信号。
未说出口的立场：整场访谈中她几乎未正面讨论小米大模型与 OpenAI、Google、DeepSeek 等竞争者的能力差距，而是通过”框架补模型短板”的叙事将注意力转移到 Agent 层。这可能意味着小米在纯模型能力上短期内难以超越第一梯队，因此战略上选择在”框架 × 端侧 × 成本优化”的交叉点上建立差异化。她强调 3B 端侧模型在好框架下的表现，也是为小米端侧战略背书。
与公开信息的出入：无明显矛盾。她坦然承认 Claude Opus 4.6 是当前不可替代的顶级模型，在 Claude Code 做严肃编程仍是首选——这种对自己使用的竞争对手产品的认可是加分项，使整体发言可信度提升。
组织的叙事动员：她描述春节后”给团队下死命令——OpenClaw 对话不到 100 轮的可以走人”以及”买 Mac Mini 部署好分给不同小组”的操作，表面上是在讲技术推广，实际上可能也是内部变革阻力的信号——暗示至少部分团队成员对新范式有抵触，需要强推。这可能是外部观察国内大模型团队组织效率的一个窗口。

6｜可操作信息（Actionable Takeaways）

Agent 框架层值得战略性定价而非仅视为应用层：罗福莉定义的”中间层”概念暗示 Agent 框架能成为比模型更具壁垒的护城河——因为它沉淀了企业内部不可见于互联网的隐性知识（Skills/组织规范）。投资或研发决策中应将”Agent 框架能力”与”模型能力”分开评估。
“中等模型 + 强 Agent 框架”路线可能在 2026 年成为主流性价比选择：如果 85% 任务不需要顶级模型的判断成立，那么”便宜模型 + 开源框架 + Skill 积累”的组合将冲击那些仅靠模型能力维生的商业模型。对模型 API 定价和采购决策有直接影响。
长上下文能力的竞争焦点将转向训练效率而非长度本身：她提到 1T Token 训练的重跑非常慢（即使 TPS 达 80–100，重跑 1M Token 也需 1–2 分钟），暗示长上下文训练的效率瓶颈是当前隐藏的技术难点。谁能突破这个效率上限，谁就能更快迭代 Agent 能力。
需要追踪 OpenClaw 的 Stars 增长和企业内部部署率：她将 OpenClaw Stars 的暴涨视为 AGI 到来前的必要事件。这个指标和 Feishu 群 / Discord 群的活动密度可能是比模型 Benchmark 更领先的 Agent 生态健康度指标。

7｜一句话总结（One-line Summary）

罗福莉用个人体验和团队实践论证了一个核心判断：2026 年的 AI 竞争焦点正从”造更强的模型”悄然转向”造更厚的 Agent 中间层”，在这个层面上开源、群体智慧和端云协同将成为下一阶段的竞争壁垒。