0|基本信息(Metadata)

  • 受访者(Interviewee):罗福莉(Luo Fuli),小米大模型负责人。媒体称其为”AI 天才少女”,她本人不喜欢此标签。
  • 采访者 / 媒体(Interviewer / Media):小军(Xiaojun),具体媒体未明确。
  • 采访时间(Date):2026 年春季,在 OpenClaw 发布后、小米 MiMo V2 系列模型(2026 年)发布后。
  • 采访背景(Context):2026 年 OpenClaw 引爆了新一轮 Agent 技术范式讨论。罗福莉在春节假期亲自深度使用 OpenClaw 后,带领团队快速完成从 Chat 到 Agent 的训推范式迁移,并在 MiMo V2 系列发布之际接受本次约 3.5 小时的深度访谈。

罗福莉代表国内大模型一线研发负责人的立场——她既要追赶顶级模型能力(Claude Opus 4.6),又要在算力和人才约束下找到差异化路径。她的叙事动机清晰:强调 Agent 框架层而非单纯模型能力层的机会窗口,这与小米端云结合、消费级落地的战略方向高度一致。


1|核心观点(Core Views)

观点一:OpenClaw 是划时代的 Agent 框架,其核心价值不在于产品交互,而在于”精密编排的上下文(Finely Orchestrated Context)”和开源可改造性。

  • 支撑逻辑:她亲身经历从抵触到沉迷的三天过程——第一天感受情感化设计(深夜提醒休息、感知时间),第二天用其完成团队管理和组织架构建议,第三天让它在两小时内完成了一个研究级别的 User Agent 构建。她指出 OpenClaw 的持久记忆系统(Memory System)、多模型联合调度、心跳任务(Heartbeat Task)等设计使其具备 Claude Code 所没有的通用性(Generalization)。
  • 可信度判断:逻辑自洽,体验描述具体且有时间线。但本质上仍属个人使用体验,非系统性对比评测。她对 OpenClaw 的评价高度正面,可能低估了 Claude Code 黑盒内部设计的一些对等能力。

观点二:一个优秀的 Agent 框架可以让中等级别模型在 85% 任务上逼近顶级模型,从而释放出”中等模型 + 复杂框架”的新技术路线。

  • 支撑逻辑:她将 MiMo V2 Flash(未做针对性训练)甚至端侧 3B 模型接入 OpenClaw 后,在这些复杂框架中仍能完成复杂任务。换言之,Agent 框架的编排能力弥补了模型能力短板。
  • 可信度判断:一线开发者的直接实验观察,具有较高可信度。但”85%”为定性估计,缺乏严格 Benchmark 数据支撑。她同时承认”除非常重度的编程任务(如算子优化)仍需顶级模型”,表态有分寸。

观点三:大模型训推范式正在从 Chat 迁移到 Agent,后训练(Post-Training)需要对应地从针对 Benchmark 优化转向在真实 Agent 环境中训练。

  • 支撑逻辑:过去的 Agent 评测(SWE-bench、BrowseComp)框架过于简单,无法培养工业级可用的 Agent 能力。真正有效的做法是将模型接入 Claude Code 或 OpenClaw 等复杂 Agent 框架进行实战训练,并在广泛的 Agent 场景中构建 SFT(Supervised Fine-Tuning)和 RL(Reinforcement Learning)数据。
  • 可信度判断:这是一个有洞察力的方向判断。她提到小米已在新模型中完全放弃关注传统 Benchmark,改用”体感”做定性判断——这种做法在大范式转变的短窗口期内有效,但进入深水区后仍需细粒度评估,她本人也承认这一点。

观点四:Code 是 Agent 泛化能力的根基,因为代码数据是唯一具有长距离跨文件依赖的自然训练语料。

  • 支撑逻辑:预训练数据中,能达到 128K 到 1T Token 长度的天然语料基本只有两类——代码(Code)和书籍(Books),但书籍的信号过于分散,而代码的文件间关联紧密、依赖密集,因此用代码训练长上下文效率最高。基于 Code 训练好的长上下文能力可以泛化到其他场景。
  • 可信度判断:这是一个有技术深度的经验观察,从前沿预训练的实践角度解释了”为什么代码能力强的模型通常 Agent 能力也强”。信号密度论点为推演而非严格实验证明,但逻辑链成立。

观点五:Agent 框架层的”自我进化(Self-Evolution)”——即框架本身的自主迭代和与人的共创进化——还没有大规模出现,这是 2026 年最重要的技术空白。

  • 支撑逻辑:当前业界在做的是”训练更好的模型给 Agent 用”和”让 Agent 适配这个模型”的双向流动,但真正让框架自身借助模型能力自我迭代、以及利用群体智慧(Swarm Intelligence)让框架与人共同进化的范式尚未诞生。
  • 可信度判断:前瞻性判断,缺乏证据支撑。但作为从业一线的方向感知,值得关注。

2|话题分析(Topic Breakdown)

OpenClaw 的体验与认知转变

  • 核心信息:罗福莉最初认为 OpenClaw 只是 Claude Code + IM(即时通讯)的 UI 创新,对 Skillhub 等产品化操作持有排斥态度。但在春节深夜尝试安装后,连续兴奋使用 4 小时(凌晨 2 点到 6 点),”多巴胺或内啡肽不断分泌”。三天的渐进式发现:第一天感受”有灵魂的温暖”(感知时间、关心休息);第二天发现它能帮助进行团队管理和人才筛选的系统性思考;第三天发现它在研究任务上的突破——两小时内完成了一个可用的 User Agent。
  • 关键细节:OpenClaw 感知时间的方式是在每轮对话的上下文(Context)中拼入当前时间;其 Memory 系统分层分级设计,比 Claude Code 的 Session 压缩机制更持久;能自主调度不同视频理解模型来处理视频输入。
  • 值得注意:她的描述高度情感化(”灵魂”“温暖”“多巴胺分泌”),这在技术类访谈中不常见,反映出发自内心的冲击感,但可能被质疑为过度个人化体验。

Claude Code vs OpenClaw 的差异本质

  • 核心信息:Claude Code 的 Agent 架构设计完全面向软件工程(Software Engineering)优化——Session 压缩、任务完成后的记忆动作、跨 Session 上下文共享。OpenClaw 的设计则面向”端到端完成一切任务”和”弥补模型能力短板”,因此引入了更多消息通道、持久记忆、Heartbeat 任务、多模型联合调度等设计。核心差异:Claude Code 是面向 Code 的产品深度优化,OpenClaw 是追求 Code 泛化到一切的通用框架。
  • 关键细节:Claude Code 的黑盒特性导致用户无法修改其 Memory 系统和 Agent 工作流。OpenClaw 开源允许用户自行改造,罗福莉甚至让 Claude Opus 4.6 帮她重新设计了 Multi Agent 系统和 Memory 系统。有趣的是,她指出 OpenClaw 的优秀设计(如持久记忆)在随后一两个月内被 Claude Code 吸收——形成”双向触动”。
  • 值得注意:罗福莉明确承认”追求最顶级的编程体验,Claude Code + Claude Opus 4.6 仍然是最好”,态度客观。「双向触动」的观察有说服力,表明顶级框架之间的竞争在互鉴中加速。

Agent 框架是比产品更底层的中间层

  • 核心信息:罗福莉区分了”产品(Product)”和”Agent 框架(Agent Framework)”——产品是人直接感受的交互层,Agent 框架则是人与模型之间的中间层(Middle Layer),它定义了如何与模型通信,了解模型能力的强项和短板,并进行调度(包括成本优化调度)。这个中间层可以做得很厚,此时前端 UI 变成最薄层,不再关键。
  • 关键细节:她认为 Agent 框架包含了发送给模型的静态信息(Memory、Skill Folder)和动态信息(整个 Agent 架构设计)。”改动这个框架”的能力本身就极重要——它释放了用户的创造力。
  • 值得注意:这个”中间层”定义有理论价值,将 Agent 框架从通常被视为的”应用层”提升到了与模型对等的”基础设施层”地位。这有利于她代表的小米端侧战略(强调框架层可以做厚)。

模型训练范式的迁移:从 Benchmarks 到实战环境

  • 核心信息:罗福莉认为 2025 年及之前的”Agent 元年”说法名不副实——彼时的 Agent 仅仅是比 Chat 略微复杂的 System Prompt + 一点点环境反馈(如 SWE-bench 的 bug fix 反馈),与 Claude Code / OpenClaw 中的人机交互范式完全不同。在新范式中,人不再逐行修改代码,而是在需求和架构设计层面参与,模型的代码能力被框架放大。她因此在新版模型中完全放弃关注传统 Benchmark。
  • 关键细节:真正的 Agent 训练需要还原使用环境,进行多轮交互和更准确的奖励设置(Reward Design),这比传统 SFT/RL 难得多。她表示小米在这方面的具体做法”保密”,等 Scaling 到足够量级后会开源分享。她还提到量化金融中的因子挖掘(Factor Mining)作为长距离任务——多数资产不适合长距离建模,因为回测(Backtesting)无价值且奖励信号太不清晰。
  • 值得注意:”保密”的回应是本次访谈中最明显的回避之一,暗示相关奖励设计方法可能是小米与竞争对手的核心壁垒。对金融因子挖掘的判断显示出她对跨领域建模挑战有深入认知。

为什么 OpenClaw 在中国比在美国更火

  • 核心信息:罗福莉给出两个原因。一是中国开发者对效率提升有更急迫的需求——”效率提升是我们血液里的东西”,而 OpenClaw 把效率推到极致。二是中国有大量便宜好用的中等级别模型,API 成本极低(”花 10 块钱 API 帮你做 1000 块钱的事”),性价比驱动使用意愿;而海外 API 价格更高,投入产出比不划算。
  • 关键细节:提及”西孵东养”(Practice from the West to the East)的有趣表述。认为 85% 的任务不需要顶级模型。
  • 值得注意:这一分析将纯粹的技术讨论引向了经济成本敏感的务实视角,反映了中国 AI 产业”好用不贵”的落地逻辑。但”85%”数值缺乏来源,且未讨论美国可能存在的合规或组织惯性阻力。

开源的战略性价值:安全与自进化

  • 核心信息:罗福莉认为开源与安全不矛盾——真正的隐私安全解法是本地推理(Local Inference),复杂高难度任务走云端,隐私相关任务在本地芯片上处理。端侧 3B 模型在良好 Agent 框架下能完成超预期复杂度的任务,这启发了她对端云混合(Device-Cloud Hybrid)的更多思考。开源的意义在于让更多人协同建设这个框架层,而不是由某一家公司独揽。
  • 关键细节:她展望不久的将来,大多数人的简单和隐私任务都将本地化处理。强调”一个好的 Agent 框架 + 3B 模型”的组合已经证明其可行性。
  • 值得注意:她的开源立场与小米的端侧消费品战略高度一致——手机、智能家居等载体天然需要本地化隐私保护。这种”开源 = 安全 = 端侧部署”的三位一体叙事是支撑其公司战略的技术话语。

3|关键数据与预测(Key Data & Predictions)

内容 数值 / 时间节点 来源可信度
预训练/后训练/研究的算力配比建议 3:1:1 高(操作经验)
Agent 框架 + 中等模型的任务覆盖率 约 85% 中(定性估计)
首日 OpenClaw 使用 Opus 4.6 的费用 约 1000 元 / 4-5 小时 高(亲身体验)
MiMo V2 Pro 推理 TPS 80–100 TPS 高(内部实测)
团队 Feishu 群人数 约 100 人
Agent 框架使研究效率提升 将从 30–40 周的工作压缩到 3–4 周 中(表态性预测)
OpenClaw 3.0 版本发布日期 2026 年 3 月 10 日 高(公开信息)
Anthropic 做 Agent 积累时间 至少 2 年 中(外部观察)
1T Token 模型定位 “未来竞争的入场券”,需接近 Claude Opus 4.6 级别 判断性预测
框架自我进化范式 尚未出现 方向判断

4|逻辑与依据评估(Logic & Evidence)

  • 内部一致性:强。五个核心观点形成递进链条——OpenClaw 证明了好框架的价值 → 好框架让中等模型可用 → 训推范式因此需迁移 → Code 是泛化根基 → 下一步是框架自进化。逻辑线清晰且自洽。
  • 依据来源:主要依赖第一手操作经验(亲自使用 OpenClaw、带队做模型训练、部署 Mac Mini 做内部推广)和个人技术判断。涉及具体训练方法时以”保密”回避,关于 Code 长上下文训练优势的论据来自预训练实践经验。整体以经验判断为主,缺乏公开可复现的量化证据。
  • 论证质量:较高。她善于区分”已验证的事实”“正在做的方向”和”推测性的未来”,且在多个话题上主动给出限定条件(”除了非常重度的编程任务”“量化因子多数资产不合适”等),体现出技术判断的审慎。
  • 整体逻辑强度中偏强。观点的洞察力和内部一致性出色,但多数论据停留在个人体验和经验层面,未提供可复现数据。对于”保密”的技术路线,无法独立验证。预测部分(框架自进化、3–4 周压缩到 30–40 周效率提升)可视为信念式表达,需要时间检验。

5|弦外之音(Reading Between the Lines)

  • 刻意回避:当被追问具体训练方法(环境还原、奖励设置)时,她以”保密”回应并在其后补充”等 Scaling 到量级足够大时开源告诉大家”。这可能意味着小米确实在这套 Agent 训练 Reward Design 上建立了先发优势,不愿在方法成熟前公开细节。这对竞争对手而言是一道信息不对称壁垒。

  • 措辞值得注意:她反复使用”保密”“先不做展开”等表达来终结某些深层追问,但在 Agent 框架、开源等话题上则滔滔不绝——信息释放的选择性很强。谈及 OpenClaw 体验时使用”灵魂”“多巴胺”“幸福”等高情感词汇,技术专家如此表达少见,可能意在传递”范式变革需要你亲自去感受,读报告没用”的信号。

  • 未说出口的立场:整场访谈中她几乎未正面讨论小米大模型与 OpenAI、Google、DeepSeek 等竞争者的能力差距,而是通过”框架补模型短板”的叙事将注意力转移到 Agent 层。这可能意味着小米在纯模型能力上短期内难以超越第一梯队,因此战略上选择在”框架 × 端侧 × 成本优化”的交叉点上建立差异化。她强调 3B 端侧模型在好框架下的表现,也是为小米端侧战略背书。

  • 与公开信息的出入:无明显矛盾。她坦然承认 Claude Opus 4.6 是当前不可替代的顶级模型,在 Claude Code 做严肃编程仍是首选——这种对自己使用的竞争对手产品的认可是加分项,使整体发言可信度提升。

  • 组织的叙事动员:她描述春节后”给团队下死命令——OpenClaw 对话不到 100 轮的可以走人”以及”买 Mac Mini 部署好分给不同小组”的操作,表面上是在讲技术推广,实际上可能也是内部变革阻力的信号——暗示至少部分团队成员对新范式有抵触,需要强推。这可能是外部观察国内大模型团队组织效率的一个窗口。


6|可操作信息(Actionable Takeaways)

  • Agent 框架层值得战略性定价而非仅视为应用层:罗福莉定义的”中间层”概念暗示 Agent 框架能成为比模型更具壁垒的护城河——因为它沉淀了企业内部不可见于互联网的隐性知识(Skills/组织规范)。投资或研发决策中应将”Agent 框架能力”与”模型能力”分开评估。

  • “中等模型 + 强 Agent 框架”路线可能在 2026 年成为主流性价比选择:如果 85% 任务不需要顶级模型的判断成立,那么”便宜模型 + 开源框架 + Skill 积累”的组合将冲击那些仅靠模型能力维生的商业模型。对模型 API 定价和采购决策有直接影响。

  • 长上下文能力的竞争焦点将转向训练效率而非长度本身:她提到 1T Token 训练的重跑非常慢(即使 TPS 达 80–100,重跑 1M Token 也需 1–2 分钟),暗示长上下文训练的效率瓶颈是当前隐藏的技术难点。谁能突破这个效率上限,谁就能更快迭代 Agent 能力。

  • 需要追踪 OpenClaw 的 Stars 增长和企业内部部署率:她将 OpenClaw Stars 的暴涨视为 AGI 到来前的必要事件。这个指标和 Feishu 群 / Discord 群的活动密度可能是比模型 Benchmark 更领先的 Agent 生态健康度指标。


7|一句话总结(One-line Summary)

罗福莉用个人体验和团队实践论证了一个核心判断:2026 年的 AI 竞争焦点正从”造更强的模型”悄然转向”造更厚的 Agent 中间层”,在这个层面上开源、群体智慧和端云协同将成为下一阶段的竞争壁垒。