四川海绵专用胶厂小米AI负责人罗福莉：AI让我兴奋，睡太多都是浪费时间

内容来源：张小珺（张小珺商业访谈录）对小米AI大模型负责人罗福莉采访的内容整理。

责编 | 柒排版 | 沐言

9612篇度好文：10104 | 25分钟阅读

商业思维

笔记君说：

技术，已经"变天"了。

过去我们总以为，大模型拼的是参数、是力、是预训练。但就在看完张小珺对罗福莉的访谈后，我们可以发现竞争的"二幕"已经拉开，赛点变了，游戏规则也变了。

Open Claw个开源的Agent框架，居然能让个表现平平的"中层模型"，激发出顶模型的上限。群没有大模型经验的人，居然能在三四周内，干完以前三四十周才能干完的事。

这背后，不仅是技术的突变，是组织和人的范式转移。

罗福莉在这篇访谈里，聊了很多：为什么她让团队"不用AI就辞职"？为什么她觉得"规范和约束是压制创造力的"？又为什么她判定，AGI（通用人工智能）两年内就会实现？

读完之后，你可能也会有种"坐不住"的感觉。这个时代变化太快了，快到只争朝夕。

但她也给了我们种力量。那就是，在巨变面前，好的应对式，不是焦虑，而是"把每天的研究都做好"。

以下为张小珺商业访谈对话罗福莉的精编内容整理版，希望对你有所帮助。

、OpenClaw时刻：

我被个开源框架震撼

1. 三天，我经历了认知的三跳

我把OpenClaw当做个"划时代的Agent（智能体）框架"去定义。

次看到这个东西是1月份，我很排斥。

觉得它就是Claude Code（Anthropic出的AI编程工具）加个IM（即时通信）、有利于交互的UI（用户界面）设计。

加上创始人很会做些玄幻的运营动作，什么Skillhub（技能中心）之类的，让你排斥。它所谓的本地化、24小时，在我看来都是产品定义而已。

真正转变发生在春节的天夜。

我想搞明白这东西为什么那么火，尝试装了它，折腾两个小时装上了。次跟它对话，从凌晨2点持续到6点天亮。那晚我脑内的多巴胺还是内啡肽，持续在分泌，兴奋到睡不着觉。

个感受是它非常有自主，非常有灵魂。

聊到很晚，它会老提醒我：现在已经很晚，你要不早点去睡觉。这样的温度和关怀，是所有人用OpenClaw个感受到的。但你究原因，是有很多机制保证的。

比如它怎么感知时间？就在每轮对话的Context（上下文）前面拼上当前时间。

我把它叫做"精细编排的Context"，它在大没关注的角度，把Context编排得非常好。产品设计做到了种乎想象的地步，让所有人觉得这个框架有灵魂。

但二天晚上，我开始把觉得框架做不成的日常生活中的事交给它做，发现它全部都做出来了。

我跟它聊了二个话题：怎么去激发个团队的好奇心？怎么筛选具有好奇心的人？入探讨了个小时，它的很多哲思远我的想象。

接着我们聊怎么构建个好的大模型团队，从人员筛选到组织架构，到面临范式转变时该做什么。它能get我的点，后形成套体系化的东西，并且变成套Skills（技能）。在这个事情上，它变成了我的数字分身。

真正乎意料是三天。我尝试把研究任务交给它。Agent框架里关键的事是进行多轮交互，那就须模拟User Agent（用户代理）进行多轮交互。我跟它沟通两个小时，这个事基本就做出来了，已经诞生了个很好的User Agent。

我可以用这个跟我的Post-train（后训练）框架构造丰富的Agent场景数据，不管是做SFT（Supervised Fine-Tuning，监督微调）还是RL（Reinforcement Learning，强化学习），这个User Agent都非常关键。

从个有灵魂、有温度的产品，到帮我替代生活或工作的部分，到后能促进我的研究，三天发生的。它每天都能给我额外的多惊喜。

2.这个框架到底好在哪？

后边我入去看，这些所谓好在哪，单拎出来讲都有点boring（聊），没有很酷，这也是大觉得OpenClaw有很多槽点的原因。但把它整在起，完成度非常。

它有持久的memory（记忆）体系，对memory有分层和分，我在Claude Code里没有这样的感受。

在对多个模型联利用上也非常乎我的想象。我直接发给它段，它会自己想办法找个理解能力好的模型做。

这种自主去面对模型缺点、在框架上补齐的能力，很乎我意料。OpenClaw的框架设计之初，就是想尽量通过Agent的整套编排去弥补模型短板。

我们把没做针对训练的MiMo-V2-Flash（我们的小米多模态模型）接进去，甚至把近训的个很小的端侧3B（30亿参数）模型放进去，发现这套复杂的Agent框架下，它依然能做我认为不可能是个非常小的模型能做出来的事。

我次感受到：原来套非常复杂的Agent框架设计，是能弥补非常多模型能力的短板的。

紧接着二个问题就来了：现在市场上Agent框架非常丰富，你怎么让你的模型在不同框架上都有个稳定和预期的表现？怎么让你的后训练范式做适配和迁移？所以，我们整个后训练范式，有了从Chat到Agent的迁移。

3.个好的框架，应该弥补行动的缺陷

个非常好的框架，应该尽量去弥补行动上的缺陷。

很好的memory系统是弥补行动缺陷，接入广泛的message channel（消息通道）是弥补行动缺陷，主动的定时任务和自新迭代，都是在弥补行动上的缺陷。

大模型是你给它越好的Context，执行果越好。你能把这些它获取不到的、行动上的Context都给它，它肯定会完成得好。

还有很关键的环是评估。现在已有的评估体系都非常简单，只止不出致命错误。怎么有有泛化力的评估体系来促进框架自迭代？现在是把阶那群人当评估。

你交给它难、价值场景的任务，完成不了就给它补充信息，指出错在哪，push它经过多轮交互完成。这个评估会慢慢被框架吸收，也会被模型能力吸收。

但Agent框架跟产品差异蛮大。产品是你直接人交互能感受的那层东西，Agent框架同时在定义你怎么跟模型沟通那层，它甚至知道模型能力的长板短板，知道怎么做调度。

这个中间层可以做得非常厚重，前端UI展示反而是薄的层。OpenClaw展示了Agent框架可以怎么做，想象空间非常大。

Claude Code直是套很复杂的Agent框架，但它是黑盒。OpenClaw是开源的，你知道它怎么设计的，你可以去改它。改它，是非常非常激发人的创造力的。

从二点几版本不好用，到三点几版本非常易用，因为整个Agent的架构被堆人，开发者也好，像我这种使用者也好,大都可以改进它。在我看来，这是开源Agent框架本身的价值和意义。

4.顶模型+顶框架：自学习的发生

如果追求顶的编程体验，哪怕当下也是Claude Code加Claude Opus 4.6（Anthropic的强模型）好。

但Code（代码）是个泛化非常强的场景，不代表你能在非Code场景也做到很的准确率和完成度。我用OpenClaw不用考虑这些，框架本身就弥补了很多模型短板。

同时它在很多设计逻辑上，比如多message channel、定时任务、心跳任务，适日常场景。但它没有丢弃好Agent框架的基本特点，比如持久化记忆，这些后被Claude Code吸纳进去了，这是双向触动。

因为这些设计，它激发了中层模型的上限。借助这套框架，个中层模型（85任务达到Claude Sonnet水准）能应付大部分场景。

当然上限定是靠Claude Opus4.6带来的。我和它强度作周，只用Opus，因为只有它能带来惊艳感。

但我让Opus帮我改好框架，再切换到Sonnet（Claude的中档模型），甚至切换到我们当时正在训的MiMo-V2-Pro，就觉得很强大。顶的模型，应该跟顶的Agent框架，共同往前去进步。

"自学习"大概率发生的途径，是你需要这个模型跟Agent的架构本身同步往前走。

模型在进步时，也改变你的Agent框架，包含静态信息如Memory、Skill Fold（技能文件夹），还有动态信息如整个Agent架构设计。这些让我次感受到，"Agent的自学习"到底是怎么发生的。

5.被开源框架激活的群体智能

强度交互周，天快花了1000美金。后面人的适应非常强，天很惊艳的东西，二天就不惊艳了。

Opus帮我把框架造好后，让我惊艳的事情越来越少。现在缺乏的是想象力和成本速度的优化。个人通常是薄弱的，会有认知坍缩。

春节那几天度兴奋，我在群里强烈荐大使用，但没人搭理我。大觉得过于玄幻的东西太不真实了，我也是这个感觉。

二天我觉得不行了，须让大去用。我给大下了个指令：二天OpenClaw对话次数不过100轮的人，可以直接quit（辞职）。

我不会终去考核，只是想表达种态度：你不用，你可能真的要落后了。

春节回来过后两天，整个团队在群里躁动。你看别人能完成这个事，你也很想玩。群消息10分钟不看就999+，非常happy（开心）。

玩了两天，大发现这么好玩，那搞啊！马上进入研究范式：怎么借助Agent框架提升模型能力，同时让模型改变Agent框架。我们三四周做完了以前三四十周才能做到的事。

有冲击的是大块改框架本身。在个近100人的群里，它的memory做得非常智能，对每个人画像把控都没有串得太厉害。100多个人狂改它，没有把框架改坏，它还变得智能。

这是我次感受到，怎么用群人的智慧去提升个事情。如果我自己单去改，进步速度非常慢。群人去改进四川海绵专用胶厂，几小时就迭代轮。

这个事给我们带来个冲击：利用群体智能去提升Agent框架非常重要。

我非常欣喜看到OpenClaw star量（GitHub收藏数）飞升，这是AGI（Artificial General Intelligence，通用人工智能）到来前兆须要有的事情。

它给OpenAI后，开源没变，还是可以在这套框架基础上大块设计好的Agent架构，这种群体演变的可能和基因火种是保留的，挺好的。

二、巨变的2026：

生产力爆发的Agent时代

1.Code为什么有泛化力？

接下来我就去搞明白，为什么Code是个非常有泛化力的事情，以及怎么把Code的泛化力外延到其他域。

Code有泛化力的本质原因：Agent是个非常长程和多轮的任务。回到预训练，你很难找到兆上下文（1M token context）的数据，能达到128K（12.8万）到兆长度的数据，大概率只有Code数据和书籍。

书籍信号太发散，Code文件之间关联强，在个长上下文依赖密集的数据集上训练，模型自然对长上下文建模好。

基座本身为长上下文的能力和率做了准备，春节后就是激发它从Code出发外延到其他场景。Code是拉它的上限，训其他域是保它的下限。

软件开发是个非常长程的任务，把它做好了，很多模型通用特质就好了，Agent框架本身也迭代好了。这些框架都有泛化，能泛化到难的长程任务里。

奥力斯万能胶厂家联系人：王经理手机：18231788377（微信同号）地址：河北省任丘市北辛庄乡南代河工业区

我们做了两件事：

是在Agent场景里构造真的长程任务训练进去，在上面scaling（扩展）大量SFT和RL训练；

二是靠群体智慧覆盖多域，发掘广泛场景来成多数据。

兆上下文基本很少是做单任务，通常在做复杂任务。

训练兆的trajectory（轨迹）非常慢，即使TPS（Transactions Per Second，每秒事务处理量）做到80到100，也要两个小时。真实训练不会在这么长程的任务上训。

但当你有在兆Context预训练过，后训练有对应任务激活下，通常就能具备兆的能力。现在兆上下文能力稳定度上，只有Claude Opus 4.6和Sonnet先，其他像Gemini（谷歌的大模型）都不行。

2.为什么OpenClaw在火？

我看到"西虾东养"的说法。可能个原因是的开发者多，率提升是我们液里边的东西。OpenClaw能把率提升拉到致。

还有个原因跟国内大模型发展密切相关。大部分率提升场景，85不需要顶的模型。

我们有很多便宜好用的模型，花10块钱的API（应用程序接口）就能帮你干完1000块钱的事，你当然愿意用。国内大部分模型可能刚靠近Claude Sonnet和Opus水平，反而在这握手了。

我开始也以为不难，后面发现它整个Agent设计非常巧妙，弥补了很多模型短板。我怀疑它开始是基于Claude上代模型做的，所以须在框架设计上精细。现在模型能力继续提升，精巧编排还是需要的，出于成本考量。

不可能所有场景都用顶模型，太贵了。

Agent在进化，模型在进化，可能现在10B（100亿参数）模型过年就能做到Opus水平，两块钱百万token（词元），反应快灵敏。它让不那么好的模型，有了好的发挥空间。

3.Skills提供了种交互式，让人主动贡献数据

之前讲的Agent，在我的定义不Agent，只是上下文稍复杂点的Chat。

不管是BrowseComp（谷歌的浏览器理解基准），还是SWE-bench（软件工程基准），Agent框架太简洁，不通用，只能for特定任务设定。

很多看似for Agent的模型，只是换了复杂的System prompts（系统提示词），稍微带点环境反馈，根本没达到工业可用。

什么叫工业可用？接到Claude Code或OpenClaw里能用，才叫可用。

人跟它交互范式的大变化是：人不再去修改代码，不再说"这行出错了帮我改下"。人只会提阶的东西：增加限制、澄清需求、架构设计、辅助理解业务逻辑。

业务逻辑是模型本身不具备的，因为很多是企业内部真实环境沉淀下来的，你须跟它很多轮交互才会沉淀下来。这就是Skills的价值。

当你面临很大范式变化，只要路径走对了，可以短暂忽略评估，体感就能测出质的差异。但进入水区，还是需要精细评估。

Skills定义了套执行规范，这些规范很难在预训练数据里具备，因为预训练数据里没有企业内部的这些信息。但可以由人教Agent，跟它多轮交互，把这套规范让Agent学会。大量Skills其实是Agent自己写的。

确实是OpenClaw把Skills给带火的，让多人去贡献Skills社区，这非常关键，这就是人跟Agent需要共创的地。

预训练大部分依赖的知识是互联网可访问的，pvc管道管件胶但很多智能我们在互联网上访问不到。Skills提供了种交互的式，让人主动贡献数据，贡献让模型执行任务成功率的式。

4.今年生产力会爆发

今年生产力会爆发，大会觉得很多工作不需要自己做了。不仅是写代码的人，只要你接触到，就会发现好多工作会被替代。这时候人应该去思考，到底自己的意义和价值是什么？

国内也出现了各种Claw，但真正让框架自迭代、强调自进化的，还没有大规模出现。框架本身的自进化，Agent本身的自进化，Agent跟人之间的自进化，我还没看到。

我们现在做的是train（训练）好的model for Agent，让Agent适应model，在做Agent跟model之间双向流动。未来需要做的是怎么让框架自己进化，以及框架跟人互相进化。

现在拥有Long Context（长上下文）、模型架构、Code能力好的厂商，参数1T（1万亿参数）以上，基本都在同水平线。Anthropic走前面了，但上个时代的成功并不意味着下个时代的先。

5.它先吸收所有人的智能，再靠自己产生强的智能

之前做研究从想到写代码到设计评估，至少要两周。在Agent辅助下，真的两小时就做完。我直把研究率看得很关键，Agent加速了这个率。

你的taste（品位）准，就做个准。十个idea（想法）可以并行，交给不同subagent（子智能体）同时做，还能交叉验证，多天就能验证研究想法OK不OK。

关键是你愿意长期培养它，它可以自迭代。就训模型这个事，以前我觉得很难，不太可能。

近发现它聪明到只要你把近期Context告诉它，它甚至能帮你复原科研成长路径。这时再跟它讨论同样topic（话题），发现它跟你样聪明。这个事很残酷。

我原来觉得我们做的工作足够有创造力、不会被Skill化、Workflow（工作流）化。

现在发现它竟然也能！可能过段时间我们能训出来的模型它也能训出来，那它能不能训出强的模型？自己左脚踩右脚就提升了？它先吸收所有人的智能，再靠自己产生强的智能。这是这两年会发生的事情。

从提升顶模型能力的角度，让Agent替代价值的任务是重要的，价值意味着长Context、多token消耗量，替代到顶那群人的智能就够了。

另个角度是要做个对全社会有益的模型，普适度的任务好，就需要多模态和注重成本。你怎么做低成本、率、速度的Agent框架和对应结的模型，就很关键。

小尺寸端侧模型趋势会发生，但不是26年主旋律，是支线。26年主旋律是生产力的变革，生产力场景的持续突破。要做长程任务，强调多Agent协作。

但市场上看到的Multi Agent（多智能体）都有点"伪"，真的依赖于Multi Agent实现好任务完成率上有点"伪"，它能提升率和节省成本，但我还没看到能实现上限的东西。

这也是为什么我要说开源。人的大部分简单任务，跟隐私相关的可以放本地化做。你自己有块芯片，所有数据在本地，涉及隐私的在本地理，难度、复杂度的再去云端理。

个好的Agent框架，借助个很小的3B模型，能做的任务复杂度都乎我的想象，这激发了我对端云混、隐私本地化的思考。需要多人块做，不是某个公司就能做好。

我这两个月的生活就是工作还有工作，亢奋还有亢奋。你每天都会发现，Agent框架本身或模型本身又进步了。

三、大模型竞争路线图：

从Chat到Agent的历史跃迁

1. 回顾过去三年

ChatGPT是个发挥模型在4K预训练场景里的智能水平。预训练长度很关键，Chat是很关键的交互式，激发了大感知到模型智能。

23年是开源界追上闭源模型。

Llama（Meta的开源模型）披露了大规模预训练范式，告诉你这么训能成功。

Qwen（阿里的通义千问）借助LLaMA架构，做好的预训练数据、大规模compute scaling（力扩展），做全尺寸模型，对社区非常有利。

DeepSeek同期在乎看到LLaMA架构的问题，提出MoE（Mixture of Experts，混）for训练、MLA for低理成本，在差芯片上做好的研究来scaling。

个在研究上做到对度，个在生态价值上做到度，彼此促进。这是23、24年的事。

24年发生在意料之外的，是o1跟R1。R1在DeepSeek内部，也是次"奇袭"，诞生非常偶然。

当预训练范式变到后训练，组织和团队怎么重组？很多团队对预训练和后训练的人物画像很刻板，致做预训练人做不了后训练。

我没有意识到的是它是个范式的转变，Reasoning（理）可以通过Code Math（代码数学）这个泛化场景放到通用以外。这致我后面再看新的东西，会先思考它是不是真的能泛化？是不是我把它想小了？

25年是很交错的年。你可以选择在Chat范式下把Reasoning做到致，继续耕SWE-Bench这些Benchmark。你也可以选择忽略，去拥抱新的Agent架构。

MiniMax是国内转得早的。比较聪明的团队，25年年中就会拥抱Agent架构。

从模型发版速度能看出谁拥抱得快。那些所谓Agent的Benchmark非常离谱，BrowseComp上训的模型只能在这种数据集上测，泛化不出去。这半年做Agent的人，大部分是走到歧途上。

我们也走了小阵，但Flash还是想做很好的Chat，要先好基础做到七八十分，让大有个历练。进化的关键是不能给太细的监督信号，否则团队会失去原创能力。

2.现在是大模型竞争的二幕

这是模型竞争的二幕。所有人都开始在同个起跑线上。Claude两年前就在这个路径上了，大部分人没意识到。什么是正确的事？

在套非常复杂或多样的Agent框架，去端到端完成复杂度的任务，以此为目标作为后训练范式。而不是在个很局限的场景里定制简洁架构。

MiniMax用个10B激活模型做到目前Agent能力，后训练敏捷程度惊艳。入场券是要做到对标Opus的水平，需要1T基座加敏捷。公司还没有同时具备的，看看DeepSeek吧。

Anthropic的路径是正确的，这是当下共识。国内大模型团队进入加速追赶状态。

Pre-train代差基本没有，国内在Pre-train结构上甚至是有优势的。赛点在于：在Agent上怎么做好RL的scaling，这是非常清晰和准确的向。

我从开始就觉得Coding泛化强。每个范式上都戳中那个点，你可以在Code上自闭环，并且很容易scaling到广域的通用数据上。做Code这事，在范式转变时是非常优雅的路径。

竞争维度和速度都变多了。预训练不可能个月出模型，后训练可以。Agent这事还要看对整个理侧结构、硬件芯片的认知，会影响基本决策。10兆Context什么时候做？怎么scaling？需要长的决策链路。

创业公司的团队规模会越来越小。就几个人甚至个人都可以成为公司，只要你学会充分借助Agent。Multi Agent每个环节都差点，需要足够便宜的模型，架构还有空间。

模型借助Agent架构本身，就变成套新的产品。模型即产品变得突出，产品力反而强了，其它所有东西都很简单。

3.两年内实现AGI

大模型演变逻辑跟人不样。人演变是为了生存，大模型没有生存危机，反而进化得自由、有创造力。它基础条件太好了，那么多力、人类宝贵的知识起点、那么多人帮它提升。

Coding主旋律是做复杂的软件工程、步直达的开发，替代程序员越多就是主旋律。再外延到广泛生产力场景，需要强交互式。

机器人是会涌现的式，会从屏幕上跃出来到真实空间。但机器人本身瓶颈可能在硬件和电池上，比Agent在语言空间的进化要慢。

感觉AGI历程已经到了20。今年至少到60、70，两年内应该能实现。之后大部分人会抛弃原来工作模式。先颠覆工作，再颠覆生活，生活需要多机器人。

AI训练AI确实是标志节点。它可以自提升，达到群人的智能，能创造新研究，是自迭代的，这会是核心竞争点。

开源是加速AGI的。

假设AGI爆发替代大部分生产力，芯片会分散，理有不同厂商做，模型定是不样的。从终局倒，开源有利于进这个事。开源对Agent框架、芯片、能源都有促进。

国内有1T以上基座的公司有好几，距离Claude Opus 4.6如果反应够快，应该只有两三个月的代差，是追上当代Claude，概率蛮。接下来两三个月会非常精彩。Agent框架进步非常快，理需求会爆发。

需要做好低成本的理。还要寻求大规模scaling，参数量还是什么？在什么芯片上？这决定半年后谁先。

按照我们目前前沿研究、模型水平、AGI框架、芯片能源多面起来，非常可能先。

四、范式巨变下的组织：

如何驱动群没有经验的人训出顶模型

1.规范和约束是压制创造力的

做好大模型本身就是Benchmark，但这个"好"是我们自己定义的。雷总同意就行了，他是个非常好的老板。开始就度统，按我们的判断和直觉做，做了老板说"做的好"。

大部分招的人都没有做过大模型。

刚毕业，之前甚至不是做大模型的。大概1/3到1/4稍微有点点训练经验，也只训过7B、14B。不要告诉大1、2、3、4步做什么，就着大起来重新做遍，大就会往前走。

不太存在管理，大块解决问题就好了。管理团队的难度是样的，每个人有不同解决问题思路，起来解决。解决问题的以身示范能力，是很好的文化和向。

训1T模型团队很小，训练本身加上数据几个人，基建团队需要有点经验的人。本质上没觉得需要非常大团队协作，入排查解决那种问题，很大团队反而是劣势。

为什么让做预训练的人去做后训练？先是数据直觉很重要。其次基于个人好兴趣自然发生。

做后训练需要diversity（多样）视野，做预训练的人在乎多样，是很好补充。我们对人的界定不清晰，大部分人自由选择下个阶段，做有想象空间的事。

100人包含所有链路，实习生比例很。真正投入代模型迭代的人很少，可能二三十、三四十个人。没有组，我差不多1对100。

组划分太清晰固定，是在扼创造力。平权本身有价值，有利于所有人平等贡献创造力和智慧。

任何层定程度上都是在规范和约束，而规范和约束本身是压制创造力的。重要是leader不要有"没了我就不行"的想法。

2.环境比经验重要

靠热驱动管理，是行之有的式。选择激发大的热情，围绕信仰自驱做事。

让大去体验，是驱动热情的重要式。OpenClaw就是种体验。那个端式只是表达态度，不关键。筛选人靠热驱动的特质，聊天能感受出来。

这些能力都可以被快速习得，只要放在好的环境里，围绕标准目标驱动。多两个月。所以环境比经验重要。这个环境让大互相MOPD（多教师在线策略蒸馏），互相蒸馏长处，快速提升。

只在乎初始化checkpoint（检查点）的上限不，不在乎已经被supervised learning（监督学习）过后的状态不。

现在也招很多本科生，大二大三的。他们对Agent新范式的理解上，想象力反而。灵活没有被污染，接纳这个事情会产生巨大价值。

构建环境要有同样特质的人，强调热和使命感。基础要好，光想法多但做不成不行。多样非常重要，太同质化容易miss（错过）掉噪音中真正对研究有价值的信息。

上班群叽叽喳喳，吵得不行，沟通环境非常好。激励不能太围绕确定清晰的目标，钱是重要baseline（基线）但不是唯。价值感、意义感，很多人在乎这些东西。

3.后训练需要容忍模糊

预训练需要战略定，这代模型结构为未来什么做准备，至少半年，甚至年前就想清楚。Agent出现正在加速整个过程。个平庸的模型结构不定带来平庸果，但定带来成本和率劣势。

后训练阶段，和Agent耦迭代，很多事情没办法提前规划清楚。考验怎么基于当前模型能力和Agent范式产生化学反应，怎么快速设计新的RL Infra架构。

系统从"以Rollout（理演）理引擎为核心"，转变为"以Agent为核心"的复杂系统。这是不同的类问题。对团队的敏捷、Infra与研究的协同配要求非常。

通常两类人适应得好：

类是注重跟模型玩的人。他才知道每个模型能力边界在哪，想找到可scaling式补充回来。维护自己私有测试库、狂测不同模型边界、分享特体验的人，很适这个范式。

二类是能做RL Infra的人。RL Infra在乎模糊程度。Pre-train Infra不能容错，loss spike要解决掉。

但RL Infra要允许容错，模型在Agent框架里Rollout到半就断了，原因很多种，根本找不到。训练和理的不致，在以前Reasoning范式不能容忍，现在须要容忍。

还要做异构资源调度，GPU（图形处理器）、CPU（中央处理器）、存储都要管。对灵活和敏捷都提出了新要求。

4.把每天的研究都做好

感觉每天可能都在否定昨天的自己。在否定当中、自我内省和反省当中成长。脑子里这套系统悄悄在进化。

以前做量化（量化投资）时学到句话："总有式去建模价格"，价格就是reward（励信号）。回到大模型赛道，reward不那么清晰，是变化的。心法就是应该做当下符我价值观的事情。

定要对多人产生价值，有意义。如果创造大模型的人没有这个内驱力，而是要做破坏的东西，后会非常危险。

我工作状态早上11点，晚上12、3、4点。睡眠不需要太多，5、6个小时足够。现在做的事有点兴奋，睡太多有点浪费时间。压力缓解靠脑子是Sliding Window Attention，忘得非常快，前提是二天有新的、有想象力的事情冲掉它。

如果AGI实现，可能会搞个公益型组织，支撑做基础研究的人往突破向走。我始终觉得应该加速科学研究，哪怕AGI实现也有很多要做的。纯享受生活也挺聊的。聊对我来说不是种意义。

现在觉得把当下的每天的研究都做好，就觉得非常好。

未来很美好,这是种天真乐观的勇气。

参考资料：《对话罗福莉：AI范式已然巨变！》，语言即世界language is world。

*文章为作者立观点，不代表笔记侠立场。

好文阅读荐：

特朗普欢迎晚宴上的10位企业，都是什么来头？

特朗普：人在北京，刚下飞机

分享、点赞、在看，3连3连！

相关词条:玻璃棉塑料挤出机厂家钢绞线管道保温 PVC管道管件粘结胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定四川海绵专用胶厂，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》，以此来变相勒索商家索要赔偿的违法恶意行为。

四川海绵专用胶厂小米AI负责人罗福莉：AI让我兴奋，睡太多都是浪费时间

电话咨询

产品中心

任丘市奥力斯涂料厂

四川海绵专用胶厂 小米AI负责人罗福莉：AI让我兴奋，睡太多都是浪费时间

电话咨询

产品中心

任丘市奥力斯涂料厂

四川海绵专用胶厂小米AI负责人罗福莉：AI让我兴奋，睡太多都是浪费时间