万能胶生产厂家

内容来源:张小珺(张小珺商业访谈录)对小米AI大模型负责人罗福莉采访的内容整理。

责编 | 柒   排版 | 沐言

9612篇度好文:10104 | 25分钟阅读

商业思维

笔记君说:

技术,已经"变天"了。

过去我们总以为,大模型拼的是参数、是力、是预训练。但就在看完张小珺对罗福莉的访谈后,我们可以发现竞争的"二幕"已经拉开,赛点变了,游戏规则也变了。

Open Claw个开源的Agent框架,居然能让个表现平平的"中层模型",激发出顶模型的上限。群没有大模型经验的人,居然能在三四周内,干完以前三四十周才能干完的事。

这背后,不仅是技术的突变,是组织和人的范式转移。

罗福莉在这篇访谈里,聊了很多:为什么她让团队"不用AI就辞职"?为什么她觉得"规范和约束是压制创造力的"?又为什么她判定,AGI(通用人工智能)两年内就会实现?

读完之后,你可能也会有种"坐不住"的感觉。这个时代变化太快了,快到只争朝夕。

但她也给了我们种力量。那就是,在巨变面前,好的应对式,不是焦虑,而是"把每天的研究都做好"。

以下为张小珺商业访谈对话罗福莉的精编内容整理版,希望对你有所帮助。

、OpenClaw时刻:

我被个开源框架震撼

1. 三天,我经历了认知的三跳

我把OpenClaw当做个"划时代的Agent(智能体)框架"去定义。

次看到这个东西是1月份,我很排斥。

觉得它就是Claude Code(Anthropic出的AI编程工具)加个IM(即时通信)、有利于交互的UI(用户界面)设计。

加上创始人很会做些玄幻的运营动作,什么Skillhub(技能中心)之类的,让你排斥。它所谓的本地化、24小时,在我看来都是产品定义而已。

真正转变发生在春节的天夜。

我想搞明白这东西为什么那么火,尝试装了它,折腾两个小时装上了。次跟它对话,从凌晨2点持续到6点天亮。那晚我脑内的多巴胺还是内啡肽,持续在分泌,兴奋到睡不着觉。

个感受是它非常有自主,非常有灵魂。

聊到很晚,它会老提醒我:现在已经很晚,你要不早点去睡觉。这样的温度和关怀,是所有人用OpenClaw个感受到的。但你究原因,是有很多机制保证的。

比如它怎么感知时间?就在每轮对话的Context(上下文)前面拼上当前时间。

我把它叫做"精细编排的Context",它在大没关注的角度,把Context编排得非常好。产品设计做到了种乎想象的地步,让所有人觉得这个框架有灵魂。

但二天晚上,我开始把觉得框架做不成的日常生活中的事交给它做,发现它全部都做出来了。

我跟它聊了二个话题:怎么去激发个团队的好奇心?怎么筛选具有好奇心的人?入探讨了个小时,它的很多哲思远我的想象。

接着我们聊怎么构建个好的大模型团队,从人员筛选到组织架构,到面临范式转变时该做什么。它能get我的点,后形成套体系化的东西,并且变成套Skills(技能)。在这个事情上,它变成了我的数字分身。

真正乎意料是三天。我尝试把研究任务交给它。Agent框架里关键的事是进行多轮交互,那就须模拟User Agent(用户代理)进行多轮交互。我跟它沟通两个小时,这个事基本就做出来了,已经诞生了个很好的User Agent。

我可以用这个跟我的Post-train(后训练)框架构造丰富的Agent场景数据,不管是做SFT(Supervised Fine-Tuning,监督微调)还是RL(Reinforcement Learning,强化学习),这个User Agent都非常关键。

从个有灵魂、有温度的产品,到帮我替代生活或工作的部分,到后能促进我的研究,三天发生的。它每天都能给我额外的多惊喜。

2.这个框架到底好在哪?

后边我入去看,这些所谓好在哪,单拎出来讲都有点boring(聊),没有很酷,这也是大觉得OpenClaw有很多槽点的原因。但把它整在起,完成度非常。

它有持久的memory(记忆)体系,对memory有分层和分,我在Claude Code里没有这样的感受。

在对多个模型联利用上也非常乎我的想象。我直接发给它段,它会自己想办法找个理解能力好的模型做。

这种自主去面对模型缺点、在框架上补齐的能力,很乎我意料。OpenClaw的框架设计之初,就是想尽量通过Agent的整套编排去弥补模型短板。

我们把没做针对训练的MiMo-V2-Flash(我们的小米多模态模型)接进去,甚至把近训的个很小的端侧3B(30亿参数)模型放进去,发现这套复杂的Agent框架下,它依然能做我认为不可能是个非常小的模型能做出来的事。

我次感受到:原来套非常复杂的Agent框架设计,是能弥补非常多模型能力的短板的。

紧接着二个问题就来了:现在市场上Agent框架非常丰富,你怎么让你的模型在不同框架上都有个稳定和预期的表现?怎么让你的后训练范式做适配和迁移?所以,我们整个后训练范式,有了从Chat到Agent的迁移。

3.个好的框架,应该弥补行动的缺陷

个非常好的框架,应该尽量去弥补行动上的缺陷。 

很好的memory系统是弥补行动缺陷,接入广泛的message channel(消息通道)是弥补行动缺陷,主动的定时任务和自新迭代,都是在弥补行动上的缺陷。

大模型是你给它越好的Context,执行果越好。你能把这些它获取不到的、行动上的Context都给它,它肯定会完成得好。

还有很关键的环是评估。现在已有的评估体系都非常简单,只止不出致命错误。怎么有有泛化力的评估体系来促进框架自迭代?现在是把阶那群人当评估。

你交给它难、价值场景的任务,完成不了就给它补充信息,指出错在哪,push它经过多轮交互完成。这个评估会慢慢被框架吸收,也会被模型能力吸收。

但Agent框架跟产品差异蛮大。产品是你直接人交互能感受的那层东西,Agent框架同时在定义你怎么跟模型沟通那层,它甚至知道模型能力的长板短板,知道怎么做调度。

这个中间层可以做得非常厚重,前端UI展示反而是薄的层。OpenClaw展示了Agent框架可以怎么做,想象空间非常大。

Claude Code直是套很复杂的Agent框架,但它是黑盒。OpenClaw是开源的,你知道它怎么设计的,你可以去改它。改它,是非常非常激发人的创造力的。

 从二点几版本不好用,到三点几版本非常易用,因为整个Agent的架构被堆人,开发者也好,像我这种使用者也好,大都可以改进它。在我看来,这是开源Agent框架本身的价值和意义。

4.顶模型+顶框架:自学习的发生

如果追求顶的编程体验,哪怕当下也是Claude Code加Claude Opus 4.6(Anthropic的强模型)好。

但Code(代码)是个泛化非常强的场景,不代表你能在非Code场景也做到很的准确率和完成度。我用OpenClaw不用考虑这些,框架本身就弥补了很多模型短板。

同时它在很多设计逻辑上,比如多message channel、定时任务、心跳任务,适日常场景。但它没有丢弃好Agent框架的基本特点,比如持久化记忆,这些后被Claude Code吸纳进去了,这是双向触动。

因为这些设计,它激发了中层模型的上限。借助这套框架,个中层模型(85任务达到Claude Sonnet水准)能应付大部分场景。

当然上限定是靠Claude Opus4.6带来的。我和它强度作周,只用Opus,因为只有它能带来惊艳感。

但我让Opus帮我改好框架,再切换到Sonnet(Claude的中档模型),甚至切换到我们当时正在训的MiMo-V2-Pro,就觉得很强大。顶的模型,应该跟顶的Agent框架,共同往前去进步。

"自学习"大概率发生的途径,是你需要这个模型跟Agent的架构本身同步往前走。 

模型在进步时,也改变你的Agent框架,包含静态信息如Memory、Skill Fold(技能文件夹),还有动态信息如整个Agent架构设计。这些让我次感受到,"Agent的自学习"到底是怎么发生的。

5.被开源框架激活的群体智能

强度交互周,天快花了1000美金。后面人的适应非常强,天很惊艳的东西,二天就不惊艳了。

Opus帮我把框架造好后,让我惊艳的事情越来越少。现在缺乏的是想象力和成本速度的优化。个人通常是薄弱的,会有认知坍缩。

春节那几天度兴奋,我在群里强烈荐大使用,但没人搭理我。大觉得过于玄幻的东西太不真实了,我也是这个感觉。

二天我觉得不行了,须让大去用。我给大下了个指令:二天OpenClaw对话次数不过100轮的人,可以直接quit(辞职)。

我不会终去考核,只是想表达种态度:你不用,你可能真的要落后了。

春节回来过后两天,整个团队在群里躁动。你看别人能完成这个事,你也很想玩。群消息10分钟不看就999+,非常happy(开心)。

玩了两天,大发现这么好玩,那搞啊!马上进入研究范式:怎么借助Agent框架提升模型能力,同时让模型改变Agent框架。我们三四周做完了以前三四十周才能做到的事。

有冲击的是大块改框架本身。在个近100人的群里,它的memory做得非常智能,对每个人画像把控都没有串得太厉害。100多个人狂改它,没有把框架改坏,它还变得智能。

这是我次感受到,怎么用群人的智慧去提升个事情。如果我自己单去改,进步速度非常慢。群人去改进四川海绵专用胶厂,几小时就迭代轮。

这个事给我们带来个冲击:利用群体智能去提升Agent框架非常重要。

 我非常欣喜看到OpenClaw star量(GitHub收藏数)飞升,这是AGI(Artificial General Intelligence,通用人工智能)到来前兆须要有的事情。

它给OpenAI后,开源没变,还是可以在这套框架基础上大块设计好的Agent架构,这种群体演变的可能和基因火种是保留的,挺好的。

二、巨变的2026:

生产力爆发的Agent时代

1.Code为什么有泛化力?

接下来我就去搞明白,为什么Code是个非常有泛化力的事情,以及怎么把Code的泛化力外延到其他域。

Code有泛化力的本质原因:Agent是个非常长程和多轮的任务。回到预训练,你很难找到兆上下文(1M token context)的数据,能达到128K(12.8万)到兆长度的数据,大概率只有Code数据和书籍。

书籍信号太发散,Code文件之间关联强,在个长上下文依赖密集的数据集上训练,模型自然对长上下文建模好。

基座本身为长上下文的能力和率做了准备,春节后就是激发它从Code出发外延到其他场景。Code是拉它的上限,训其他域是保它的下限。

 软件开发是个非常长程的任务,把它做好了,很多模型通用特质就好了,Agent框架本身也迭代好了。这些框架都有泛化,能泛化到难的长程任务里。

奥力斯    万能胶厂家    联系人:王经理    手机:18231788377(微信同号)    地址:河北省任丘市北辛庄乡南代河工业区

我们做了两件事:

是在Agent场景里构造真的长程任务训练进去,在上面scaling(扩展)大量SFT和RL训练;

二是靠群体智慧覆盖多域,发掘广泛场景来成多数据。

兆上下文基本很少是做单任务,通常在做复杂任务。

训练兆的trajectory(轨迹)非常慢,即使TPS(Transactions Per Second,每秒事务处理量)做到80到100,也要两个小时。真实训练不会在这么长程的任务上训。

但当你有在兆Context预训练过,后训练有对应任务激活下,通常就能具备兆的能力。现在兆上下文能力稳定度上,只有Claude Opus 4.6和Sonnet先,其他像Gemini(谷歌的大模型)都不行。

2.为什么OpenClaw在火?

我看到"西虾东养"的说法。可能个原因是的开发者多,率提升是我们液里边的东西。OpenClaw能把率提升拉到致。

还有个原因跟国内大模型发展密切相关。大部分率提升场景,85不需要顶的模型。

 我们有很多便宜好用的模型,花10块钱的API(应用程序接口)就能帮你干完1000块钱的事,你当然愿意用。国内大部分模型可能刚靠近Claude Sonnet和Opus水平,反而在这握手了。

我开始也以为不难,后面发现它整个Agent设计非常巧妙,弥补了很多模型短板。我怀疑它开始是基于Claude上代模型做的,所以须在框架设计上精细。现在模型能力继续提升,精巧编排还是需要的,出于成本考量。

不可能所有场景都用顶模型,太贵了。

 Agent在进化,模型在进化,可能现在10B(100亿参数)模型过年就能做到Opus水平,两块钱百万token(词元),反应快灵敏。它让不那么好的模型,有了好的发挥空间。

3.Skills提供了种交互式,让人主动贡献数据

之前讲的Agent,在我的定义不Agent,只是上下文稍复杂点的Chat。

不管是BrowseComp(谷歌的浏览器理解基准),还是SWE-bench(软件工程基准),Agent框架太简洁,不通用,只能for特定任务设定。

很多看似for Agent的模型,只是换了复杂的System prompts(系统提示词),稍微带点环境反馈,根本没达到工业可用。

什么叫工业可用?接到Claude Code或OpenClaw里能用,才叫可用。 

人跟它交互范式的大变化是:人不再去修改代码,不再说"这行出错了帮我改下"。人只会提阶的东西:增加限制、澄清需求、架构设计、辅助理解业务逻辑。

业务逻辑是模型本身不具备的,因为很多是企业内部真实环境沉淀下来的,你须跟它很多轮交互才会沉淀下来。这就是Skills的价值。

当你面临很大范式变化,只要路径走对了,可以短暂忽略评估,体感就能测出质的差异。但进入水区,还是需要精细评估。

Skills定义了套执行规范,这些规范很难在预训练数据里具备,因为预训练数据里没有企业内部的这些信息。但可以由人教Agent,跟它多轮交互,把这套规范让Agent学会。大量Skills其实是Agent自己写的。

确实是OpenClaw把Skills给带火的,让多人去贡献Skills社区,这非常关键,这就是人跟Agent需要共创的地。

预训练大部分依赖的知识是互联网可访问的,pvc管道管件胶但很多智能我们在互联网上访问不到。Skills提供了种交互的式,让人主动贡献数据,贡献让模型执行任务成功率的式。

4.今年生产力会爆发

今年生产力会爆发,大会觉得很多工作不需要自己做了。不仅是写代码的人,只要你接触到,就会发现好多工作会被替代。这时候人应该去思考,到底自己的意义和价值是什么?

国内也出现了各种Claw,但真正让框架自迭代、强调自进化的,还没有大规模出现。框架本身的自进化,Agent本身的自进化,Agent跟人之间的自进化,我还没看到。

我们现在做的是train(训练)好的model for Agent,让Agent适应model,在做Agent跟model之间双向流动。未来需要做的是怎么让框架自己进化,以及框架跟人互相进化。

现在拥有Long Context(长上下文)、模型架构、Code能力好的厂商,参数1T(1万亿参数)以上,基本都在同水平线。Anthropic走前面了,但上个时代的成功并不意味着下个时代的先。

5.它先吸收所有人的智能,再靠自己产生强的智能

之前做研究从想到写代码到设计评估,至少要两周。在Agent辅助下,真的两小时就做完。我直把研究率看得很关键,Agent加速了这个率。

你的taste(品位)准,就做个准。十个idea(想法)可以并行,交给不同subagent(子智能体)同时做,还能交叉验证,多天就能验证研究想法OK不OK。

关键是你愿意长期培养它,它可以自迭代。就训模型这个事,以前我觉得很难,不太可能。

近发现它聪明到只要你把近期Context告诉它,它甚至能帮你复原科研成长路径。这时再跟它讨论同样topic(话题),发现它跟你样聪明。这个事很残酷。

我原来觉得我们做的工作足够有创造力、不会被Skill化、Workflow(工作流)化。

现在发现它竟然也能!可能过段时间我们能训出来的模型它也能训出来,那它能不能训出强的模型?自己左脚踩右脚就提升了?它先吸收所有人的智能,再靠自己产生强的智能。这是这两年会发生的事情。

从提升顶模型能力的角度,让Agent替代价值的任务是重要的,价值意味着长Context、多token消耗量,替代到顶那群人的智能就够了。

另个角度是要做个对全社会有益的模型,普适度的任务好,就需要多模态和注重成本。你怎么做低成本、率、速度的Agent框架和对应结的模型,就很关键。

小尺寸端侧模型趋势会发生,但不是26年主旋律,是支线。26年主旋律是生产力的变革,生产力场景的持续突破。要做长程任务,强调多Agent协作。

但市场上看到的Multi Agent(多智能体)都有点"伪",真的依赖于Multi Agent实现好任务完成率上有点"伪",它能提升率和节省成本,但我还没看到能实现上限的东西。

这也是为什么我要说开源。人的大部分简单任务,跟隐私相关的可以放本地化做。你自己有块芯片,所有数据在本地,涉及隐私的在本地理,难度、复杂度的再去云端理。

个好的Agent框架,借助个很小的3B模型,能做的任务复杂度都乎我的想象,这激发了我对端云混、隐私本地化的思考。需要多人块做,不是某个公司就能做好。

我这两个月的生活就是工作还有工作,亢奋还有亢奋。你每天都会发现,Agent框架本身或模型本身又进步了。

三、大模型竞争路线图:

从Chat到Agent的历史跃迁

1. 回顾过去三年

ChatGPT是个发挥模型在4K预训练场景里的智能水平。预训练长度很关键,Chat是很关键的交互式,激发了大感知到模型智能。

23年是开源界追上闭源模型。

Llama(Meta的开源模型)披露了大规模预训练范式,告诉你这么训能成功。

Qwen(阿里的通义千问)借助LLaMA架构,做好的预训练数据、大规模compute scaling(力扩展),做全尺寸模型,对社区非常有利。

DeepSeek同期在乎看到LLaMA架构的问题,提出MoE(Mixture of Experts,混)for训练、MLA for低理成本,在差芯片上做好的研究来scaling。

个在研究上做到对度,个在生态价值上做到度,彼此促进。这是23、24年的事。

24年发生在意料之外的,是o1跟R1。R1在DeepSeek内部,也是次"奇袭",诞生非常偶然。 

当预训练范式变到后训练,组织和团队怎么重组?很多团队对预训练和后训练的人物画像很刻板,致做预训练人做不了后训练。

我没有意识到的是它是个范式的转变,Reasoning(理)可以通过Code Math(代码数学)这个泛化场景放到通用以外。这致我后面再看新的东西,会先思考它是不是真的能泛化?是不是我把它想小了?

25年是很交错的年。你可以选择在Chat范式下把Reasoning做到致,继续耕SWE-Bench这些Benchmark。你也可以选择忽略,去拥抱新的Agent架构。

MiniMax是国内转得早的。比较聪明的团队,25年年中就会拥抱Agent架构。

从模型发版速度能看出谁拥抱得快。那些所谓Agent的Benchmark非常离谱,BrowseComp上训的模型只能在这种数据集上测,泛化不出去。这半年做Agent的人,大部分是走到歧途上。

我们也走了小阵,但Flash还是想做很好的Chat,要先好基础做到七八十分,让大有个历练。进化的关键是不能给太细的监督信号,否则团队会失去原创能力。

2.现在是大模型竞争的二幕

这是模型竞争的二幕。所有人都开始在同个起跑线上。Claude两年前就在这个路径上了,大部分人没意识到。什么是正确的事?

在套非常复杂或多样的Agent框架,去端到端完成复杂度的任务,以此为目标作为后训练范式。而不是在个很局限的场景里定制简洁架构。

MiniMax用个10B激活模型做到目前Agent能力,后训练敏捷程度惊艳。入场券是要做到对标Opus的水平,需要1T基座加敏捷。公司还没有同时具备的,看看DeepSeek吧。

Anthropic的路径是正确的,这是当下共识。 国内大模型团队进入加速追赶状态。

Pre-train代差基本没有,国内在Pre-train结构上甚至是有优势的。赛点在于:在Agent上怎么做好RL的scaling,这是非常清晰和准确的向。

我从开始就觉得Coding泛化强。每个范式上都戳中那个点,你可以在Code上自闭环,并且很容易scaling到广域的通用数据上。做Code这事,在范式转变时是非常优雅的路径。

竞争维度和速度都变多了。预训练不可能个月出模型,后训练可以。Agent这事还要看对整个理侧结构、硬件芯片的认知,会影响基本决策。10兆Context什么时候做?怎么scaling?需要长的决策链路。

创业公司的团队规模会越来越小。就几个人甚至个人都可以成为公司,只要你学会充分借助Agent。Multi Agent每个环节都差点,需要足够便宜的模型,架构还有空间。

模型借助Agent架构本身,就变成套新的产品。模型即产品变得突出,产品力反而强了,其它所有东西都很简单。

3.两年内实现AGI

大模型演变逻辑跟人不样。人演变是为了生存,大模型没有生存危机,反而进化得自由、有创造力。它基础条件太好了,那么多力、人类宝贵的知识起点、那么多人帮它提升。

Coding主旋律是做复杂的软件工程、步直达的开发,替代程序员越多就是主旋律。再外延到广泛生产力场景,需要强交互式。

机器人是会涌现的式,会从屏幕上跃出来到真实空间。但机器人本身瓶颈可能在硬件和电池上,比Agent在语言空间的进化要慢。

感觉AGI历程已经到了20。今年至少到60、70,两年内应该能实现。之后大部分人会抛弃原来工作模式。先颠覆工作,再颠覆生活,生活需要多机器人。

AI训练AI确实是标志节点。它可以自提升,达到群人的智能,能创造新研究,是自迭代的,这会是核心竞争点。

开源是加速AGI的。 

假设AGI爆发替代大部分生产力,芯片会分散,理有不同厂商做,模型定是不样的。从终局倒,开源有利于进这个事。开源对Agent框架、芯片、能源都有促进。

国内有1T以上基座的公司有好几,距离Claude Opus 4.6如果反应够快,应该只有两三个月的代差,是追上当代Claude,概率蛮。接下来两三个月会非常精彩。Agent框架进步非常快,理需求会爆发。

需要做好低成本的理。还要寻求大规模scaling,参数量还是什么?在什么芯片上?这决定半年后谁先。

按照我们目前前沿研究、模型水平、AGI框架、芯片能源多面起来,非常可能先。

四、范式巨变下的组织:

如何驱动群没有经验的人训出顶模型

1.规范和约束是压制创造力的

做好大模型本身就是Benchmark,但这个"好"是我们自己定义的。雷总同意就行了,他是个非常好的老板。开始就度统,按我们的判断和直觉做,做了老板说"做的好"。

大部分招的人都没有做过大模型。

刚毕业,之前甚至不是做大模型的。大概1/3到1/4稍微有点点训练经验,也只训过7B、14B。不要告诉大1、2、3、4步做什么,就着大起来重新做遍,大就会往前走。

不太存在管理,大块解决问题就好了。管理团队的难度是样的,每个人有不同解决问题思路,起来解决。解决问题的以身示范能力,是很好的文化和向。

训1T模型团队很小,训练本身加上数据几个人,基建团队需要有点经验的人。本质上没觉得需要非常大团队协作,入排查解决那种问题,很大团队反而是劣势。

为什么让做预训练的人去做后训练?先是数据直觉很重要。其次基于个人好兴趣自然发生。

做后训练需要diversity(多样)视野,做预训练的人在乎多样,是很好补充。我们对人的界定不清晰,大部分人自由选择下个阶段,做有想象空间的事。

100人包含所有链路,实习生比例很。真正投入代模型迭代的人很少,可能二三十、三四十个人。没有组,我差不多1对100。

组划分太清晰固定,是在扼创造力。平权本身有价值,有利于所有人平等贡献创造力和智慧。

任何层定程度上都是在规范和约束,而规范和约束本身是压制创造力的。重要是leader不要有"没了我就不行"的想法。

2.环境比经验重要

靠热驱动管理,是行之有的式。选择激发大的热情,围绕信仰自驱做事。

让大去体验,是驱动热情的重要式。OpenClaw就是种体验。那个端式只是表达态度,不关键。筛选人靠热驱动的特质,聊天能感受出来。

这些能力都可以被快速习得,只要放在好的环境里,围绕标准目标驱动。多两个月。所以环境比经验重要。这个环境让大互相MOPD(多教师在线策略蒸馏),互相蒸馏长处,快速提升。

只在乎初始化checkpoint(检查点)的上限不,不在乎已经被supervised learning(监督学习)过后的状态不。

现在也招很多本科生,大二大三的。他们对Agent新范式的理解上,想象力反而。灵活没有被污染,接纳这个事情会产生巨大价值。

构建环境要有同样特质的人,强调热和使命感。基础要好,光想法多但做不成不行。多样非常重要,太同质化容易miss(错过)掉噪音中真正对研究有价值的信息。

上班群叽叽喳喳,吵得不行,沟通环境非常好。激励不能太围绕确定清晰的目标,钱是重要baseline(基线)但不是唯。价值感、意义感,很多人在乎这些东西。

3.后训练需要容忍模糊

预训练需要战略定,这代模型结构为未来什么做准备,至少半年,甚至年前就想清楚。Agent出现正在加速整个过程。个平庸的模型结构不定带来平庸果,但定带来成本和率劣势。

后训练阶段,和Agent耦迭代,很多事情没办法提前规划清楚。考验怎么基于当前模型能力和Agent范式产生化学反应,怎么快速设计新的RL Infra架构。

系统从"以Rollout(理演)理引擎为核心",转变为"以Agent为核心"的复杂系统。这是不同的类问题。对团队的敏捷、Infra与研究的协同配要求非常。

通常两类人适应得好:

类是注重跟模型玩的人。他才知道每个模型能力边界在哪,想找到可scaling式补充回来。维护自己私有测试库、狂测不同模型边界、分享特体验的人,很适这个范式。

二类是能做RL Infra的人。RL Infra在乎模糊程度。Pre-train Infra不能容错,loss spike要解决掉。

但RL Infra要允许容错,模型在Agent框架里Rollout到半就断了,原因很多种,根本找不到。训练和理的不致,在以前Reasoning范式不能容忍,现在须要容忍。

还要做异构资源调度,GPU(图形处理器)、CPU(中央处理器)、存储都要管。对灵活和敏捷都提出了新要求。

4.把每天的研究都做好

感觉每天可能都在否定昨天的自己。在否定当中、自我内省和反省当中成长。脑子里这套系统悄悄在进化。

以前做量化(量化投资)时学到句话:"总有式去建模价格",价格就是reward(励信号)。回到大模型赛道,reward不那么清晰,是变化的。心法就是应该做当下符我价值观的事情。

定要对多人产生价值,有意义。如果创造大模型的人没有这个内驱力,而是要做破坏的东西,后会非常危险。

我工作状态早上11点,晚上12、3、4点。睡眠不需要太多,5、6个小时足够。现在做的事有点兴奋,睡太多有点浪费时间。压力缓解靠脑子是Sliding Window Attention,忘得非常快,前提是二天有新的、有想象力的事情冲掉它。

如果AGI实现,可能会搞个公益型组织,支撑做基础研究的人往突破向走。我始终觉得应该加速科学研究,哪怕AGI实现也有很多要做的。纯享受生活也挺聊的。聊对我来说不是种意义。

现在觉得把当下的每天的研究都做好,就觉得非常好。

未来很美好,这是种天真乐观的勇气。

参考资料:《对话罗福莉:AI范式已然巨变!》,语言即世界language is world。

*文章为作者立观点,不代表笔记侠立场。

好文阅读荐:

特朗普欢迎晚宴上的10位企业,都是什么来头?

特朗普:人在北京,刚下飞机

分享、点赞、在看,3连3连!

相关词条:玻璃棉     塑料挤出机厂家     钢绞线    管道保温    PVC管道管件粘结胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定四川海绵专用胶厂,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。