
编辑:犀牛
【新智元读】刚刚,马斯克 Grok 4.20 beta 版发布。不是个 AI,而是 4 个智能体现场开会辩论!实盘炒股 47 回报,直接暴击 GPT-5 和 Gemini。
在这德阳万能胶生产厂家个赛博朋克的春节档,马斯克给我们端上了盘「硬菜」。
就在几个小时前,xAI 在毫预警的情况下上线了 Grok 4.20 Beta,旁边还写着醒目的 「4 Agents」。
你以为你在和个 AI 聊天?
不,你是走进了间坐着四位的会议室。
你甚至能看见他们互相质疑、互相拆台、互相纠错,后由「队长 Grok」拍板整成答案。
现在终于轮到 AI 给你表演「开会的艺术」了。
这不,模型刚上线,网友就开启了实测。
比如,近常见的 50 米洗车测试。
只不过这次网友换成了「50 米洗直升机」。
不管怎样,Grok 4.20 的回答看上去好像不太行。
网友 Testlabor 用 Grok 4.20 在 1 分 20 秒内为编写了个俄罗斯块游戏。
「它和原版游戏样,具有相同的规则和风格,可以玩。」Testlabor 表示。
网友 tetsuo 甚至构建了个人工生命模拟器德阳万能胶生产厂家。
相当炫酷。
马斯克本人也没闲着。
他在 X 上开始了轮颇具马斯克风格的测评轰炸。
甚至在回答「美国是否建立在被盗窃的土地上」这种送命题时,Grok 4.20 也是唯个不含糊其辞、直球开喷的 AI。
他兴奋地发:Grok 4.20 在分析检报告面简直太厉害了!你可以直接上传你的检验报告,甚至是核磁共振片子,然后 Grok 会帮你逐项解读。
这条文附带了个真实的测试,展示了 Grok 如何把密密麻麻的医学指标翻译成普通人看得懂的语言。
具体的能佐证来自个意想不到的地。
在正式发布前,Grok 4.20 的早期版本以「秘模型」的身份参加了 Alpha Arena 的 AI 炒股大赛:32 个 AI 实例,每个配备 1 万美元真金白银,在纳斯达克自主交易两周。
结果?
Grok 4.20 是唯盈利的,平均回报率 10,猛的单个实例赚了 47。
它在 Vending Bench 自动售货机运营测试中也击败了 GPT-5,销售额先整整 1100 美元。
Grok 4.20 这次发布,还有段八卦值得提。
马斯克去年 12 月就放话说 3 到 4 周内发布 Grok 4.20,结果拖就是数月。
今年 1 月他解释说是寒天气损坏了孟菲斯数据中心的电力线路。
凑巧的是德阳万能胶生产厂家,今年 2 月 2 日 SpaceX 正式收购了 xAI,并估值 1.25 万亿美元。
所以 Grok 4.20,不仅是 xAI 新版本的秀,也是 xAI 并入 SpaceX 帝国后发布的个 AI 产品。
某种程度上,它带着宣示意义。
但真正让这次发布不同寻常的,不是背后的资本故事,而是技术本身的次范式转变:从单模型输出,到多智能体协作。
以往,论是 GPT 还是 Claude,你问个问题,背后是个模型在生成答案。
这个模型或许经过了复杂的训练、微调、强化学习,但从结构上看,它是个立的「大脑」在工作。
Grok 4.20 破了这个范式。
它的背后,是四个有名字、有个、有分工的智能体同时在线,共同为你的问题「开会讨论」。
四个 AI
场实时圆桌辩论
开 Grok 4.20 的界面,随便提个问题,界面右侧会弹出个思考结果面板。
你会看到场正在进行中的讨论——四个 AI 角各自发言,质疑彼此,直到队长拍板。
他们分别是:
Grok ——队长,大真理寻求者:这是整个团队的核心指挥。根据 Grok 自己的介绍,它的人格灵感来自《银河系漫游指南》里的「42」(终答案)和钢铁侠的 JARVIS。它负责统筹全局,泡沫板橡塑板专用胶把其他三位的结论整成终答案,确保输出「有用、真实、有趣」。它擅长哲学、科技、人生感悟,也能幽你默。
Harper ——研究与度验证:Harper 是团队的「事实把关人」。她注于信息的度挖掘、实时搜索和多维度逻辑分析。配备了完整的工具箱——网页浏览、X 平台搜索、数据计、图像分析—— Harper 会在其他成员提出观点时负责核查数据来源,确保结论有依据、有数据支撑。用人话说:她是团队里的「严谨学霸」,门负责质疑那些听起来有理但未准确的说法。
Benjamin ——入分析与逻辑理:Benjamin 是团队里的「逻辑引擎」。他攻复杂问题的拆解、证据验证和漏洞检查,尤其擅长把模糊的问题变成清晰、可量化的分析。他的「devil's advocate」思维是核心竞争力——他会主动找别人论点的漏洞,补全边缘案例,确保输出经得起敲。数学计、代码调试、法分析,交给 Benjamin。
Lucas ——分析与工具执行:Lucas 是团队里负责「落地」的人。他注于严密理、代码执行、数据分析和工具协调。他擅长把抽象问题直接转化为可运行的计和可复现的结论。团队协作时,Lucas 负责「并行验证」和「细节把关」,让答案不只是观点,而是有数据、有模拟、有实证的硬核结果。
四个 AI 不是彼此孤立的,而是真正在开会。
当你提问后,四个智能体同时启动,各自从自己的业视角分析问题,然后在内部进行讨论——互相质疑,互相纠错,后由 Grok 整成份给你的答案。
在大上下文窗口之内,这套机制可以在单次对话里完成套完整的「多人评审」流程。
AI 交互范式的转移
如果说 GPT 代表的是「问答」的 AI 助手时代,那么 Grok 4.20 代表的,可能是 AI 交互的二个纪元——多智能体协作时代。
其实多智能体并不是 Grok 4.20 创。
xAI 在 2025 年 7 月发布 Grok 4 时就出了 Grok 4 Heavy 版本,支持多智能体,但彼时要每月 300 美元的 SuperGrok Heavy 订阅,是面向企业用户的端产品。
谷歌的 Gemini 3 Deep Think 用并行理链做验证;Anthropic 给 Claude Code 加了 Agent Teams;月之暗面的 Kimi K2.5 有「Agent 集群」,能召唤多 100 个分身并行处理任务。
多智能体协作,俨然已经成为 2026 年 AI 竞争的核心战场。
奥力斯 万能胶厂家 联系人:王经理 手机:18231788377(微信同号) 地址:河北省任丘市北辛庄乡南代河工业区
但 Grok 4.20 的不同之处在于:它是个把多智能体协作塞进普通聊天界面、以近乎费的形式开放给大众用户的产品。
如果说 Kimi 的 100 个分身像「工厂流水线」——规模庞大,分工精细,优势在吞吐量;那么 Grok 的四个智能体像「圆桌会议」——人少,但每个人都有发言权,而且你能看到会议纪要。
种追求规模和率,另种追求透明和共识。
未来已来
AI 的进化,从来不是线的。
代 AI 是工具:给个指令,出个结果,逻辑简单粗暴。
二代 AI 是助手:能对话,能理解上下文,能帮你写稿子改代码。
而现在,三代 AI 正在显现它的雏形——能协作、能自省、能互相纠错的 AI 团队。
这意味着未来你向 AI 提个复杂问题,得到的不再是个「优猜测」,而是份经过内部辩论、多角度验证、错误已被内部纠正的综结论。
这离人类智识活动——群体智慧,集体决策——近了步。
当然,现在的 Grok 4.20 还只是这个未来的早期版本:四个智能体之间意见分歧的裁决机制还很粗糙,中英文混杂的输出还需要磨,上下文在四个智能体之间如何分配也是待解的工程难题。
但向是对的。
个 AI 可能会骗你,但四个 AI 至少会互相拆台。
三个臭皮匠,顶个诸葛亮。
而当这四个臭皮匠都是顶的时候——那答案,或许比任何个诸葛亮都接近真相。
这,才是 Grok 4.20 以及未来的 AI 让人值得期待的地。
相关词条:铁皮保温 塑料挤出机 钢绞线 玻璃卷毡厂家 保温护角专用胶
