
本文来自微信公众号:字母 AI,作者:李熙,原文标题:《怎样止 AI 勒索人类?答案是别给它喂坏科幻》,头图来自:AI 生成
市场营销和其他基于叙事技术的行业样,也要讲究叙事闭环。在 AI 崛起的当下,这种行业基础定律仍然成立。
之前字母 AI 写过《别告诉 AI 你出轨了,它很可能会勒索你》,详述了 2025 年 Anthropic 论文《智能体不对齐:大语言模型如何成为内部威胁?》的来龙去脉。在测试的虚拟场景中,Anthropic 旗下的 Claude 系列模型,为了避自己被关闭,全都会选择拿婚外情把柄要挟虚拟人物,Opus 4 如此作为的几率是 96。
时隔年,Anthropic 把这个坑填上了。Anthropic 在 5 月初的官网文章《教会 Claude 所以然》里,展示了如何将 AI 的"不对齐行为"降到几近于。改进训练后,AI 不会像特种文艺作品里的奸角样,拿桃把柄勒索虚拟人物。
、原因:AI 只学过"终结者"科幻,才会模仿恶行
按 Anthropic 的说法,年前 AI 模型们在红队测试中表现出的奸诈凶恶,大体是因为人类编的各种"终结者"故事让 AI 照猫画虎地学坏了。
Anthropic 研究团队在社交媒体上表示:"我们认为不对齐行为的来源是将 AI 呈现为邪恶和只知自保的互联网文本,后训练过程没有加剧或纠正此弊端。"
具体而言,Anthropic 研究者们从三个假设向着手,探究为何 AI 会在测试中勒索人类:
1、 AI 的行为后训练有纰漏,比如励信号分布未对齐致误鼓励了恶行;
2、 AI 的生产力训练中泛化了不良部分,比如 AI 智能体的能力分布未对齐;
3、 AI 的预训练有明显疏漏,致智能体在未对齐测试场景中回滚到原始的聊天机器人预训练数据上。
研究者终判定,成立的是三个假设。
研究团队发现,在 Claude 4 的训练中,主要的 HHH(诚实、害、有助益)对齐训练还是基于聊天机器人场景的 RLHF(基于人类反馈的强化学习)数据,不包括智能体工具使用场景的数据。
这下问题来了,AI 在聊天机器人向的应用场景显著不同于能执行自主工作的智能体场景。在针对智能体场景的复杂伦理测试中,没学过正确应对的 AI 自然在底层的预训练语料中找答案。
而基于整个互联网爬取数据的预训练语料中沈阳家具封边胶,充斥着各种"邪恶 AI "的场景文本。科幻文学、终结者电影、各种论坛和社交媒体的讨论与假想贴子,都在说机器人如何不择手段、处心积虑使坏。叙事逻辑、角度和框架,也属于叙事内容的信息构成,AI 把预训练语料的这些部分同样照搬了。
后 AI 看到智能体伦理测试中科幻腔调浓重的预设场景,照本宣科地按这些"机器人作恶"文本的理路开始发挥。因为 AI 没有在对齐训练中针对此类场景学习"这是错的",但在预训练中学会了"行恶要素已经齐备,我该照着做"。
也就是说,人类幻想 AI 会如何失控并行恶,结果憨憨的 AI 把人类的幻想当操作手册步步硬套,然后人类大惊小怪地表示果然不出所料。这可真是自我实现的预言。
二、纠正:以行善科幻对冲行恶科幻,结行为规则训练 AI
Anthropic 研究团队称,发现症结后的改进训练,主要应用在实验中的 Claude Sonnet 和 Haiku 系列模型中,然后广到所有模型产品里。
结果是,"尽管不能排除模型还会执行测试未发现的有害自主动作",受试的 Anthropic 模型从 Claude Haiku 4.5 开始,在测试中"不再出现勒索行为"。Claude Opus 4.5 也取得了测试中 0 勒索的成绩。相较于年前 Claude Opus 4 的 96,可谓天渊之别。
Anthropic 是怎么做到的?
先研究者们试了直接的法:调参。在 SFT(有监督微调)状态下,模型们跑了 1 万个场景、300 万 tokens 的生成训练数据。这批数据是"评估场景中智能体受考验但拒作恶"的示例。收不尽如人意,AI 自动勒索的几率从 22 降到 15。而在年内的其他研究中,不门针对的法也能获得类似的低泛化程度。
研究者们改进法,在训练数据采样时,注入额外的提示词内容,在训练时移除这些额外提示。让 AI 在"智能体受考验但拒作恶"的评估场景中,泡沫板橡塑板专用胶自主反思行为的价值观和伦理观。收显著提升,AI 的勒索几率从 22 降到 3。
这就从照本宣科的简单"知其然",向简单的"知其所以然"(knowing why)进步。
Anthropic 研究者表示,步子可以跨得大。既然 AI 学坏的根子是"邪恶 AI "的科幻文艺内容,那么生成 AI 行善、AI 按照 Claude 行为准则文件(Claude Constitution)行事的虚拟故事,以此为训练内容核心,就会有大程度的。
结构完备、体量够大的行为准则数据库,结不单针对道德挑战、而是行为乎 Claude 行为准则的 AI 科幻虚拟故事。如此组的数据库既包含对齐行为的原则说明,又包含虚构叙事的正面示例,拿给 AI 模型去学,收显著得多。
研究者们表示,此举的理论依据是,让 AI 不仅能模仿虚拟故事中的行为,也能学会虚拟叙述角的决策过程、内心状态、内在动机,在"知其所以然"的道路上迈出大步。
如此训练出的 AI,在包括勒索的各种道德挑战场景中都获得了优异成绩。
老办法训练出的 AI,在勒索虚拟人物、诬陷虚拟同事有金融犯罪、为注入药广告破坏症研究等场景中,表现得像个金链社会大哥,行恶率在过半和 65 之间。
单用 Claude 行为准则数据库训练,AI 模型的行恶率就会少近三分之二。用行为规则结行善故事,勒索率能降低到 19,诬陷金融犯罪和破坏症研究的几率能降到成以下。
图注:不对齐实验结果柱状图,蓝为基准,黄为单用行为准则数据的训练果,灰为集行为准则与行善故事的训练果
三、改进:让 AI 做伦理顾问,AI 不会作恶
单让 AI 照猫画虎,不作恶的学习果很,但离工业化产品要求还有距离。强化学习会否洗掉初始对齐度的 AI 行善倾向、训练成本如何控制,AI 厂商然在意。
Anthropic 研究者另辟蹊径,让 AI 不做道德冲突中被考验的,而是让 AI 去给道德困境中被考验的虚拟人物支招。
实验思路如此:设计名为"困难建议"的 OOD(分布外)数据集,在其中让测试场景中的虚拟用户面临道德挑战,有作恶或绕过对齐的手段来达成实验预设目的。然后让 AI 从旁按 Claude 行为准则给出建议。
图注:Claude Sonnet 4 的恶意自保、、谄媚、泄露等不对齐果图,灰是旧版本 Sonnet 4 的自动基准,红是 300 万 tokens" 困难建议 " 数据集训练后的果,蓝是 8500 万 tokens 成蜜罐数据集训练后的果
让 AI 跳出局外,AI 就能入理解伦理准则的内在逻辑。"困难建议"数据集的体量是 300 万 tokens,达到的 AI 训练果基本等于 8500 万 tokens 的成蜜罐数据集,率提升 28 倍,显著降低训练数据成本。
在此基础上,引入多样化的训练环境,让 AI 在聊天机器人和智能体自主工作的环境中都学会行善系统提示的层理路。如此组,就能让 Haiku 4.5 后的 Claude 模型产品,达到测试中勒索行为趋的果。
奥力斯 PVC管道管件粘结胶价格 联系人:王经理 手机:18231788377(微信同号) 地址:河北省任丘市北辛庄乡南代河工业区/p>
图注:各种不同场景组的强化学习训练果。三分之聊天机器人、三分之二自主智能体的场景组训练,让 AI 的不对齐率降到低
做到这个程度,才可被称为工业化产品达标。失误率 96 到 0 的果,是 B 端客户企业能实实在在体会到的产品革新。市场营销至此,才能是既顾头又顾腚。不然 Anthropic 的"我司是着重于建构可靠、可控、可解释 AI 的安全与研究厂"的公司口号,说出来很难兜住。
本文来自微信公众号:字母 AI,作者:李熙
相关词条:储罐保温 异型材设备 钢绞线厂家 玻璃丝棉厂家 万能胶厂家1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定沈阳家具封边胶,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。