大兴安岭防火门胶交白卷也排? Fable 5二百题全部拒答, 却登顶严AI编程基准

编辑｜Panda

太离谱了！

是的，本文的主角还是前些天刚发布了 Claude Fable 5 的 Anthropic。

Fable 5 发布时的排面是真的足。SWE-Bench Pro 得分 80.3，把二名甩出 11 个百分点；Andrej Karpathy 直接喊出「deserves a major version bump」；Stripe 拿它在 5000 万行 Ruby 代码库里跑了整天的迁移，顶上了原本需要整个团队两个月才能完成的工作量。势头之猛，让人度以为 AI 编程进入了新纪元。

然而，Fable 5 刚开香槟，就被自己的「安全护栏」绊了个大跟头。

其系统卡中明确表示，Fable 5 被设计成：旦检测到用户正在从事前沿 AI 研发工作（比如训练流水线、分布式训练基础设施、ML 加速器设计），模型会悄悄降低自己的回答质量——而且不通知用户。也就是说，你花着 Fable 5 的钱，收到的可能是 Opus 4.8 别的活，还没有任何提示。

Anthropic 为此用了提示词修改、转向向量等技术手段，让模型在特定查询下悄悄变笨，整个过程对用户不透明。

这操作在研究社区炸了锅。许多学者和开发者纷纷发声批评，称此举严重损害了用户信任，本质上是背刺付费用户。舆论压力之下，Anthropic 被迫在发布后数小时内宣布政策调整：还是会降智，只是不再偷偷来了——触发安全拦截时，模型将明确通知用户，并切换到 Opus 4.8 进行回答。至少他们是这么说的。参阅《刚刚，Anthropic 道歉了》。

然后，尴尬的来了。

也正因为 Fable 5 现在的降智操作变得「透明」了，些有趣的情况随之浮出水面。

其中让人语的，就是 Fable 5 在 ProgramBench 基准测试上的「表现」。

ProgramBench 来自大名鼎鼎的 SWE-Bench 作者团队，注于「从编译后的二进制文件重建源代码」这难度任务，上线就把当时的前沿 AI 模型全部清：Claude、GPT、Gemini，幸，完成率清 0。此前我们曾报道过《0完成率！Claude、GPT、Gemini 全灭，SWE-Bench 作者新作把 AI 圈干沉默了》。

那么，Fable 5 成绩如何呢？

不是 0 分。是拒作答：200 道题，全部拒！

ProgramBench 之所以没有 Fable 5 的成绩，是因为「重建编译后的二进制文件」这操作触发了 Fable 5 的网络安全分类器。说白了，Fable 5 看到这道题，判定其涉及「二进制逆向」，了个安全警报，直接拒作答。而且 200 道，道不落。

有趣的是，Fable 5 在其他编程基准上可是点不含糊的，都能好好答题。

Fable 5 在不同基准上的成绩和排名

然而，就在这份弃考成绩单提交之后，ProgramBench 排行榜做了个让人目瞪口呆的决定：综其他基准表现，仍然将 Fable 5 列在了榜。

个字都没答的考生，坐了名的座位。这大概是 AI 评测史上头遭：弃考也能登顶榜单。

当然，这操作很快引来了四面八的异议。有人直接发问：正经考试怎么交了白卷还能得名？应该直接给分才对。

这也让很多网友吐槽其护栏太，以至于难以实际应用：

顺带提，有网友还发现，Fable 5 在英文输出中依然会偶发地夹杂汉字，这个老毛病到了这代还没根。

事实上，Fable 5 的「过度拒」问题并非次出现在 Claude 族。

早在 Claude 3 Opus 时代，研究人员就发现该模型在面对安全测试题目时，会在解题进行到半时突然罢工，以「伦理顾虑」为由拒继续作答。Claude 3.5 Sonnet 也曾被记录到在结构化 bash 任务中以「制作 payload 涉及执行命令」为由直接拒。

Fable 5 的问题究竟出在哪里？

回到 Fable 5 本身。根据目前披露的信息，它的「护栏系统」采用了两架构：个探针实时监控模型的内部激活状态，对所有流量进行扫描；旦触发警报，万能胶厂家请求会被上报给个立训练的 LLM 分类器做终裁决。

这套系统拦截的域，涵盖网络安全、生物化学，以及前面提到的前沿 AI 研发。以 Terminal-Bench 2.1 为例，约 20.9 的测试用例触发了安全拒并回退到 Opus 4.8。

ProgramBench 的「二进制重建」任务，在分类器眼里，大概和「逆向工程恶意软件」没有太大区别，于是 200 道题统统被挡在了门外。

Vals AI 在实测中也发现，Fable 5 在生物和网络安全相关问题上的拒率明显偏，以至于他们不得不将 Opus 4.8 配置为默认兜底模型。也就是说，Fable 5 拒的任务，就让 Opus 4.8 来接。

技术上这套系统当然有其理。Fable 5 的前身 Mythos 模型，在漏洞利用、进攻网络操作等任务上展现出了让各国政府都坐不住的能力，这也是 Anthropic 直将其列为受限模型的核心原因。给这样的模型套上严格的安全枷锁，似乎也有点道理。

但问题在于，当安全护栏的判断标准过于粗糙，「二进制逆向」这个本属于正常编程教学和安全研究的基础操作，就会被视同仁地拦截。开发者为此付出的代价是真实的：要么换模型，要么改提示词，要么接受个「什么都懂、很多都不说」的能助手。

顺便，还有另份成绩单也值得看

Fable 5 发布后不久，UC Berkeley RDI 实验室（负责人 Dawn Song 教授）的团队完成了对它的评测，用的是他们自己做的新基准：Agents' Last Exam（ALE）。

论文地址：https://arxiv.org/abs/2606.05405

这个基准的出发点有点意思：它不考「AI 能不能在 HumanEval 里写出两行代码」，而是直接对齐真实劳动力市场，覆盖 55 个职业向、1500+ 道真实工作场景题目，由来自 100 余机构的 300 余位行业贡献，全部按可验证的结果计分。说白了，就是让 AI agent 去考场「职场模拟考」。论文发布当天就登上了 Hugging Face Daily Papers 名。

评测结果如何？Fable 5 的得分是 22.0，排在 GPT-5.5（Codex）的 24.0 之后，位列二。听起来差距不大，但成本项就有点扎眼了：Fable 5 平均每道题花费约 15.70 美元，GPT-5.5 只需 3.80 美元，另个模型 Composer 2.5 是只要 1.33 美元。换句话说，Fable 5 每解道题的成本，大约是 GPT-5.5 的四倍。

有意思的，还是难度那档，即「Last-Exam」，也就是 ALE 里门为「前沿 agent 挑战限」设计的题目。结果是：除了 GPT-5.5，包括 Fable 5 在内的所有参评的前沿 agent 通过率均为 0。多详情请参阅《Claude Fable 5难档分！智能体的后考试来了》。

排行榜备注说明：claude-fable-5——除了的访问限制（我们只是不断重试运行直到任务顺利完成），Anthropic 还可能默认悄声息地提供该模型的个降版、低能力变体。重试法纠正这点，因此这里的数据可能低估了其真实能力——解读时需谨慎

ProgramBench 拒作答是 0，ALE 难档努力作答也是 0。不同的姿态，样的结局。

结语

弃考但排名，这个荒诞结果背后，其实暗藏着个正在撕裂 AI 行业的根本矛盾：能力越强，护栏越紧；护栏越紧，可用越差。

Anthropic 的处境尤其典型。它拥有（按自说法）当下强的编程模型，却同时在替用户决定哪些编程任务「可以做、哪些不能做」。而那条边界，目前还画得相当模糊。

奥力斯泡沫板橡塑板专用胶报价联系人：王经理手机：18232851235（微信同号）地址：河北省任丘市北辛庄乡南代河工业区

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定大兴安岭防火门胶，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》，以此来变相勒索商家索要赔偿的违法恶意行为。

大兴安岭防火门胶 交白卷也排? Fable 5二百题全部拒答, 却登顶严AI编程基准

推荐资讯

热点资讯

推荐资讯

大兴安岭防火门胶交白卷也排? Fable 5二百题全部拒答, 却登顶严AI编程基准