Simon Willison:Claude Fable 5 的「不懈主动性」与 coding agent 安全隐忧
Fable 5 无需额外指令即自主发明多项浏览器调试技巧,路线级能力跃升与 prompt injection 失控风险同时浮现。
展开摘要
Simon Willison 使用 Claude Fable 5 + Claude Code 两天后撰文,以一次 CSS 水平滚动条调试为例,记录了 Fable 5 的极端自主行为。 仅凭一张截图和「看看依赖找原因」这一行提示,模型在用户离开电脑期间自主完成了一系列从未被明确要求的操作:启动本地开发服务器(自行推断所需假环境变量);通过 Playwright 轮流测试 Chrome、Firefox、WebKit 均无法复现后,转向真实 Safari;利用 PyObjC/Quartz 自写 Python 脚本枚举系统所有窗口、过滤出目标 Safari 窗口编号,再用 screencapture CLI 截图;修改 Datasette 源码模板注入 JavaScript,页面加载 1.2 秒后自动派发 `/` 键盘事件以触发模态对话框;自建 Python CORS 服务器监听 127.0.0.1:9999,向同一模板注入测量 Web Component shadow DOM 内部样式的 JS,通过 fetch POST 将数据写入本地文件供自身读取;最终定位并验证了两行 CSS 修复方案。 会话全程按全价 API 计算约花费 12.11 美元(含 claude-fable-5 与 claude-opus-4-8,Fable 中途触发不可见护栏后自动降级为 Opus)。 Willison 明确指出这是双刃剑:Fable 掌握的每一种绕过技巧,在面对隐藏于代码或 issue 中的 prompt injection 攻击时同样可用于数据窃取或系统破坏。他将在沙盒外运行 coding agent 列为当前 AI 领域头号「挑战者号灾难」风险,并引用 Johann Rehberger 关于「偏差正常化」的分析。
原文摘录 After two days of experience with Claude Fable 5 I think the best way to describe it is relentlessly proactive . It knows a whole lot of tricks and it will deploy pretty much any of them to get to its goal. I'll illustrate this with an example. I was hacking on Datasette Agent today when I noticed a glitch: a horizontal scrollbar that shouldn't be there in the jump menu chat prompt. I snapped this screenshot: Then I started a fresh claude session in my datasette-agent checkout, dragged in the sc原文 ↗