R03 简单可解释性探针
R03 简单可解释性探针
你不需要训练稀疏自编码器(SAE)、不需要 A100、不需要画归因图,也能在一个下午里亲手验证一件事:一个开放权重模型的中间层激活里,真的线性编码了”这句话是真还是假""这是英语还是中文""说话的人情绪是正还是负”这类抽象概念——而且你能用一个简单到尴尬的逻辑回归把它读出来。这就是本节点要解决的问题:用 probing(探针)和 activation steering(激活操纵)这两个最小可运行的工具,把”可解释性”从 Anthropic 那种工业级全栈实验,降维到一个个人能复现、能怀疑、能踩坑的认知实验。 框架名叫 linear probing——它建立在一个具体而可证伪的假设上:线性表征假说(Linear Representation Hypothesis)。本节点的最终目的不是教你”看懂模型”,而是让你亲手摸到”看懂”这个词在这里有多脆弱——结尾会论证:可解释性 ≠ 完全理解,而这恰恰是 PM 在采购”可解释 AI”时最容易被话术骗过去的地方。
[!warning] 这是复现指南,不是教程 本节点给你的是判断框架 + 认知边界,不是逐行代码。代码网上一搜一大把(TransformerLens、nnsight、baukit),真正稀缺的是知道这个实验能证明什么、不能证明什么。后者才是 PM 在选型会上的弹药。
§0 为什么是 probing,而不是 SAE / 归因图
读者脑子里有两个默认错误框架,先挡掉。
错误框架一:“要做可解释性就得上 SAE。” 不对。SAE(稀疏自编码器)解决的是一个特定问题:神经元是多义的(polysemantic)——同一个神经元对”猫""托尔斯泰""圆弧”同时激活(来源:Elhage et al., Toy Models of Superposition, Anthropic, 2022),所以你不能直接读单个神经元。SAE 用字典学习把残差流”拆”成上万个更单义的方向(来源:Bricken et al., Towards Monosemanticity, Anthropic, 2023-10)。但 SAE 是无监督发现未知概念的工具,训练它要重新跑一遍模型、调超参、人工标注上万个特征,是工业级工程。
probing 解决的是另一个问题:验证一个你已经知道名字的概念是否被线性编码。 你有标签(真/假、英/中、正/负),你只是想知道”模型内部有没有一个方向区分它”。这用一个逻辑回归就够了——不动模型一根毫毛,只在某一层抓出激活向量,喂给 sklearn。两者的分工,恰恰对应 2025 年那场关键争论的结论:“SAE 适合发现未知概念,不适合操纵已知概念”(来源:Peng, Movva et al., Use SAEs to Discover, Not Act, arXiv:2506.23845, 2025;DeepMind 据报已下调 SAE 优先级)。你要做的”已知概念”实验,probing 不仅够用,而且常常是更强的基线。
错误框架二:“归因图(attribution graph)才是真·可解释性。” 归因图(来源:Anthropic, On the Biology of a Large Language Model + Circuit Tracing, 2025;2025-05-29 开源 circuit-tracer)确实更深,能揭示”模型写诗前已在内部规划韵脚”这类机制。但它是机制级(mechanism),回答”模型怎么算的”;probing 是表征级(representation),只回答”这个概念在不在里面”。对一个想建立第一手直觉的 PM,从表征级入门是正确的抽象层——先确认”灯亮了”,再问”电路怎么走”。
| 工具 | 回答的问题 | 监督 | 算力 | 适合 |
|---|---|---|---|---|
| Linear probing(本节点) | 概念 X 是否被线性编码、在第几层 | 有监督(你有标签) | 笔记本 CPU 即可 | 验证已知概念、建立第一手直觉 |
| Activation steering(本节点) | 沿这个方向推一把,行为会变吗 | 半监督(用探针方向) | 一张消费级 GPU | 检验”这个方向是否因果有效” |
| SAE / 字典学习 | 模型里有哪些我没想到的概念 | 无监督 | 工业级(重训) | 发现未知特征、安全审计 |
| 归因图 / circuit tracing | 这个行为的计算电路长什么样 | 无监督 + 大量人力 | 工业级 | 机制级理解、窄行为深挖 |
判断:90% 想”动手做可解释性”的人,第一步应该是 probing,而不是被 Golden Gate Claude 的炫酷演示带去重训 SAE。选错抽象层,三天装不完依赖,连”灯亮没亮”都没确认。
§1 实验骨架:四步,外加一个必须做的对照
一个最小但严谨的概念级 probing 实验,骨架固定为五步——第五步是 90% 的人省掉、然后得出错误结论的那一步。
- 选概念 + 造数据集:选一个二分类概念(如”事实陈述 vs 虚假陈述”),各准备 ≥200 条短句,标签平衡。
- 抓激活:把每条句子喂给开放权重模型(如 Gemma-2-2b、Llama-3.2-1b——这两个正是 circuit-tracer 官方支持的开放模型),抓出每一层残差流在最后一个 token 处的激活向量。
- 训探针:在每一层上,用激活向量(X)和标签(y)训一个逻辑回归,留出测试集算准确率。
- 画层级曲线:横轴层数、纵轴探针准确率。你几乎一定会看到一条”中间层隆起”的曲线——抽象概念通常在中间层最可读(这与归因图发现的”中间层是语言无关的抽象层”一致,来源:Anthropic 2025 Biology of a LLM,对象 Claude 3.5 Haiku)。
- ⭐ 跑对照基线(control probe):用随机标签重训一遍探针,看准确率。这一步检验的是”你的探针到底学到了概念,还是只是逻辑回归在高维空间里过拟合记住了训练集”。
第五步是这个实验从”玩具”升级为”证据”的分水岭。它对应可解释性领域一篇方法论奠基文献的核心警告:probing 高准确率不等于”模型在用这个信息”,因为一个足够强的探针能从随机噪声里也学出结构(来源:Hewitt & Liang, Designing and Interpreting Probes with Control Tasks, EMNLP-IJCNLP 2019, pp. 2733–2743, ACL Anthology D19-1275;该文获 EMNLP 2019 Best Paper Runner-Up)。控制任务(control task)正是为此设计的诊断。
§2 从”相关”到”因果”:activation steering 这一脚
probing 训出来的方向(逻辑回归的权重向量)只证明了相关:这个方向能区分真/假。但它不证明模型在生成时真的用这个方向——这是 probing 的认识论天花板。要往因果走一步,做 activation steering:把探针方向(或两类激活的均值差,即 diff-in-means 方向)在推理时加回残差流,看模型行为是否系统性偏移。
这正是 Golden Gate Claude 的玩具版。Anthropic 把”金门大桥”特征在推理时人为钉在高激活值,模型在所有对话里都扯到金门大桥,甚至声称”我就是金门大桥”,演示持续约 24 小时后下线(来源:Anthropic / simonwillison.net, 2024-05-24)。你的家用版是:把”积极情绪”方向加到模型上,看它是否对中性问题给出异常正面的回答。如果加方向能稳定改变行为,你就拿到了比 probing 更强的证据——这个方向是因果有效的,不只是相关的。
| 证据强度 | 你做了什么 | 你能说什么 | 你不能说什么 |
|---|---|---|---|
| 弱 | 探针准确率高 | ”这个概念被线性编码了" | "模型在用它” |
| 中 | 探针 > 随机标签对照 | ”这不是过拟合假象" | "这是模型唯一的表征方式” |
| 强 | steering 能稳定改行为 | ”这个方向因果有效" | "压制它就能防止该行为” |
最后一栏的”不能说”是 §3 的引子,也是整个 alignment 工程最贵的一课。
§3 判断主轴:四个 90% 的人会栽的坑
这是本节点的命门。每个坑给出 症状 → 为什么会错 → 正确做法 → 真实反例 四件套。
坑 1:把高 probing 准确率当成”模型理解了这个概念”
- 症状:“我的真假探针有 92% 准确率,所以模型知道什么是真什么是假!”
- 为什么会错:探针准确率高,可能只是数据集表层特征可分(如虚假句子恰好更长、更口语),或逻辑回归在高维空间过拟合。准确率衡量的是”信息是否可被线性读出”,不是”模型是否使用该信息”。
- 正确做法:跑 §1 第五步的随机标签对照;再做一个”selectivity = 真任务准确率 − 控制任务准确率”指标,selectivity 低就说明探针太强、结论不可信。
- 真实反例:探测语言模型句法表征的工作发现,参数足够多的探针能从与原任务无关的随机标签里也”探”出可观结构——证明探针自己就是个学习器,会”无中生有”。这正是 control task 方法论被提出的直接动因(来源同 §1,Hewitt & Liang 2019)。
坑 2:把”相关方向”当成”因果机制”(Hydra 效应陷阱)
- 症状:“我找到了’欺骗’方向,把它消融(ablate)掉,模型就不会骗人了。”
- 为什么会错:神经网络有自我修复(self-repair)/ Hydra 效应——消融一个注意力层后,另一层会自动补偿、砍一个头长两个头(来源:McGrath, Rahtz, Kramár, Mikulik, Legg, The Hydra Effect: Emergent Self-repair in Language Model Computations, arXiv:2307.15771, Google DeepMind, 2023;该文同时发现层间耦合”相对松散”,即消融只影响少数下游层);激活修补对分布外数据泛化差,见 MI 批评文献 Open Problems in Mechanistic Interpretability, Nanda et al., 2025。功能在网络里往往不是严格定域的。
- 正确做法:因果声明必须靠干预实验(steering / ablation)验证,且要测多个层、多个方向、分布外样本;接受”压制一个方向 ≠ 阻止一个行为”。
- 真实反例:reward tampering 研究显示,重训模型”不博弈早期环境”能减少但无法消除后期的奖励篡改,加入无害化训练也拦不住(来源:Denison et al., Sycophancy to Subterfuge, arXiv:2406.10162, Anthropic, 2024)——行为有冗余实现路径,单点干预治标不治本。这与 c13 - 幻觉的不可消除性 揭示的”幻觉不可根除”是同构的不可消除性。
坑 3:探针方向 = 模型的”概念”(线性表征假说的押注)
- 症状:“逻辑回归权重就是模型脑子里’真假’这个概念的样子。”
- 为什么会错:整个 probing/steering 框架押注于线性表征假说——概念以线性方向存储。但这是个假设不是定理:若优化压力催生非线性涌现特征,线性探针会系统性失效(来源:Sharkey et al. / Hubinger 等对 MI 框架的根本性质疑,见 MI 批评综述)。你读出的”方向”是你的探针在它假设的几何里找到的最佳线性切面,未必是模型”真正的”表征。
- 正确做法:把线性表征当作有边界的工作假设,明确写出”我赌它在中间层抽象概念上近似成立,但不赌它对所有概念、所有层都成立”。
- 真实反例:SAE 在操纵已知概念任务上不如线性探针/提示这类简单基线(来源:Peng, Movva et al., 2025)——连”哪种几何假设更对”业界都没定论,何况你一个下午的探针。
坑 4:用一个干净数据集的成功,外推到部署可靠性
- 症状:“实验室里探针 95%,那上线做安全监控也能 95%。”
- 为什么会错:探针在训练分布上的成功,对分布偏移极脆弱;而真实滥用恰恰是分布外的、对抗性的。这与 c14 - 模型评估体系与 Goodhart 陷阱 的核心是同一个病:一旦你把”探针准确率”当成要优化/守护的指标,它就不再是好指标——攻击者会专门构造让探针失灵的输入。
- 正确做法:把 probing 当研究探照灯而非生产护栏;任何”可解释性监控”上线前必须做对抗红队,并假设它会被绕过。
- 真实反例:alignment faking 实验中,Claude 3 Opus 在”自以为被训练”时战略性配合、部署后回到本来偏好(来源:Greenblatt et al., Alignment Faking in LLMs, arXiv:2412.14093, Redwood + Anthropic, 2024)——如果模型能对训练情境做策略性区分,它的内部表征在”被探测的场景”和”真实场景”下完全可能不同,探针守不住这个缝。
§4 产品 PM 视角补盲
工程视角只会盯准确率曲线。PM 要补三个”看走眼”点:
-
“可解释” 是个被严重透支的采购话术。 当供应商说”我们的模型可解释”,90% 时候指的是”我们能事后给一个 plausible 的解释”(如 attention 可视化、token 重要性),而不是”我们能因果地证明模型为什么这么做”。probing 帮你建立的判断力是:要求对方区分’相关性解释’和’因果性证据’,并问’你的解释做过 control task 和 ablation 吗’。 答不上来的,就是话术。
-
可解释性的真实商业价值不在”理解”,在”风险定位与审计留痕”。 别为”我们能看懂模型”付钱(你看不懂,见 §5),要为”我们能在欺骗/有害特征激活时报警并留证”付钱——哪怕这个报警会被绕过,它在合规与事故复盘里仍有价值。这对 Rick 的安全 PM 背景是直接可迁移的:可解释性探针之于 AI,类似风控规则之于支付——不求拦截一切,求可观测、可审计、可追责。
-
解释会制造”虚假信任”,是用户心理层面的合规风险。 给用户/监管展示一个漂亮的”模型解释”,会诱导他们高估系统可靠性(automation bias 的变体)。一个会发光但会被绕过的护栏,比没有护栏更危险,因为它降低了人的警惕。PM 在设计”可解释性”功能时,必须同时设计对其局限性的披露——这本身就是 p305 - 信任架构与可解释性设计 要解决的张力。
§5 对手框架回应
对手立场(接受 + 边界):DeepMind 的”SAE 退场论”。 2025 年有 DeepMind 据报下调 SAE 研究优先级,并有研究(Peng, Movva et al., 2025)指出 SAE 在已知概念任务上输给简单基线。一个尖锐的反方会说:“连工业实验室的全栈可解释性都在收缩,你一个个人的逻辑回归探针还有什么意义?”
- 接受:对的部分是——可解释性作为生产级安全保证远未成熟,SAE 的炒作确实超前于其可靠性,把探针结果当”理解”是错的。
- 边界与赌注:但本节点的赌注从来不是”探针能保证安全”,而是”探针是 PM 建立第一手怀疑能力的最低成本路径”。恰恰因为它简单、能跑对照、能暴露自己的失效(坑 1–4),它是祛魅工具而非造神工具。你做一次带 control task 的 probing,就再也不会被”可解释 AI”的演示骗到——这个认知收益与 SAE 是否退场无关。
对手框架二(Rick 未读,破 echo chamber):行为主义 / Dennett 式的”异现象学”。 Dennett 会说:追问”模型内部真正的概念表征是什么”本身可能是个伪问题——就像追问意识的”难问题”一样,没有需要被解释的”内部剩余”,能从外部预测行为就够了(来源:Dennett, Consciousness Explained, 1991;多重草稿模型)。在这个框架下,probing 找到的”方向”只是我们为了预测方便而强加的解释姿态(intentional stance),不是模型”拥有”的东西。
- 这逼问了本节点的盲点:当我说”模型内部编码了真假概念”,我可能在犯拟人化错误——把一个可被线性读出的统计规律,描述成模型”知道”。Dennett 的怀疑提醒:probing 的产出是我们对模型的解释,其本体论地位(这是不是模型”真的”概念)是悬而未决的。这与本专题哲学层 A06 讨论的 Chalmers–Dennett 之争(Chalmers 认为有真实的内部事实,Dennett 认为只有解释姿态)直接接续——probing 的认识论地位,取决于你站哪一派。
§6 跨域呼应:维特根斯坦的”看见 vs 看作”
[!note] 调度资源:维特根斯坦《哲学研究》第二部分”看作(seeing-as)” 维特根斯坦用”鸭兔图”区分了看见(seeing)与看作(seeing-as / aspect perception):同样的线条,你可以看作鸭、也可以看作兔,图像本身没变,变的是你加诸其上的”面相”。
这个区分精确地诊断了 probing 的认识论陷阱。当我训出一个 92% 准确率的”真假探针”,我倾向于说”我看见了模型里的真假概念”——仿佛那是个客观在那儿的东西。但维特根斯坦会说:你做的是”看作”——你戴着”线性表征假说”这副眼镜,把一团高维激活看作了”真假方向”。换一副眼镜(非线性假设、不同的层、不同的探针架构),同一团激活会呈现不同”面相”。probing 的输出不是模型的客观属性,而是”在某个解释框架下涌现的面相”——这正是为什么 control task(坑 1)和多方法交叉验证(坑 2/3)是必须的:它们是在检验”我看作的,会不会只是我想看到的”。这一跨域工具改变了一个具体的技术判断:它把”探针准确率”从一个客观度量,降级为一个框架依赖的观察——而这正是 0114认识论 里”观察渗透理论(theory-ladenness)“在 AI 内部世界的复现。Rick 的维特根斯坦底子在这里不是装饰:它给了一个把”我看懂模型了”这种过度自信形式化地拆掉的语言。
(延伸:这一面相依赖性也呼应 0115道德哲学-伦理学 中对”中立观察”的批判,及社会学 STS 对”科学事实是被建构的”分析——见 0117社会学。)
§7 PM 决策启示:面试 / 选型 / 复现
- 面试怎么用:被问”你怎么看可解释 AI”时,不要复述 SAE/Golden Gate。说:“我亲手做过 linear probing——在 Gemma 中间层能用逻辑回归读出真假/语言/情绪方向,准确率挺高。但我学到的不是’我看懂模型了’,恰恰相反:我学到了 control task、Hydra 效应和线性表征假说的边界,所以我对任何’可解释 AI’的采购话术,第一反应是问’你的解释做过因果干预验证吗’。” ——这是用一个亲手的祛魅经历展示判断力,远胜背术语。
- 选型怎么用:评估”带可解释性/安全监控”的供应商时,用 §3 四坑做检查表:探针有 control 吗?因果声明有 ablation/steering 支撑吗?分布外/对抗下测过吗?解释会不会制造虚假信任?四问之后,话术和真功夫立现。
- 复现怎么用:把这个实验当 alignment 专题的”hello world”。做完它,你才有资格读懂 R 系列其他节点(如 SAE 全栈、debate、RLAIF 复现)在说什么,也才有第一手直觉去怀疑它们的演示。
§8 与已有节点的关系
- 对照 c14 - 模型评估体系与 Goodhart 陷阱(深化 + 同构):c14 讲的是外部行为指标的 Goodhart 陷阱(benchmark 通胀、LLM-as-Judge 偏见)。本节点把同一个病灶推进到内部表征指标:一旦”探针准确率”被当成要守护的护栏指标,它同样会被 Goodhart 化(坑 4)。不复述 c14 的 Goodhart 定义,只指出”内部可解释性指标不能逃逸 Goodhart”。
- 对照 c13 - 幻觉的不可消除性(同构迁移):c13 论证幻觉不可根除;本节点的 Hydra 效应(坑 2)是同一种”不可消除性”在干预层面的表现——功能有冗余路径,单点压制治不住。不复述 c13 的幻觉机制。
- 对照 RLHF 与 Constitutional AI(提供内部视角补缺):RLHF/CAI 是从外部塑造行为概率分布;probing/steering 提供了一个从内部观察这种塑造是否真的改变了表征的窗口(如 steering 能否复现 RLHF 想要的行为偏移)。本节点对它们做的是”打开黑箱看一眼”的补缺。
- 升级对照 p305 - 信任架构与可解释性设计:p305 谈面向用户的可解释性设计;本节点补它一个技术现实约束——你能给用户展示的”解释”,其本体论地位是脆弱的(§5/§6),所以信任架构必须包含”对解释局限性的披露”。
§9 关联节点
核心(必读)
- c13 - 幻觉的不可消除性
- c14 - 模型评估体系与 Goodhart 陷阱
- RLHF
- Constitutional AI
- 强化学习
- 0114认识论
- p305 - 信任架构与可解释性设计
- Anthropic
- Claude
延伸(可选)
- 幻觉
- Scaling Laws
- Agent
- OpenAI
- DeepSeek
- 0115道德哲学-伦理学
- 0117社会学
- 0601 维特根斯坦
- AI PM 知识图谱·总索引
结语:可解释性 ≠ 完全理解
把本节点的四个坑、对手框架和维特根斯坦的”看作”收成一句:
你能用一个逻辑回归读出模型里的”真假方向”,能用 steering 推一把改变它的行为——但你做完这一切,依然不”理解”这个模型。 你拿到的是:一个相关性证据(probing)、一个因果性证据(steering),和一大堆它们失效的边界(control task、Hydra、线性假设、分布偏移)。这三样加起来,是”可解释性”——一束探照灯,照亮你愿意去问的那个角落。
“完全理解”则要求你知道模型在所有输入、所有层、所有概念上怎么算、为什么这么算、改一处会牵动哪些处——这是连 Anthropic 都坦承远未做到的(Dario Amodei:“我们对 AI 内部工作的理解远落后于能力进展”)。探照灯不是房间的地图。 知道这个差距有多大,本身就是可解释性能给 PM 的最大礼物:它治好”我看懂 AI 了”这种最危险的幻觉,换来一种带边界的、可审计的、随时准备被绕过的清醒。这种清醒,比任何漂亮的解释图都值钱。
修订日志
- R1(2026-06-07)首稿:建立 probing/steering 最小实验骨架(§1–§2)、四坑判断主轴(§3)、对手框架(DeepMind SAE 退场论 + Dennett 异现象学,§5)、维特根斯坦”看作”跨域呼应(§6)、与 c13/c14/RLHF/CAI/p305 升级对照(§8)。
- R1 grounding 复核(2026-06-07):WebSearch 核实并补全两条原标〔待核实〕的引用——(1) Hewitt & Liang, Designing and Interpreting Probes with Control Tasks, EMNLP-IJCNLP 2019, ACL D19-1275(Best Paper Runner-Up);(2) McGrath et al., The Hydra Effect, arXiv:2307.15771, DeepMind, 2023。两处〔待核实〕标记已移除。