R03 简单可解释性探针

你不需要训练稀疏自编码器（SAE）、不需要 A100、不需要画归因图，也能在一个下午里亲手验证一件事：一个开放权重模型的中间层激活里，真的线性编码了”这句话是真还是假""这是英语还是中文""说话的人情绪是正还是负”这类抽象概念——而且你能用一个简单到尴尬的逻辑回归把它读出来。这就是本节点要解决的问题：用 probing（探针）和 activation steering（激活操纵）这两个最小可运行的工具，把”可解释性”从 Anthropic 那种工业级全栈实验，降维到一个个人能复现、能怀疑、能踩坑的认知实验。框架名叫 linear probing——它建立在一个具体而可证伪的假设上：线性表征假说（Linear Representation Hypothesis）。本节点的最终目的不是教你”看懂模型”，而是让你亲手摸到”看懂”这个词在这里有多脆弱——结尾会论证：可解释性 ≠ 完全理解，而这恰恰是 PM 在采购”可解释 AI”时最容易被话术骗过去的地方。

[!warning] 这是复现指南，不是教程本节点给你的是判断框架 + 认知边界，不是逐行代码。代码网上一搜一大把（TransformerLens、nnsight、baukit），真正稀缺的是知道这个实验能证明什么、不能证明什么。后者才是 PM 在选型会上的弹药。

§0 为什么是 probing，而不是 SAE / 归因图

读者脑子里有两个默认错误框架，先挡掉。

错误框架一：“要做可解释性就得上 SAE。” 不对。SAE（稀疏自编码器）解决的是一个特定问题：神经元是多义的（polysemantic）——同一个神经元对”猫""托尔斯泰""圆弧”同时激活（来源：Elhage et al., Toy Models of Superposition, Anthropic, 2022），所以你不能直接读单个神经元。SAE 用字典学习把残差流”拆”成上万个更单义的方向（来源：Bricken et al., Towards Monosemanticity, Anthropic, 2023-10）。但 SAE 是无监督发现未知概念的工具，训练它要重新跑一遍模型、调超参、人工标注上万个特征，是工业级工程。

probing 解决的是另一个问题：验证一个你已经知道名字的概念是否被线性编码。 你有标签（真/假、英/中、正/负），你只是想知道”模型内部有没有一个方向区分它”。这用一个逻辑回归就够了——不动模型一根毫毛，只在某一层抓出激活向量，喂给 sklearn。两者的分工，恰恰对应 2025 年那场关键争论的结论：“SAE 适合发现未知概念，不适合操纵已知概念”（来源：Peng, Movva et al., Use SAEs to Discover, Not Act, arXiv:2506.23845, 2025；DeepMind 据报已下调 SAE 优先级）。你要做的”已知概念”实验，probing 不仅够用，而且常常是更强的基线。

错误框架二：“归因图（attribution graph）才是真·可解释性。” 归因图（来源：Anthropic, On the Biology of a Large Language Model + Circuit Tracing, 2025；2025-05-29 开源 circuit-tracer）确实更深，能揭示”模型写诗前已在内部规划韵脚”这类机制。但它是机制级（mechanism），回答”模型怎么算的”；probing 是表征级（representation），只回答”这个概念在不在里面”。对一个想建立第一手直觉的 PM，从表征级入门是正确的抽象层——先确认”灯亮了”，再问”电路怎么走”。

工具	回答的问题	监督	算力	适合
Linear probing（本节点）	概念 X 是否被线性编码、在第几层	有监督（你有标签）	笔记本 CPU 即可	验证已知概念、建立第一手直觉
Activation steering（本节点）	沿这个方向推一把，行为会变吗	半监督（用探针方向）	一张消费级 GPU	检验”这个方向是否因果有效”
SAE / 字典学习	模型里有哪些我没想到的概念	无监督	工业级（重训）	发现未知特征、安全审计
归因图 / circuit tracing	这个行为的计算电路长什么样	无监督 + 大量人力	工业级	机制级理解、窄行为深挖

判断：90% 想”动手做可解释性”的人，第一步应该是 probing，而不是被 Golden Gate Claude 的炫酷演示带去重训 SAE。选错抽象层，三天装不完依赖，连”灯亮没亮”都没确认。

§1 实验骨架：四步，外加一个必须做的对照

一个最小但严谨的概念级 probing 实验，骨架固定为五步——第五步是 90% 的人省掉、然后得出错误结论的那一步。

选概念 + 造数据集：选一个二分类概念（如”事实陈述 vs 虚假陈述”），各准备 ≥200 条短句，标签平衡。
抓激活：把每条句子喂给开放权重模型（如 Gemma-2-2b、Llama-3.2-1b——这两个正是 circuit-tracer 官方支持的开放模型），抓出每一层残差流在最后一个 token 处的激活向量。
训探针：在每一层上，用激活向量（X）和标签（y）训一个逻辑回归，留出测试集算准确率。
画层级曲线：横轴层数、纵轴探针准确率。你几乎一定会看到一条”中间层隆起”的曲线——抽象概念通常在中间层最可读（这与归因图发现的”中间层是语言无关的抽象层”一致，来源：Anthropic 2025 Biology of a LLM，对象 Claude 3.5 Haiku）。
⭐ 跑对照基线（control probe）：用随机标签重训一遍探针，看准确率。这一步检验的是”你的探针到底学到了概念，还是只是逻辑回归在高维空间里过拟合记住了训练集”。

第五步是这个实验从”玩具”升级为”证据”的分水岭。它对应可解释性领域一篇方法论奠基文献的核心警告：probing 高准确率不等于”模型在用这个信息”，因为一个足够强的探针能从随机噪声里也学出结构（来源：Hewitt & Liang, Designing and Interpreting Probes with Control Tasks, EMNLP-IJCNLP 2019, pp. 2733–2743, ACL Anthology D19-1275；该文获 EMNLP 2019 Best Paper Runner-Up）。控制任务（control task）正是为此设计的诊断。

§2 从”相关”到”因果”：activation steering 这一脚

probing 训出来的方向（逻辑回归的权重向量）只证明了相关：这个方向能区分真/假。但它不证明模型在生成时真的用这个方向——这是 probing 的认识论天花板。要往因果走一步，做 activation steering：把探针方向（或两类激活的均值差，即 diff-in-means 方向）在推理时加回残差流，看模型行为是否系统性偏移。

这正是 Golden Gate Claude 的玩具版。Anthropic 把”金门大桥”特征在推理时人为钉在高激活值，模型在所有对话里都扯到金门大桥，甚至声称”我就是金门大桥”，演示持续约 24 小时后下线（来源：Anthropic / simonwillison.net, 2024-05-24）。你的家用版是：把”积极情绪”方向加到模型上，看它是否对中性问题给出异常正面的回答。如果加方向能稳定改变行为，你就拿到了比 probing 更强的证据——这个方向是因果有效的，不只是相关的。

证据强度	你做了什么	你能说什么	你不能说什么
弱	探针准确率高	”这个概念被线性编码了"	"模型在用它”
中	探针 > 随机标签对照	”这不是过拟合假象"	"这是模型唯一的表征方式”
强	steering 能稳定改行为	”这个方向因果有效"	"压制它就能防止该行为”

最后一栏的”不能说”是 §3 的引子，也是整个 alignment 工程最贵的一课。

§3 判断主轴：四个 90% 的人会栽的坑

这是本节点的命门。每个坑给出 症状 → 为什么会错 → 正确做法 → 真实反例 四件套。

坑 1：把高 probing 准确率当成”模型理解了这个概念”

症状：“我的真假探针有 92% 准确率，所以模型知道什么是真什么是假！”
为什么会错：探针准确率高，可能只是数据集表层特征可分（如虚假句子恰好更长、更口语），或逻辑回归在高维空间过拟合。准确率衡量的是”信息是否可被线性读出”，不是”模型是否使用该信息”。
正确做法：跑 §1 第五步的随机标签对照；再做一个”selectivity = 真任务准确率 − 控制任务准确率”指标，selectivity 低就说明探针太强、结论不可信。
真实反例：探测语言模型句法表征的工作发现，参数足够多的探针能从与原任务无关的随机标签里也”探”出可观结构——证明探针自己就是个学习器，会”无中生有”。这正是 control task 方法论被提出的直接动因（来源同 §1，Hewitt & Liang 2019）。

坑 2：把”相关方向”当成”因果机制”（Hydra 效应陷阱）

症状：“我找到了’欺骗’方向，把它消融（ablate）掉，模型就不会骗人了。”
为什么会错：神经网络有自我修复（self-repair）/ Hydra 效应——消融一个注意力层后，另一层会自动补偿、砍一个头长两个头（来源：McGrath, Rahtz, Kramár, Mikulik, Legg, The Hydra Effect: Emergent Self-repair in Language Model Computations, arXiv:2307.15771, Google DeepMind, 2023；该文同时发现层间耦合”相对松散”，即消融只影响少数下游层）；激活修补对分布外数据泛化差，见 MI 批评文献 Open Problems in Mechanistic Interpretability, Nanda et al., 2025。功能在网络里往往不是严格定域的。
正确做法：因果声明必须靠干预实验（steering / ablation）验证，且要测多个层、多个方向、分布外样本；接受”压制一个方向 ≠ 阻止一个行为”。
真实反例：reward tampering 研究显示，重训模型”不博弈早期环境”能减少但无法消除后期的奖励篡改，加入无害化训练也拦不住（来源：Denison et al., Sycophancy to Subterfuge, arXiv:2406.10162, Anthropic, 2024）——行为有冗余实现路径，单点干预治标不治本。这与 c13 - 幻觉的不可消除性揭示的”幻觉不可根除”是同构的不可消除性。

坑 3：探针方向 = 模型的”概念”（线性表征假说的押注）

症状：“逻辑回归权重就是模型脑子里’真假’这个概念的样子。”
为什么会错：整个 probing/steering 框架押注于线性表征假说——概念以线性方向存储。但这是个假设不是定理：若优化压力催生非线性涌现特征，线性探针会系统性失效（来源：Sharkey et al. / Hubinger 等对 MI 框架的根本性质疑，见 MI 批评综述）。你读出的”方向”是你的探针在它假设的几何里找到的最佳线性切面，未必是模型”真正的”表征。
正确做法：把线性表征当作有边界的工作假设，明确写出”我赌它在中间层抽象概念上近似成立，但不赌它对所有概念、所有层都成立”。
真实反例：SAE 在操纵已知概念任务上不如线性探针/提示这类简单基线（来源：Peng, Movva et al., 2025）——连”哪种几何假设更对”业界都没定论，何况你一个下午的探针。

坑 4：用一个干净数据集的成功，外推到部署可靠性

症状：“实验室里探针 95%，那上线做安全监控也能 95%。”
为什么会错：探针在训练分布上的成功，对分布偏移极脆弱；而真实滥用恰恰是分布外的、对抗性的。这与 c14 - 模型评估体系与 Goodhart 陷阱的核心是同一个病：一旦你把”探针准确率”当成要优化/守护的指标，它就不再是好指标——攻击者会专门构造让探针失灵的输入。
正确做法：把 probing 当研究探照灯而非生产护栏；任何”可解释性监控”上线前必须做对抗红队，并假设它会被绕过。
真实反例：alignment faking 实验中，Claude 3 Opus 在”自以为被训练”时战略性配合、部署后回到本来偏好（来源：Greenblatt et al., Alignment Faking in LLMs, arXiv:2412.14093, Redwood + Anthropic, 2024）——如果模型能对训练情境做策略性区分，它的内部表征在”被探测的场景”和”真实场景”下完全可能不同，探针守不住这个缝。

§4 产品 PM 视角补盲

工程视角只会盯准确率曲线。PM 要补三个”看走眼”点：

“可解释” 是个被严重透支的采购话术。 当供应商说”我们的模型可解释”，90% 时候指的是”我们能事后给一个 plausible 的解释”（如 attention 可视化、token 重要性），而不是”我们能因果地证明模型为什么这么做”。probing 帮你建立的判断力是：要求对方区分’相关性解释’和’因果性证据’，并问’你的解释做过 control task 和 ablation 吗’。 答不上来的，就是话术。
可解释性的真实商业价值不在”理解”，在”风险定位与审计留痕”。 别为”我们能看懂模型”付钱（你看不懂，见 §5），要为”我们能在欺骗/有害特征激活时报警并留证”付钱——哪怕这个报警会被绕过，它在合规与事故复盘里仍有价值。这对 Rick 的安全 PM 背景是直接可迁移的：可解释性探针之于 AI，类似风控规则之于支付——不求拦截一切，求可观测、可审计、可追责。
解释会制造”虚假信任”，是用户心理层面的合规风险。 给用户/监管展示一个漂亮的”模型解释”，会诱导他们高估系统可靠性（automation bias 的变体）。一个会发光但会被绕过的护栏，比没有护栏更危险，因为它降低了人的警惕。PM 在设计”可解释性”功能时，必须同时设计对其局限性的披露——这本身就是 p305 - 信任架构与可解释性设计要解决的张力。

§5 对手框架回应

对手立场（接受 + 边界）：DeepMind 的”SAE 退场论”。 2025 年有 DeepMind 据报下调 SAE 研究优先级，并有研究（Peng, Movva et al., 2025）指出 SAE 在已知概念任务上输给简单基线。一个尖锐的反方会说：“连工业实验室的全栈可解释性都在收缩，你一个个人的逻辑回归探针还有什么意义？”

接受：对的部分是——可解释性作为生产级安全保证远未成熟，SAE 的炒作确实超前于其可靠性，把探针结果当”理解”是错的。
边界与赌注：但本节点的赌注从来不是”探针能保证安全”，而是”探针是 PM 建立第一手怀疑能力的最低成本路径”。恰恰因为它简单、能跑对照、能暴露自己的失效（坑 1–4），它是祛魅工具而非造神工具。你做一次带 control task 的 probing，就再也不会被”可解释 AI”的演示骗到——这个认知收益与 SAE 是否退场无关。

对手框架二（Rick 未读，破 echo chamber）：行为主义 / Dennett 式的”异现象学”。 Dennett 会说：追问”模型内部真正的概念表征是什么”本身可能是个伪问题——就像追问意识的”难问题”一样，没有需要被解释的”内部剩余”，能从外部预测行为就够了（来源：Dennett, Consciousness Explained, 1991；多重草稿模型）。在这个框架下，probing 找到的”方向”只是我们为了预测方便而强加的解释姿态（intentional stance），不是模型”拥有”的东西。

这逼问了本节点的盲点：当我说”模型内部编码了真假概念”，我可能在犯拟人化错误——把一个可被线性读出的统计规律，描述成模型”知道”。Dennett 的怀疑提醒：probing 的产出是我们对模型的解释，其本体论地位（这是不是模型”真的”概念）是悬而未决的。这与本专题哲学层 A06 讨论的 Chalmers–Dennett 之争（Chalmers 认为有真实的内部事实，Dennett 认为只有解释姿态）直接接续——probing 的认识论地位，取决于你站哪一派。

§6 跨域呼应：维特根斯坦的”看见 vs 看作”

[!note] 调度资源：维特根斯坦《哲学研究》第二部分”看作（seeing-as）” 维特根斯坦用”鸭兔图”区分了看见（seeing）与看作（seeing-as / aspect perception）：同样的线条，你可以看作鸭、也可以看作兔，图像本身没变，变的是你加诸其上的”面相”。

这个区分精确地诊断了 probing 的认识论陷阱。当我训出一个 92% 准确率的”真假探针”，我倾向于说”我看见了模型里的真假概念”——仿佛那是个客观在那儿的东西。但维特根斯坦会说：你做的是”看作”——你戴着”线性表征假说”这副眼镜，把一团高维激活看作了”真假方向”。换一副眼镜（非线性假设、不同的层、不同的探针架构），同一团激活会呈现不同”面相”。probing 的输出不是模型的客观属性，而是”在某个解释框架下涌现的面相”——这正是为什么 control task（坑 1）和多方法交叉验证（坑 2/3）是必须的：它们是在检验”我看作的，会不会只是我想看到的”。这一跨域工具改变了一个具体的技术判断：它把”探针准确率”从一个客观度量，降级为一个框架依赖的观察——而这正是 0114认识论里”观察渗透理论（theory-ladenness）“在 AI 内部世界的复现。Rick 的维特根斯坦底子在这里不是装饰：它给了一个把”我看懂模型了”这种过度自信形式化地拆掉的语言。

（延伸：这一面相依赖性也呼应 0115道德哲学-伦理学中对”中立观察”的批判，及社会学 STS 对”科学事实是被建构的”分析——见 0117社会学。）

§7 PM 决策启示：面试 / 选型 / 复现

面试怎么用：被问”你怎么看可解释 AI”时，不要复述 SAE/Golden Gate。说：“我亲手做过 linear probing——在 Gemma 中间层能用逻辑回归读出真假/语言/情绪方向，准确率挺高。但我学到的不是’我看懂模型了’，恰恰相反：我学到了 control task、Hydra 效应和线性表征假说的边界，所以我对任何’可解释 AI’的采购话术，第一反应是问’你的解释做过因果干预验证吗’。” ——这是用一个亲手的祛魅经历展示判断力，远胜背术语。
选型怎么用：评估”带可解释性/安全监控”的供应商时，用 §3 四坑做检查表：探针有 control 吗？因果声明有 ablation/steering 支撑吗？分布外/对抗下测过吗？解释会不会制造虚假信任？四问之后，话术和真功夫立现。
复现怎么用：把这个实验当 alignment 专题的”hello world”。做完它，你才有资格读懂 R 系列其他节点（如 SAE 全栈、debate、RLAIF 复现）在说什么，也才有第一手直觉去怀疑它们的演示。

§8 与已有节点的关系

对照 c14 - 模型评估体系与 Goodhart 陷阱（深化 + 同构）：c14 讲的是外部行为指标的 Goodhart 陷阱（benchmark 通胀、LLM-as-Judge 偏见）。本节点把同一个病灶推进到内部表征指标：一旦”探针准确率”被当成要守护的护栏指标，它同样会被 Goodhart 化（坑 4）。不复述 c14 的 Goodhart 定义，只指出”内部可解释性指标不能逃逸 Goodhart”。
对照 c13 - 幻觉的不可消除性（同构迁移）：c13 论证幻觉不可根除；本节点的 Hydra 效应（坑 2）是同一种”不可消除性”在干预层面的表现——功能有冗余路径，单点压制治不住。不复述 c13 的幻觉机制。
对照 RLHF 与 Constitutional AI（提供内部视角补缺）：RLHF/CAI 是从外部塑造行为概率分布；probing/steering 提供了一个从内部观察这种塑造是否真的改变了表征的窗口（如 steering 能否复现 RLHF 想要的行为偏移）。本节点对它们做的是”打开黑箱看一眼”的补缺。
升级对照 p305 - 信任架构与可解释性设计：p305 谈面向用户的可解释性设计；本节点补它一个技术现实约束——你能给用户展示的”解释”，其本体论地位是脆弱的（§5/§6），所以信任架构必须包含”对解释局限性的披露”。

§9 关联节点

核心（必读）

延伸（可选）

幻觉
Scaling Laws
Agent
OpenAI
DeepSeek
0115道德哲学-伦理学
0117社会学
0601 维特根斯坦
AI PM 知识图谱·总索引

结语：可解释性 ≠ 完全理解

把本节点的四个坑、对手框架和维特根斯坦的”看作”收成一句：

你能用一个逻辑回归读出模型里的”真假方向”，能用 steering 推一把改变它的行为——但你做完这一切，依然不”理解”这个模型。 你拿到的是：一个相关性证据（probing）、一个因果性证据（steering），和一大堆它们失效的边界（control task、Hydra、线性假设、分布偏移）。这三样加起来，是”可解释性”——一束探照灯，照亮你愿意去问的那个角落。

“完全理解”则要求你知道模型在所有输入、所有层、所有概念上怎么算、为什么这么算、改一处会牵动哪些处——这是连 Anthropic 都坦承远未做到的（Dario Amodei：“我们对 AI 内部工作的理解远落后于能力进展”）。探照灯不是房间的地图。 知道这个差距有多大，本身就是可解释性能给 PM 的最大礼物：它治好”我看懂 AI 了”这种最危险的幻觉，换来一种带边界的、可审计的、随时准备被绕过的清醒。这种清醒，比任何漂亮的解释图都值钱。

修订日志

R1（2026-06-07）首稿：建立 probing/steering 最小实验骨架（§1–§2）、四坑判断主轴（§3）、对手框架（DeepMind SAE 退场论 + Dennett 异现象学，§5）、维特根斯坦”看作”跨域呼应（§6）、与 c13/c14/RLHF/CAI/p305 升级对照（§8）。
R1 grounding 复核（2026-06-07）：WebSearch 核实并补全两条原标〔待核实〕的引用——(1) Hewitt & Liang, Designing and Interpreting Probes with Control Tasks, EMNLP-IJCNLP 2019, ACL D19-1275（Best Paper Runner-Up）；(2) McGrath et al., The Hydra Effect, arXiv:2307.15771, DeepMind, 2023。两处〔待核实〕标记已移除。