A06 系统提示工具护栏作为推理期后训练

一个 PM 在第二天上线压力下最常做的误判，不是”该不该改这个行为”，而是”改这个行为该花多大代价”——是写一段 system prompt，还是排一轮微调？本节点要解决的问题是：在模型权重冻结的前提下，system prompt、tool/function 定义、guardrails 这三件推理期工具，正在悄悄做着本来”应该在训练里做”的事。它们和训练期的 SFT/RLHF 不是替代关系，而是一条连续的”行为塑形光谱”上互补的两端。看不清这条光谱的边界，就会在两个方向上同时翻车：把一个 prompt 就能解决的问题拖去微调（贵、慢、还可能引入新偏差），或把一个必须写进权重的安全约束塞进 system prompt（脆、易泄露、一次注入就破)。这节用一个统一框架——“推理期后训练”（inference-time post-training）——来重新审视这三件工具，并给出”什么时候用提示、什么时候必须动权重”的判断主轴。

本节的视角与本专题核心命题一脉相承：后训练决策本质是伪装成训练决策的产品决策。而推理期工具是这个命题最赤裸的证据——因为它们连”训练”的外壳都没有，却在做训练该做的”应该”。

§0 为什么是”行为塑形光谱”这个框架，而不是”提示 vs 微调”的二分

读者脑子里默认的框架往往是一个二选一：要么写提示（轻、临时），要么微调（重、永久）。这个二分是错的，因为它把”行为从哪里来”和”行为有多稳”两个正交维度压成了一个。

更准确的框架是把所有行为塑形手段排在一条按”持久性 × 可绕过性”展开的光谱上：

层次	手段	行为载体	持久性	可绕过性
上下文注入	System prompt / operator instructions	自然语言指令、角色、权威层级	每次推理重置	高（注入/泄露/长上下文遗忘）
结构约束	Tool / Function 定义	JSON schema、接口契约、输出格式	每次推理重置	中（schema 约束本身降准确率）
过滤拦截	Guardrails（护栏）	输入/输出分类器、LLM-as-Judge	独立于权重	高（字符注入近 100% 绕过）
激活编辑	Activation Steering / Alignment Vectors	steering vectors、表示工程	推理时注入，权重不变	中（分布外鲁棒性未知）
权重内化	SFT / RLHF / Constitutional AI	梯度更新进权重	跨部署持续	低（需对抗训练才能破）

关键洞察：前四层做的事，和第五层（权重内化）想达成的目标高度重叠——都是”让模型在某情境下拒绝/追问/换语气/调用工具”。区别只在行为”长”在哪里。所以与其问”用提示还是微调”，不如问”这个行为需要多强的持久性和抗绕过性”。这才是 PM 该做的产品判断。

这也解释了为什么 Anthropic 的 Claude’s Constitution 与 OpenAI 的 Model Spec 会同时在训练期和推理期落地：Model Spec 既是 RLHF 标注员的 guideline（训练期内化），又是 system prompt 的母本（推理期激活）（来源：OpenAI Model Spec 2024-05-08，cdn.openai.com/spec；Anthropic Claude’s Constitution 2026-01-22）。同一份”产品规格书”双轨嵌入——这正是本专题反复强调的，guideline 本质是产品规格书，而不是技术文档。

§1 System Prompt：不是中立管道，而是会放大偏差的”权威位置”

PM 最容易把 system prompt 当成一根”中立的指令管道”——以为它只是把意图传进去。实证研究否定了这个直觉。

Neumann et al.（“Position is Power: System Prompts as a Mechanism of Bias in Large Language Models”，ACM FAccT 2025，arXiv:2505.21091）发现：在 Claude、GPT-4o、Gemini 上，放进 system prompt 的人口统计信息比放进 user prompt 的相同信息产生更强的偏见效应，且模型越大、差距越大——Claude-3.5-Sonnet 的偏差峰值 ΔBias 达 0.335。更细的发现是：系统级信息产生”行偏差”（受众身份主导），用户级信息产生”列偏差”（描述对象主导）。

产品含义很尖锐：system prompt 的”位置本身”就是一种行为塑形机制，而不只是它写了什么内容。这意味着 PM 写 system prompt 时不能只审内容是否中立，还要意识到”把某个属性放进系统层”这个动作本身会被模型当作更高权威来对待——这恰好是它能做”训练该做的事”的原因，也是它会无意中放大偏差的原因。

§2 Tool / Function 定义：结构约束是有成本的，不是免费的

第二个被低估的事实是：tool/function 定义不只是”接通外部系统”，它在悄悄重塑模型的核心推理能力。

证据有两类。其一，格式约束本身有推理税：Tam et al.（“Let Me Speak Freely? A Study on the Impact of Format Restrictions on Performance of Large Language Models”，arXiv:2408.02442，2024）系统验证了”在推理任务上，JSON-mode 等更严格的格式约束显著降低性能”，并提出 NL-to-Format（先自由生成、再转结构）来缓解。该研究报告的降幅在推理任务上约为 10–15 个百分点量级（注：网络上常被二手转引的”GSM8K 掉约 27 个百分点”这一更极端数字，在本次 WebSearch 中未能定位到原始出处，故此处以可核实的 10–15pp 量级为准，〔27pp 待核实〕）。其二，工具定义拉长上下文带来”context rot”：随上下文增长准确率普遍下降，且降幅高度依赖模型与负载——当工具响应从 10K 涨到 80K tokens 时，GPT-4o 约降 7%，部分开源模型降幅从约 30% 到约 91% 不等（来源：LongFuncEval, arXiv:2505.10570；“How Good Are LLMs at Processing Tool Outputs?”, arXiv:2510.15955；Chroma “Context Rot” 2025）。

PM 决策含义：当你为了”可预测的结构化输出”而上 tool 约束时，是在拿一部分推理准确率换可集成性和可审计性。这是个典型的产品 trade-off，而非纯工程细节。它和训练期的”对齐税”（alignment tax，见 RLHF）是同一类东西——为了某种”应该”（可控、安全、可解释）牺牲一点原始能力——只是这次发生在推理期、不改权重。

§3 Guardrails：可审计的安全层，但脆弱到近乎表演

第三件工具是护栏。它的卖点是”独立于模型权重的、可审计的安全层”——小到 86M 参数的 Meta Prompt Guard 都能低成本部署。但它的脆弱性被严重低估。

Hackett et al.（“Bypassing LLM Guardrails”，ACL Workshop LLMSec 2025，arXiv:2504.11168）对六个主流商业护栏系统（Azure Prompt Shield、Meta Prompt Guard、ProtectAI、NeMo Guard、Vijil 等）做了系统逃逸测试：Emoji 走私攻击逃逸成功率达 100%，双向文本攻击 99.23%，Unicode 标签走私 90.15%。根因是护栏分类器与底层 LLM 训练数据分布不同，编码变换后出现检测盲区。同时，System Prompt Leakage 已被列入 OWASP LLM Top 10 2025 第 7 条（LLM07:2025），多种编码（Base64、ROT13、Emoji）可诱导主流模型泄露系统提示（来源：OWASP genai.owasp.org/llm-top-10）。

产品含义：护栏适合做”可审计的合规外壳”和”已知攻击的第一道筛”，但绝不能当作唯一安全保证。真正的硬约束（如绝不提供生化武器实质性协助）必须内化进权重——这正是 Anthropic Constitution 把 hard limits 写进训练目标、而非仅靠推理期拦截的原因（来源：Anthropic Claude’s Constitution，2026-01-22）。

§4 边界关系：推理期能修复训练退化，但不能替代训练对齐

这是本节最重要的一条”接地”判断，它把”提示 vs 微调”的二分彻底打掉。

Lyu et al.（“Keeping LLMs Aligned After Fine-tuning: The Crucial Role of Prompt Templates”，NeurIPS 2024，arXiv:2402.18540）提出 PTST 策略（Pure Tuning, Safe Testing）：训练时不加安全 system prompt、部署时加上——在 Llama 2-Chat、Mistral 7B、GPT-3.5 Turbo 上显著减少微调后的不安全行为，同时保持任务性能。他们同时确认了 Qi et al. 的发现：即便在良性数据上微调，也可能破坏既有对齐。

两条事实合起来给出一个精确的边界：

训练期对齐可以被后续微调破坏；
推理期 system prompt 可以在一定程度上修复这种退化；
但推理期机制的安全上限受制于训练期内化的程度——修复不等于替代。

这正是”互补而非对等”的实证依据。InferAligner（Wang et al., arXiv:2401.11206, 2024）和 Alignment Vectors（Shahriar et al., arXiv:2410.19206, 2024）进一步显示：推理期 activation steering 能在不重训练的前提下降低有害指令成功率，且 Alignment Vectors 比 prompt engineering 省 50% 推理成本、比重训练快 12 倍。这说明光谱中间层（激活编辑）正在成为”比提示更稳、比微调更轻”的第三选项。

判断主轴：90% 的人在”提示 vs 微调”边界上搞错的四件事

这一节是本节点的命门。每件事都给出”症状 → 为什么会错 → 正确做法 → 真实反例”。

错位一：把”可用 prompt 解决的”当成”必须微调的”，过度工程化。

症状：模型偶尔语气太硬，团队立刻排一轮 SFT。
为什么会错：把”行为偏差”误判为”能力缺失”。语气、格式、角色这类”风格层”行为，是 system prompt 的主场——它本就在做”训练该做的应该”。
正确做法：先用 system prompt + few-shot 验证行为可塑性；只有当 prompt 反复失效（被遗忘、被注入、长上下文漂移）才升级到微调。
真实反例：PTST（Lyu et al. NeurIPS 2024）证明，部署期加一段安全 system prompt 就能修复大部分微调退化——很多团队却跳过这步直接重训。

错位二：反过来——把”必须微调的”塞进 prompt，过度依赖推理期。

症状：把核心安全红线全写进 system prompt，靠护栏兜底。
为什么会错：推理期机制可绕过性极高——护栏 100% 被 emoji 走私绕过（Hackett et al. 2025），system prompt 可被诱导泄露（OWASP LLM07:2025）。
正确做法：硬约束（hard limits）必须内化进权重；推理期只做”动态调节 + 第一道筛”。
真实反例：Anthropic 把”绝不协助生化武器”写进 Constitution 训练目标，而非仅靠运行时拦截（来源：Claude’s Constitution 2026-01-22）——因为他们清楚推理期护栏挡不住有动机的对抗者。

错位三：把 tool/function 定义当”免费的接通器”，无视能力损耗。

症状：为了结构化输出，给所有任务都套 JSON schema 强约束。
为什么会错：格式约束有实打实的推理税——JSON-mode 在推理任务上约掉 10–15pp（Tam et al. arXiv:2408.02442, 2024）。
正确做法：区分”需要结构化集成”和”需要最强推理”的任务，前者上 tool 约束，后者保留自由生成或用自然语言工具（NL Tools）路线。
真实反例：超长工具响应下，部分开源模型准确率最高掉约 91%（LongFuncEval, arXiv:2505.10570）——一个塞满 tool 定义、长上下文的 agent，推理能力可能反而不如裸模型。

错位四：把 system prompt 当”中立指令”，忽视它放大偏差。

症状：在 system prompt 里写”假设用户是 X 群体”以做个性化，以为只是设定语境。
为什么会错：系统层信息比用户层产生更强偏见效应（Neumann et al. FAccT 2025，Claude-3.5-Sonnet ΔBias 0.335）——位置本身即权力。
正确做法：把人口统计类敏感属性下放到 user/context 层，或做偏差审计；system 层只放真正的全局规则。
真实反例：同一句人口统计描述放 system 比放 user 产生”行偏差”放大——很多个性化产品在 system prompt 里植入用户画像，无意中系统性地放大了对某些群体的差别对待。

产品 PM 视角补盲

工程视角只看”行为对不对”，产品视角要看三个被忽略的盲点：

成本结构错配：推理期塑形把成本从”一次性训练 capex”转成”每次调用 opex”。一段长 system prompt 或一堆 tool 定义，是每个请求都要付的 token 税（参见 m209 - 推理成本控制手册）。高 QPS 产品下，“省了微调”可能”亏在推理”。
可泄露 = 商业机密风险：system prompt 常封装产品的核心 know-how（角色设定、工作流、差异化逻辑），而它可被诱导泄露（OWASP LLM07:2025）。把竞争壁垒写进 system prompt，等于把图纸贴在可被撬开的玻璃柜里。
合规张力：OpenAI Model Spec 的”拒绝不说理由”哲学（“Refusals should be kept to a sentence and never be preachy”）与 EU AI Act 的可解释性要求存在潜在冲突。推理期护栏的”黑箱拦截”在受监管行业可能不被接受——这是 GTM 层面的边界，不是工程问题。

对手框架回应

对手立场一（prompt-first 阵营）：system prompt 足够，RLHF 是过度工程。 接受：PTST（Lyu et al. NeurIPS 2024）确实证明推理期提示能弥补不少退化，许多产品团队以 prompt engineering 为主、成本更低，这是对的。边界：但 system prompt 可被遗忘（长上下文注意力衰减）、可被注入覆盖、可被泄露；训练期内化的价值观在对抗场景下显著更鲁棒。两者有效性阈值是否随模型规模变化，目前缺乏大规模跨模型系统比较——这是我赌注的薄弱处。

对手立场二（护栏供应商阵营）：guardrails 提供独立可审计的安全层。 接受：护栏确实提供了独立于权重的、小成本可部署的合规层，对已知攻击有效。边界：Hackett et al. 2025 证明主流商业护栏可被字符注入以近 100% 成功率绕过；且逃逸率数据多来自研究者构建的攻击集，真实部署分布是否匹配尚无公开基准。我的判断是：护栏是”合规表演 + 第一道筛”，不是充分条件。

Rick 未读的对手框架引入（破 echo chamber）：

B.C. Smith 的”判断 vs 计算”区分（《On the Origin of Objects》/《The Promise of AI》）：Smith 会质疑——把”应该拒绝什么”编码进 system prompt 或护栏分类器，是把需要”judgment”（情境判断）的事降维成”reckoning”（机械计算）。推理期护栏的词汇过拟合（对”kill”超敏感而无视语境，见 XSTest, Röttger et al. NAACL 2024）正是这种降维的代价。这对本节点的逼问是：任何脱离情境的规则化塑形，都会在边界情形系统性失灵——无论它在训练期还是推理期。
Lon Fuller 的”法的内在道德”（《The Morality of Law》）：Fuller 论证规则要”可被遵守”必须满足公开、一致、不溯及既往等内在条件。把这套法理学套到 system prompt 三层权威结构（Platform > Developer > User）上会发现：当 Developer 可覆盖 User 指令时，用户其实无法预知自己面对的是哪套规则——这是个”内在道德”缺陷，不是技术 bug。这逼问本节点别只谈”塑形是否有效”，还要谈”塑形是否正当”。

跨域呼应

调度 维特根斯坦的”规则遵循悖论”（《哲学研究》§201）。维氏论证：任何规则都不能完全决定其自身的应用——总存在一个把规则解释成”任何行为都符合它”的方式。这对”推理期后训练”是致命的诊断：system prompt 写”要有帮助但要安全”，护栏写”拦截有害内容”——这些都是规则，而规则无法自我决定边界。模型对”kill”的词汇过拟合（XSTest）、护栏被 emoji 重新解释而绕过（Hackett et al. 2025），本质都是”规则遵循悖论”的工程显形：没有任何文本规则能穷尽它的正确应用，应用本身需要被训练进一种”实践”（Praxis）。这正是为什么硬约束必须沉淀进权重的”实践层”，而非停留在 prompt 的”规则层”——权重内化某种意义上就是把规则煮成了维氏所说的”生活形式”。详见 0114认识论、0115道德哲学-伦理学。

PM 决策启示

面试怎么用：被问”这个 badcase 怎么修”，不要直接答”微调”或”改 prompt”。先反问”这个行为需要多强的持久性和抗绕过性”，再在光谱上定位——这一句就把你和只会调参的候选人区分开。
选型怎么用：评估一个对齐方案，列三问——(1) 它长在权重还是上下文？(2) 它的绕过成本是多少（看 OWASP/逃逸率）？(3) 它的每请求 opex 是多少？三问答完，“提示 vs 微调”的伪二分自动消解。
复现怎么用：搭 agent 时先做”裸模型 vs 加 tool 定义”的能力对照测试（如 GSM8K），量化你的结构约束付了多少推理税，再决定哪些任务值得这个税。

与已有节点的关系

对照 c04 - 模型训练全阶段 Pipeline：c04 讲的是”行为如何长进权重”（预训练→SFT→RLHF/DPO）。本节点做的是补缺——补上 c04 没覆盖的”权重冻结后还能怎样塑形行为”这一整层，并指出推理期与训练期是一条连续光谱而非两个孤立阶段。不复述 c04 的 pipeline 细节。
对照 c15 - 数据墙与后训练霸权：c15 讲后训练为何成为竞争主战场。本节点做深化——指出后训练的”战场”不止于权重内化，推理期塑形（system prompt 即产品规格、护栏即合规层）是同一场仗在运行时的延伸。
对照 p305 - 信任架构与可解释性设计：p305 讲信任如何被设计。本节点做对话——护栏的”黑箱拦截”与 Model Spec 的”拒绝不说理由”哲学，正是 p305 信任架构的反面教材：可解释性与拒答简洁性之间存在结构张力。
对照评测系统化专题的相关节点：0412 讲评测中的 Goodhart——奖励黑客让代理指标失真。本节点做升级对照：推理期护栏被绕过、system prompt 放大偏差，是 Goodhart 机制在”非训练塑形”上的同构显形——评测里 reward model 被 hack，运行时 guardrail 被 emoji 走私 hack，都是”代理约束被对抗性优化击穿”。不复述 0412 的 reward hacking 细节。

关联节点

核心（必读）

c04 - 模型训练全阶段 Pipeline —— 行为如何长进权重，本节点的训练期对照面
c15 - 数据墙与后训练霸权 —— 后训练为何是竞争主战场
RLHF —— 对齐税、Reward Hacking、五类失败模式的主条目
Constitutional AI —— hard limits 内化进权重 vs 推理期拦截的范式
p305 - 信任架构与可解释性设计 —— 护栏黑箱与拒答哲学的信任张力

延伸（可选）

p306 - 数据飞轮与反馈回路设计 —— system prompt 行为反馈如何回流训练
m209 - 推理成本控制手册 —— 推理期塑形的 opex 成本结构
0114认识论 —— 维特根斯坦规则遵循悖论的入口
0115道德哲学-伦理学 —— Fuller 法的内在道德、塑形正当性
Anthropic / OpenAI / Claude / ChatGPT —— Constitution 与 Model Spec 的双轨实践主体
AI PM 知识图谱·总索引 —— 回到总图

修订日志

R0（2026-06-07）：首稿。建立”行为塑形光谱”统一框架，落地四错位判断主轴，接入 Neumann/Hackett/Lyu 三组实证，引入 B.C. Smith 与 Lon Fuller 两个未读对手框架，跨域调度维特根斯坦规则遵循悖论。
R0.1（2026-06-07）：grounding pass。原简报转引的”JSON 让 GSM8K 掉约 27.3pp”未能定位原始出处，降级为 Tam et al.(arXiv:2408.02442) 可核实的 10–15pp 量级，并标〔27pp 待核实〕；长上下文工具降幅改用 LongFuncEval(arXiv:2505.10570) 与 arXiv:2510.15955 的真实分模型数据（GPT-4o 约 7%、开源模型约 30–91%），替换原”最高 50pp”的笼统表述。
2026-06-11 P3.4 校链：跨专题死链 0412 评测体系系统化专题→评测系统化专题（§9 升级对照段 1 处）。

A06 系统提示 工具 护栏作为推理期后训练

A06 系统提示 工具 护栏作为推理期后训练

§0 为什么是”行为塑形光谱”这个框架，而不是”提示 vs 微调”的二分

§1 System Prompt：不是中立管道，而是会放大偏差的”权威位置”

§2 Tool / Function 定义：结构约束是有成本的，不是免费的

§3 Guardrails：可审计的安全层，但脆弱到近乎表演

§4 边界关系：推理期能修复训练退化，但不能替代训练对齐

判断主轴：90% 的人在”提示 vs 微调”边界上搞错的四件事

产品 PM 视角补盲

对手框架回应

跨域呼应

PM 决策启示

与已有节点的关系

关联节点

修订日志

A06 系统提示工具护栏作为推理期后训练

A06 系统提示工具护栏作为推理期后训练