A06 系统提示 工具 护栏作为推理期后训练
A06 系统提示 工具 护栏作为推理期后训练
一个 PM 在第二天上线压力下最常做的误判,不是”该不该改这个行为”,而是”改这个行为该花多大代价”——是写一段 system prompt,还是排一轮微调?本节点要解决的问题是:在模型权重冻结的前提下,system prompt、tool/function 定义、guardrails 这三件推理期工具,正在悄悄做着本来”应该在训练里做”的事。它们和训练期的 SFT/RLHF 不是替代关系,而是一条连续的”行为塑形光谱”上互补的两端。看不清这条光谱的边界,就会在两个方向上同时翻车:把一个 prompt 就能解决的问题拖去微调(贵、慢、还可能引入新偏差),或把一个必须写进权重的安全约束塞进 system prompt(脆、易泄露、一次注入就破)。这节用一个统一框架——“推理期后训练”(inference-time post-training)——来重新审视这三件工具,并给出”什么时候用提示、什么时候必须动权重”的判断主轴。
本节的视角与本专题核心命题一脉相承:后训练决策本质是伪装成训练决策的产品决策。而推理期工具是这个命题最赤裸的证据——因为它们连”训练”的外壳都没有,却在做训练该做的”应该”。
§0 为什么是”行为塑形光谱”这个框架,而不是”提示 vs 微调”的二分
读者脑子里默认的框架往往是一个二选一:要么写提示(轻、临时),要么微调(重、永久)。这个二分是错的,因为它把”行为从哪里来”和”行为有多稳”两个正交维度压成了一个。
更准确的框架是把所有行为塑形手段排在一条按”持久性 × 可绕过性”展开的光谱上:
| 层次 | 手段 | 行为载体 | 持久性 | 可绕过性 |
|---|---|---|---|---|
| 上下文注入 | System prompt / operator instructions | 自然语言指令、角色、权威层级 | 每次推理重置 | 高(注入/泄露/长上下文遗忘) |
| 结构约束 | Tool / Function 定义 | JSON schema、接口契约、输出格式 | 每次推理重置 | 中(schema 约束本身降准确率) |
| 过滤拦截 | Guardrails(护栏) | 输入/输出分类器、LLM-as-Judge | 独立于权重 | 高(字符注入近 100% 绕过) |
| 激活编辑 | Activation Steering / Alignment Vectors | steering vectors、表示工程 | 推理时注入,权重不变 | 中(分布外鲁棒性未知) |
| 权重内化 | SFT / RLHF / Constitutional AI | 梯度更新进权重 | 跨部署持续 | 低(需对抗训练才能破) |
关键洞察:前四层做的事,和第五层(权重内化)想达成的目标高度重叠——都是”让模型在某情境下拒绝/追问/换语气/调用工具”。区别只在行为”长”在哪里。所以与其问”用提示还是微调”,不如问”这个行为需要多强的持久性和抗绕过性”。这才是 PM 该做的产品判断。
这也解释了为什么 Anthropic 的 Claude’s Constitution 与 OpenAI 的 Model Spec 会同时在训练期和推理期落地:Model Spec 既是 RLHF 标注员的 guideline(训练期内化),又是 system prompt 的母本(推理期激活)(来源:OpenAI Model Spec 2024-05-08,cdn.openai.com/spec;Anthropic Claude’s Constitution 2026-01-22)。同一份”产品规格书”双轨嵌入——这正是本专题反复强调的,guideline 本质是产品规格书,而不是技术文档。
§1 System Prompt:不是中立管道,而是会放大偏差的”权威位置”
PM 最容易把 system prompt 当成一根”中立的指令管道”——以为它只是把意图传进去。实证研究否定了这个直觉。
Neumann et al.(“Position is Power: System Prompts as a Mechanism of Bias in Large Language Models”,ACM FAccT 2025,arXiv:2505.21091)发现:在 Claude、GPT-4o、Gemini 上,放进 system prompt 的人口统计信息比放进 user prompt 的相同信息产生更强的偏见效应,且模型越大、差距越大——Claude-3.5-Sonnet 的偏差峰值 ΔBias 达 0.335。更细的发现是:系统级信息产生”行偏差”(受众身份主导),用户级信息产生”列偏差”(描述对象主导)。
产品含义很尖锐:system prompt 的”位置本身”就是一种行为塑形机制,而不只是它写了什么内容。这意味着 PM 写 system prompt 时不能只审内容是否中立,还要意识到”把某个属性放进系统层”这个动作本身会被模型当作更高权威来对待——这恰好是它能做”训练该做的事”的原因,也是它会无意中放大偏差的原因。
§2 Tool / Function 定义:结构约束是有成本的,不是免费的
第二个被低估的事实是:tool/function 定义不只是”接通外部系统”,它在悄悄重塑模型的核心推理能力。
证据有两类。其一,格式约束本身有推理税:Tam et al.(“Let Me Speak Freely? A Study on the Impact of Format Restrictions on Performance of Large Language Models”,arXiv:2408.02442,2024)系统验证了”在推理任务上,JSON-mode 等更严格的格式约束显著降低性能”,并提出 NL-to-Format(先自由生成、再转结构)来缓解。该研究报告的降幅在推理任务上约为 10–15 个百分点量级(注:网络上常被二手转引的”GSM8K 掉约 27 个百分点”这一更极端数字,在本次 WebSearch 中未能定位到原始出处,故此处以可核实的 10–15pp 量级为准,〔27pp 待核实〕)。其二,工具定义拉长上下文带来”context rot”:随上下文增长准确率普遍下降,且降幅高度依赖模型与负载——当工具响应从 10K 涨到 80K tokens 时,GPT-4o 约降 7%,部分开源模型降幅从约 30% 到约 91% 不等(来源:LongFuncEval, arXiv:2505.10570;“How Good Are LLMs at Processing Tool Outputs?”, arXiv:2510.15955;Chroma “Context Rot” 2025)。
PM 决策含义:当你为了”可预测的结构化输出”而上 tool 约束时,是在拿一部分推理准确率换可集成性和可审计性。这是个典型的产品 trade-off,而非纯工程细节。它和训练期的”对齐税”(alignment tax,见 RLHF)是同一类东西——为了某种”应该”(可控、安全、可解释)牺牲一点原始能力——只是这次发生在推理期、不改权重。
§3 Guardrails:可审计的安全层,但脆弱到近乎表演
第三件工具是护栏。它的卖点是”独立于模型权重的、可审计的安全层”——小到 86M 参数的 Meta Prompt Guard 都能低成本部署。但它的脆弱性被严重低估。
Hackett et al.(“Bypassing LLM Guardrails”,ACL Workshop LLMSec 2025,arXiv:2504.11168)对六个主流商业护栏系统(Azure Prompt Shield、Meta Prompt Guard、ProtectAI、NeMo Guard、Vijil 等)做了系统逃逸测试:Emoji 走私攻击逃逸成功率达 100%,双向文本攻击 99.23%,Unicode 标签走私 90.15%。根因是护栏分类器与底层 LLM 训练数据分布不同,编码变换后出现检测盲区。同时,System Prompt Leakage 已被列入 OWASP LLM Top 10 2025 第 7 条(LLM07:2025),多种编码(Base64、ROT13、Emoji)可诱导主流模型泄露系统提示(来源:OWASP genai.owasp.org/llm-top-10)。
产品含义:护栏适合做”可审计的合规外壳”和”已知攻击的第一道筛”,但绝不能当作唯一安全保证。真正的硬约束(如绝不提供生化武器实质性协助)必须内化进权重——这正是 Anthropic Constitution 把 hard limits 写进训练目标、而非仅靠推理期拦截的原因(来源:Anthropic Claude’s Constitution,2026-01-22)。
§4 边界关系:推理期能修复训练退化,但不能替代训练对齐
这是本节最重要的一条”接地”判断,它把”提示 vs 微调”的二分彻底打掉。
Lyu et al.(“Keeping LLMs Aligned After Fine-tuning: The Crucial Role of Prompt Templates”,NeurIPS 2024,arXiv:2402.18540)提出 PTST 策略(Pure Tuning, Safe Testing):训练时不加安全 system prompt、部署时加上——在 Llama 2-Chat、Mistral 7B、GPT-3.5 Turbo 上显著减少微调后的不安全行为,同时保持任务性能。他们同时确认了 Qi et al. 的发现:即便在良性数据上微调,也可能破坏既有对齐。
两条事实合起来给出一个精确的边界:
- 训练期对齐可以被后续微调破坏;
- 推理期 system prompt 可以在一定程度上修复这种退化;
- 但推理期机制的安全上限受制于训练期内化的程度——修复不等于替代。
这正是”互补而非对等”的实证依据。InferAligner(Wang et al., arXiv:2401.11206, 2024)和 Alignment Vectors(Shahriar et al., arXiv:2410.19206, 2024)进一步显示:推理期 activation steering 能在不重训练的前提下降低有害指令成功率,且 Alignment Vectors 比 prompt engineering 省 50% 推理成本、比重训练快 12 倍。这说明光谱中间层(激活编辑)正在成为”比提示更稳、比微调更轻”的第三选项。
判断主轴:90% 的人在”提示 vs 微调”边界上搞错的四件事
这一节是本节点的命门。每件事都给出”症状 → 为什么会错 → 正确做法 → 真实反例”。
错位一:把”可用 prompt 解决的”当成”必须微调的”,过度工程化。
- 症状:模型偶尔语气太硬,团队立刻排一轮 SFT。
- 为什么会错:把”行为偏差”误判为”能力缺失”。语气、格式、角色这类”风格层”行为,是 system prompt 的主场——它本就在做”训练该做的应该”。
- 正确做法:先用 system prompt + few-shot 验证行为可塑性;只有当 prompt 反复失效(被遗忘、被注入、长上下文漂移)才升级到微调。
- 真实反例:PTST(Lyu et al. NeurIPS 2024)证明,部署期加一段安全 system prompt 就能修复大部分微调退化——很多团队却跳过这步直接重训。
错位二:反过来——把”必须微调的”塞进 prompt,过度依赖推理期。
- 症状:把核心安全红线全写进 system prompt,靠护栏兜底。
- 为什么会错:推理期机制可绕过性极高——护栏 100% 被 emoji 走私绕过(Hackett et al. 2025),system prompt 可被诱导泄露(OWASP LLM07:2025)。
- 正确做法:硬约束(hard limits)必须内化进权重;推理期只做”动态调节 + 第一道筛”。
- 真实反例:Anthropic 把”绝不协助生化武器”写进 Constitution 训练目标,而非仅靠运行时拦截(来源:Claude’s Constitution 2026-01-22)——因为他们清楚推理期护栏挡不住有动机的对抗者。
错位三:把 tool/function 定义当”免费的接通器”,无视能力损耗。
- 症状:为了结构化输出,给所有任务都套 JSON schema 强约束。
- 为什么会错:格式约束有实打实的推理税——JSON-mode 在推理任务上约掉 10–15pp(Tam et al. arXiv:2408.02442, 2024)。
- 正确做法:区分”需要结构化集成”和”需要最强推理”的任务,前者上 tool 约束,后者保留自由生成或用自然语言工具(NL Tools)路线。
- 真实反例:超长工具响应下,部分开源模型准确率最高掉约 91%(LongFuncEval, arXiv:2505.10570)——一个塞满 tool 定义、长上下文的 agent,推理能力可能反而不如裸模型。
错位四:把 system prompt 当”中立指令”,忽视它放大偏差。
- 症状:在 system prompt 里写”假设用户是 X 群体”以做个性化,以为只是设定语境。
- 为什么会错:系统层信息比用户层产生更强偏见效应(Neumann et al. FAccT 2025,Claude-3.5-Sonnet ΔBias 0.335)——位置本身即权力。
- 正确做法:把人口统计类敏感属性下放到 user/context 层,或做偏差审计;system 层只放真正的全局规则。
- 真实反例:同一句人口统计描述放 system 比放 user 产生”行偏差”放大——很多个性化产品在 system prompt 里植入用户画像,无意中系统性地放大了对某些群体的差别对待。
产品 PM 视角补盲
工程视角只看”行为对不对”,产品视角要看三个被忽略的盲点:
- 成本结构错配:推理期塑形把成本从”一次性训练 capex”转成”每次调用 opex”。一段长 system prompt 或一堆 tool 定义,是每个请求都要付的 token 税(参见 m209 - 推理成本控制手册)。高 QPS 产品下,“省了微调”可能”亏在推理”。
- 可泄露 = 商业机密风险:system prompt 常封装产品的核心 know-how(角色设定、工作流、差异化逻辑),而它可被诱导泄露(OWASP LLM07:2025)。把竞争壁垒写进 system prompt,等于把图纸贴在可被撬开的玻璃柜里。
- 合规张力:OpenAI Model Spec 的”拒绝不说理由”哲学(“Refusals should be kept to a sentence and never be preachy”)与 EU AI Act 的可解释性要求存在潜在冲突。推理期护栏的”黑箱拦截”在受监管行业可能不被接受——这是 GTM 层面的边界,不是工程问题。
对手框架回应
对手立场一(prompt-first 阵营):system prompt 足够,RLHF 是过度工程。 接受:PTST(Lyu et al. NeurIPS 2024)确实证明推理期提示能弥补不少退化,许多产品团队以 prompt engineering 为主、成本更低,这是对的。边界:但 system prompt 可被遗忘(长上下文注意力衰减)、可被注入覆盖、可被泄露;训练期内化的价值观在对抗场景下显著更鲁棒。两者有效性阈值是否随模型规模变化,目前缺乏大规模跨模型系统比较——这是我赌注的薄弱处。
对手立场二(护栏供应商阵营):guardrails 提供独立可审计的安全层。 接受:护栏确实提供了独立于权重的、小成本可部署的合规层,对已知攻击有效。边界:Hackett et al. 2025 证明主流商业护栏可被字符注入以近 100% 成功率绕过;且逃逸率数据多来自研究者构建的攻击集,真实部署分布是否匹配尚无公开基准。我的判断是:护栏是”合规表演 + 第一道筛”,不是充分条件。
Rick 未读的对手框架引入(破 echo chamber):
- B.C. Smith 的”判断 vs 计算”区分(《On the Origin of Objects》/《The Promise of AI》):Smith 会质疑——把”应该拒绝什么”编码进 system prompt 或护栏分类器,是把需要”judgment”(情境判断)的事降维成”reckoning”(机械计算)。推理期护栏的词汇过拟合(对”kill”超敏感而无视语境,见 XSTest, Röttger et al. NAACL 2024)正是这种降维的代价。这对本节点的逼问是:任何脱离情境的规则化塑形,都会在边界情形系统性失灵——无论它在训练期还是推理期。
- Lon Fuller 的”法的内在道德”(《The Morality of Law》):Fuller 论证规则要”可被遵守”必须满足公开、一致、不溯及既往等内在条件。把这套法理学套到 system prompt 三层权威结构(Platform > Developer > User)上会发现:当 Developer 可覆盖 User 指令时,用户其实无法预知自己面对的是哪套规则——这是个”内在道德”缺陷,不是技术 bug。这逼问本节点别只谈”塑形是否有效”,还要谈”塑形是否正当”。
跨域呼应
调度 维特根斯坦的”规则遵循悖论”(《哲学研究》§201)。维氏论证:任何规则都不能完全决定其自身的应用——总存在一个把规则解释成”任何行为都符合它”的方式。这对”推理期后训练”是致命的诊断:system prompt 写”要有帮助但要安全”,护栏写”拦截有害内容”——这些都是规则,而规则无法自我决定边界。模型对”kill”的词汇过拟合(XSTest)、护栏被 emoji 重新解释而绕过(Hackett et al. 2025),本质都是”规则遵循悖论”的工程显形:没有任何文本规则能穷尽它的正确应用,应用本身需要被训练进一种”实践”(Praxis)。这正是为什么硬约束必须沉淀进权重的”实践层”,而非停留在 prompt 的”规则层”——权重内化某种意义上就是把规则煮成了维氏所说的”生活形式”。详见 0114认识论、0115道德哲学-伦理学。
PM 决策启示
- 面试怎么用:被问”这个 badcase 怎么修”,不要直接答”微调”或”改 prompt”。先反问”这个行为需要多强的持久性和抗绕过性”,再在光谱上定位——这一句就把你和只会调参的候选人区分开。
- 选型怎么用:评估一个对齐方案,列三问——(1) 它长在权重还是上下文?(2) 它的绕过成本是多少(看 OWASP/逃逸率)?(3) 它的每请求 opex 是多少?三问答完,“提示 vs 微调”的伪二分自动消解。
- 复现怎么用:搭 agent 时先做”裸模型 vs 加 tool 定义”的能力对照测试(如 GSM8K),量化你的结构约束付了多少推理税,再决定哪些任务值得这个税。
与已有节点的关系
- 对照 c04 - 模型训练全阶段 Pipeline:c04 讲的是”行为如何长进权重”(预训练→SFT→RLHF/DPO)。本节点做的是补缺——补上 c04 没覆盖的”权重冻结后还能怎样塑形行为”这一整层,并指出推理期与训练期是一条连续光谱而非两个孤立阶段。不复述 c04 的 pipeline 细节。
- 对照 c15 - 数据墙与后训练霸权:c15 讲后训练为何成为竞争主战场。本节点做深化——指出后训练的”战场”不止于权重内化,推理期塑形(system prompt 即产品规格、护栏即合规层)是同一场仗在运行时的延伸。
- 对照 p305 - 信任架构与可解释性设计:p305 讲信任如何被设计。本节点做对话——护栏的”黑箱拦截”与 Model Spec 的”拒绝不说理由”哲学,正是 p305 信任架构的反面教材:可解释性与拒答简洁性之间存在结构张力。
- 对照 评测系统化专题 的相关节点:0412 讲评测中的 Goodhart——奖励黑客让代理指标失真。本节点做升级对照:推理期护栏被绕过、system prompt 放大偏差,是 Goodhart 机制在”非训练塑形”上的同构显形——评测里 reward model 被 hack,运行时 guardrail 被 emoji 走私 hack,都是”代理约束被对抗性优化击穿”。不复述 0412 的 reward hacking 细节。
关联节点
核心(必读)
- c04 - 模型训练全阶段 Pipeline —— 行为如何长进权重,本节点的训练期对照面
- c15 - 数据墙与后训练霸权 —— 后训练为何是竞争主战场
- RLHF —— 对齐税、Reward Hacking、五类失败模式的主条目
- Constitutional AI —— hard limits 内化进权重 vs 推理期拦截的范式
- p305 - 信任架构与可解释性设计 —— 护栏黑箱与拒答哲学的信任张力
延伸(可选)
- p306 - 数据飞轮与反馈回路设计 —— system prompt 行为反馈如何回流训练
- m209 - 推理成本控制手册 —— 推理期塑形的 opex 成本结构
- 0114认识论 —— 维特根斯坦规则遵循悖论的入口
- 0115道德哲学-伦理学 —— Fuller 法的内在道德、塑形正当性
- Anthropic / OpenAI / Claude / ChatGPT —— Constitution 与 Model Spec 的双轨实践主体
- AI PM 知识图谱·总索引 —— 回到总图
修订日志
- R0(2026-06-07):首稿。建立”行为塑形光谱”统一框架,落地四错位判断主轴,接入 Neumann/Hackett/Lyu 三组实证,引入 B.C. Smith 与 Lon Fuller 两个未读对手框架,跨域调度维特根斯坦规则遵循悖论。
- R0.1(2026-06-07):grounding pass。原简报转引的”JSON 让 GSM8K 掉约 27.3pp”未能定位原始出处,降级为 Tam et al.(arXiv:2408.02442) 可核实的 10–15pp 量级,并标〔27pp 待核实〕;长上下文工具降幅改用 LongFuncEval(arXiv:2505.10570) 与 arXiv:2510.15955 的真实分模型数据(GPT-4o 约 7%、开源模型约 30–91%),替换原”最高 50pp”的笼统表述。
- 2026-06-11 P3.4 校链:跨专题死链
0412 评测体系系统化专题→评测系统化专题(§9 升级对照段 1 处)。