R02 语用学增强 Prompt 设计 · 知识库

很多人把 prompt 工程当成”措辞玄学”——换个词、加个”请”、贴个”你是专家”，碰运气。本节点要解决的问题是：能不能把 prompt 设计从玄学降维成一套有理论依据、可复现、可调试的工程纪律？ 答案是能，杠杆就是语用学（Pragmatics）——研究”语言在语境中如何传递超出字面意义的信息”的学科。本节用 Grice 的合作原则（明确说话者与听者如何协作传义）和 Searle 的言语行为理论（明确”说一句话”到底在执行什么动作），把模糊的 prompt 直觉翻译成显式的设计杠杆，给出可直接套用的模板，并在结尾埋下一个最常被忽视的陷阱。这是 A02 语用学与 Prompt 设计的”动手版”：A02 讲理论与术语辨析，R02 讲怎么改、怎么测、怎么避坑。

§0 为什么是”语用学”框架，而不是”措辞技巧”框架

市面上 prompt 教程的默认框架是词汇级技巧清单：“加 Let’s think step by step""说 you are an expert""用分隔符”。这个框架的致命缺陷是：它无法解释为什么某些技巧有效、什么时候会失效、以及两个技巧冲突时该听谁的。它是一袋互不相干的咒语。

语用学提供的是生成式框架而非清单。它的核心洞察是：人类对话之所以能用很少的字传递很多意思，是因为说话者和听者共享一套协作推理规则（Grice 合作原则）和一套**“说话即做事”的行为约定**（Austin-Searle 言语行为）。一句”能把盐递给我吗”，字面是问能力，实际是请求——听者靠”对方在合作、字面问句在此处是废话”推断出真实意图。

把这套规则搬到人机交互，立刻得到一个反共识判断：LLM 模拟了合作对话的统计形式，但不持有合作意图本身。（来源：philarchive.org “Speech Acts and Large Language Models”，2024，质疑”合作原则对无意图的模型是否适用”）人类对话中，大量含义靠听者”假设对方在合作”来补全；模型没有这个稳定的意图锚点，于是人类省略掉的语用信息，必须在 prompt 里被显式重建。Kim et al.（2025, CHI’25 LBW，arXiv:2503.00858）的实证正是这个结论：LLM 难以推断上下文细微差异和用户真实意图，需要在 prompt 中显式补偿。

所以”语用学框架 vs 措辞技巧框架”的分野是：前者告诉你缺的是哪一类语用信息、为什么缺、补哪里；后者只给你一袋咒语。本节点全程站在前者。

§1 把合作原则四准则翻译成四个 prompt 设计杠杆

Grice（“Logic and Conversation”，1975，收于 Cole & Morgan 编 Syntax and Semantics vol. 3；讲座原为 1967 哈佛 William James Lectures）提出，合作的对话遵守四条准则（Maxims）。人类靠”默认对方遵守、偶尔故意违反以传递言外之意”来高效沟通。模型的问题在于：它既不稳定遵守，又不会”故意违反”，于是这四条必须被你硬编码进 prompt。

Grice 准则	人类对话默认	LLM 已知违规模式	Prompt 设计杠杆
Quantity（数量）	信息量恰好够用	verbosity bias，倾向过度输出	显式规定详略与长度上限（“≤200 字""只列 3 条”）
Quality（质量）	只说相信为真、有据的	幻觉＝Quality 的严重违反	强制不确定性标注（“不确定就说不确定，禁止编造”），链入幻觉
Relation（关联）	紧扣当前话题	多轮中遗忘焦点、漂移	每轮重申主题锚点、提供 context 边界
Manner（方式）	清晰、简短、有序、无歧义	长链路结构混乱	显式指定输出格式（编号步骤 / markdown 表 / JSON schema）

这张表是 R02 的骨干。它把”prompt 写得好不好”从主观体感变成四个可勾选的维度：你的 prompt 在 Quantity / Quality / Relation / Manner 上，分别显式约束了吗？没约束的那一格，就是模型最可能给你惊喜（坏的那种）的地方。

[!note] 一个反直觉的点 verbosity bias 正是模型违反 Quantity 的系统性表现——它不是”想多帮你”，而是 RLHF 阶段长答案常被打高分留下的习得偏好。你不显式压长度，它默认违反 Quantity。这条让”为什么要明确写字数上限”从经验变成了机制解释。

§2 用言语行为理论给 prompt 归类：你到底在让模型”做什么”

Searle（Speech Acts，Cambridge University Press，1969）把所有”说话即做事”的行为分为五类。这套分类对 prompt 设计的价值是：先想清楚这条 prompt 属于哪一类言语行为，再决定怎么写。 同一个意图，错配了言语行为类型，效果会断崖式下跌。

Searle 五类	适合方向	对应 prompt 类型	写法要点
Directives（指令类）	world-to-word（让世界符合话语）	“请总结/改写/分类这段”	动词开头、可验收的完成标准
Representatives（断言类）	word-to-world（让话语符合世界）	“X 是真的吗""解释 Y”	要求标来源、标置信度，挂 Quality
Commissives（承诺类）	—	“你将按以下步骤执行”	用于 agent 多步规划的自我承诺
Expressives（表达类）	—	客服话术、共情回复	指定情感基调，警惕过度道歉
Declarations（宣告类）	说即改变现实	系统级判定（“已封号”）	危害系数最高，需人审兜底

实操上最关键的一条：绝大多数失败的 prompt，是把 Directive（要模型做事）和 Representative（要模型陈述事实）混在一句里没拆开。 比如”分析这家公司值不值得投并给出结论”——前半是 Directive（分析这个动作），后半是 Representative（“值得/不值得”是一个真值断言）。模型常常跳过分析直接给断言（因为断言更短、满足 verbosity 之外的”给结论”偏好）。拆成两步——先 Directive 要它列证据，再 Representative 要它基于证据下判断并标置信度——质量立刻分层。这正是意图识别（intent detection）和对话系统路由的理论来源（来源：arXiv:2504.00928 “Taxonomizing Representational Harms using Speech Act Theory”；多 agent 框架的 inform/request/propose 消息类型继承自 FIPA ACL，1997）。

§3 改写实验：同一任务，朴素 prompt vs 语用学增强 prompt

下面用一个真实场景演示”前后对照”。任务：让模型帮 Rick 把一段巴西 99 平台的现金支付纠纷用户反馈，整理成产品可用的问题清单。

朴素 prompt（违反全部四准则）：

帮我看看这些用户反馈说了啥。

诊断：Quantity 无约束（不知要多详细）、Quality 无约束（不知要不要去重/去噪）、Relation 无锚点（“看看说了啥”没有目标焦点）、Manner 无格式（输出形态全凭运气）。言语行为含糊——是要 Representative（描述反馈内容）还是 Directive（产出清单）？没说清。

语用学增强 prompt（四准则 + 言语行为显式化）：

[角色与任务·Directive] 你是产品分析助手。把下面的用户反馈整理成可执行的问题清单。 [Relation·焦点锚定] 只关注与”现金支付纠纷处理流程”相关的问题，无关内容忽略。 [Quantity·信息量约束] 输出 5–8 条，每条一句话，不展开背景。 [Manner·格式约束] 用 markdown 表格：列＝[问题描述 | 出现频次估计 | 严重度高/中/低]。 [Quality·诚实约束] 频次和严重度若无法从文本判断，标”无法判断”，禁止编造。 [输入] <粘贴反馈>

这不是”写得更长”，是把人类会自动补全的语用信息，逐项显式重建。每个方括号标签对应 §1 的一个准则或 §2 的一个言语行为，可逐项验收、可单独 A/B 测试。

怎么测（让”有没有用”可证伪）： 准备 5–10 条同类输入，朴素版与增强版各跑一遍，用三个客观指标打分：①格式合规率（是否真的输出了表格、条数在区间内）；②幻觉率（人工核对”频次/严重度”是否有凭空编造）；③可用率（产出能否直接进 backlog 而不需返工）。语用学增强的收益主要落在 ②③——这与 Kim, Taylor & Kang（2023，arXiv:2305.13826）的发现一致：把 Grice 四准则融进 Chain-of-Thought，模型在会话含义理解任务上可超越人类平均水平。注意这是会话含义理解任务上的结果，不是所有任务的普适承诺（边界见 §6）。

§4 可复用模板：PRAGMA 六槽位

把上面的实验固化成一个可填空的模板。命名 PRAGMA（六个槽位首字母），按言语行为先定性、再按四准则填约束：

[P · Performative 言语行为]  这条 prompt 的主动作是什么？
    Directive(做事) / Representative(陈述事实) / 二者拆分？
[R · Relation 关联焦点]      只关注 ____；忽略 ____。（多轮则重申主题）
[A · Amount 信息量]          输出 ____ 条/字；详略要求 ____。
[G · Grounding 质量]         不确定标"不确定"；编造视为失败；如需来源标 ____。
[M · Manner 格式]            输出形态：表格/编号/JSON schema ____。
[A · Anchor 上下文边界]      输入范围＝____；超出此范围的内容不处理。

填表纪律：P 槽先于一切。 先判定言语行为类型，因为它决定后面五槽怎么填——Directive 任务重点在 A(信息量) 与 M(格式)，Representative 任务重点在 G(质量/来源)。把这个模板存成 snippet，每写一条复杂 prompt 过一遍六槽，缺哪槽心里有数。这与 Miehling et al.（2024，arXiv:2403.15115）为人机交互新增的两条 AI 专属准则呼应——他们在 Grice 四条之外加了 Benevolence（善意，处理有害内容） 与 Transparency（透明，承认知识与能力边界）；在高风险场景，PRAGMA 的 G 槽应扩写成显式的 Transparency 要求（“超出能力范围请明说，不要假装能做”）。

§5 判断主轴：90% 的人在语用学增强 Prompt 上会栽的四个坑

这一节是 R02 和”又一篇 prompt 技巧文”的分界线。每个坑给出症状 → 为什么会错 → 正确做法 → 真实反例。

坑 1：把”礼貌”当”明示”。

症状：在 prompt 里加大量”请""麻烦""谢谢""你真厉害”，以为更”合作”。
为什么会错：Grice 的合作不是礼貌（politeness 是另一套理论，Brown & Levinson）。礼貌词是 Expressive，不传递任务约束，反而稀释信号、增加 token、违反 Quantity。
正确做法：把礼貌预算花在明示约束（四准则）上，而非情绪词。
真实反例：“请你一定要非常仔细认真地帮我好好分析一下”——零约束信息，纯噪声；换成”输出 5 条、每条标证据来源”立刻有效。

坑 2：在一条 prompt 里堆叠相互冲突的准则。

症状：“尽可能详尽” + “控制在 100 字内”同时出现。
为什么会错：Quantity 内部自相矛盾，模型只能挑一个服从（通常是后者或更显著的那个），你以为是模型不听话。
正确做法：准则冲突时显式排序（“优先满足 100 字上限，在此前提下尽量详尽”）。
真实反例：要”全面覆盖所有边界情况”又要”简洁”，结果模型省略边界——它在替你做你没做的取舍。

坑 3：误以为”含义推断”模型一定会做对——间接 prompt 的赌博。

症状：用间接言语行为下指令，如”这段文字有点长哦”（实际想让它精简）。
为什么会错：间接请求（“Can you pass the salt?”类）究竟算独立言语行为还是含义推断，Searle 与 Grice 框架本就有分歧（来源：Cohen & Levesque, 1990）；模型对间接含义的处理仍是公认难题（来源：Ma et al., 2025, ACL 2025, arXiv:2502.12378，综述确认 implicature 处理是重大挑战）。
正确做法：把间接含义改写成直接 Directive（“把这段精简到 100 字内”）；只有在确需测试模型语用能力时才用间接式。
真实反例：“要是能再正式一点就好了”——模型可能回”好的我会注意”却不改写，因为它把这句解析成了 Expressive 而非 Directive。

坑 4：把会话含义任务的成功，泛化成所有任务都该上 Gricean CoT。

症状：读了 Kim et al. 2023”超越人类”就给每个 prompt 都套四准则 CoT。
为什么会错：那篇的增益是在会话含义理解这一特定任务上测得的；对纯检索、纯格式转换类任务，加 Gricean reasoning 只增 token、增延迟，收益趋零（成本视角见 m209 - 推理成本控制手册）。
正确做法：先判任务类型——含蓄/意图模糊的任务才上 Gricean CoT；明确的 Directive 任务直接给约束即可。
真实反例：让模型”把这个 JSON 的 key 全改成小写”，套一段四准则推理是纯浪费。

§6 对手框架回应：关联理论说”四准则是多余的”

最强的反方不是”语用学没用”，而是Sperber & Wilson 的关联理论（Relevance Theory，1986/1995）：它主张 Grice 的四条准则可以归约成一条原则——人类认知天然追求最大关联性，一个话语值得处理当且仅当其认知收益超过处理成本。Horn（1984）的 Q/R 二原则、Levinson（2000）的 Q/I/M 三原则同样认为四准则相互重叠、界定模糊（Relation 太含糊、Quantity 与 Relevance 打架）。

接受它对的部分： 关联理论在认知机制上很可能更接近真相——人确实是按”省力 vs 效果”权衡来推断含义的，而不是逐条核对四准则。对 prompt 设计，这给出一个更锋利的优化方向：降低模型的推断成本 + 提高关键信息的显著性，可能比机械地逐条满足四准则更有效。把最重要的约束放在 prompt 显著位置（开头/结尾、加粗、独立成行），本质就是在做关联理论意义上的”提高显著性”。

坚持的边界与赌注： 但对 PM 的工程交付而言，四准则的可操作性碾压一条抽象原则。“提高关联性”无法直接落成 checklist，“分别约束 Quantity/Quality/Relation/Manner”可以。我赌的是：在可教、可复现、可团队对齐这三个工程维度上，Gricean 四准则是更好的脚手架；关联理论是更好的解释，但不是更好的工具。 这个赌注的失效场景：当团队已具备成熟的 prompt 直觉、追求极致 token 效率时，四准则的显式约束会显得冗余，此时应转向关联理论式的”最小显著性”设计。我把四准则当训练轮，不当终点。

§7 跨域呼应：维特根斯坦的”意义即用法”与 prompt 的语境依赖

Rick 熟悉的一个框架在这里被直接迁移：维特根斯坦后期”意义即用法”（meaning is use）。它改变了一个具体的技术判断——不存在”最优 prompt 模板”这种脱离语境的东西。 一句 prompt 的意义不在词句本身，而在它被使用的”语言游戏”（language game）里：同一句”分析这个”，在投资语境、bug 排查语境、用户反馈语境里，触发的合理输出完全不同。

这把语用学的核心命题（意义＝字面 + 语境推断）拉到更激进的位置：连”字面意义”都不是固定的，它随使用场景流动。对 prompt 设计的直接后果是：PRAGMA 模板里的 R 槽（关联焦点）和 A 槽（上下文边界）不是可选项，而是把抽象 prompt 锚进具体语言游戏的钉子。 不锚定语境，模型就在所有可能的语言游戏里随机挑一个玩——这正是”同样的 prompt 今天好用明天废了”的根因。维特根斯坦让”为什么要写 context”从工程经验升级成语言哲学的必然。（可对照 A02 语用学与 Prompt 设计与 0117社会学中语境与意义协商的讨论。）

§8 PM 决策启示：面试 / 选型 / 复现三类落地

面试怎么用： 当被问”你怎么做 prompt 工程”，不要答技巧清单，答框架——“我把 prompt 拆成言语行为定性 + Grice 四准则约束（PRAGMA 六槽），每槽可单独 A/B 测、可团队对齐”。再补一句边界：“关联理论会说四准则冗余，我承认它解释力更强，但四准则更可教、可复现”——展示你有对手框架意识，正是出版级 E 维要的东西。
选型怎么用： 评估 prompt 管理工具 / agent 框架时，看它有没有把 prompt 当言语行为分类管理（Directive/Representative 路由）、有没有把不确定性标注（Quality/Transparency）做成一等公民。只支持自由文本拼接的，是把语用纪律的成本全甩给用户。
复现怎么用： 任何 prompt 改写都要带可证伪的测法（§3 的三指标：格式合规率 / 幻觉率 / 可用率）。“改完感觉更好了”不是复现，“改完幻觉率从 30% 降到 8%“才是。把这条钉进团队的 prompt review 流程。

§9 与已有节点的关系

对照 A02 语用学与 Prompt 设计：A02 是概念辨析层（语用学术语史、Grice/Austin/Searle 谱系、近邻辨析），R02 是操作层（改写实验 + PRAGMA 模板 + 四坑 + 测法）。R02 不复述 A02 的理论基础，只调用其结论并落成可动手的纪律——属于”深化 + 操作化”。
对照幻觉：把幻觉显式定位为”Grice Quality 准则的严重违反”，给了幻觉一个语用学解释框架，是对话（换视角解释同一现象），不复述幻觉的成因机制。
对照 m209 - 推理成本控制手册：§5 坑 4 与坑 1 都指向”语用约束的 token 成本”，把语用纪律与成本工程挂钩——属于补缺（m209 谈成本不谈语用，R02 补上语用约束的成本边界）。

§10 关联节点

核心（必读）：

A02 语用学与 Prompt 设计（本节点的理论母体）
A05 理解与生成的不对称（模型”会生成不等于会理解”，是语用约束必须显式化的深层原因）
幻觉（Quality 准则违反的产品化表现）
A01 计算语言学与 LLM 概念谱系（本专题概念总图）

延伸（可选）：

A03 多语言 Tokenization 效率差异（多语 prompt 的成本与质量约束）
A04 翻译≠本地化（语用差异在跨文化产品中的延伸）
A06 语言相对性与 LLM 跨语言偏差（语言结构如何嵌入推理偏见）
m209 - 推理成本控制手册（语用约束的 token 成本边界）
0117社会学（语境、意义协商的社会维度）
Claude ChatGPT Gemini（不同模型对语用约束的服从度差异，需实测）
AI PM 知识图谱·总索引

修订日志

R1（2026-06-07）：首稿。建立 §1 四准则→四杠杆映射表、§2 言语行为分类表、§3 前后对照改写实验（巴西 99 现金纠纷场景）、§4 PRAGMA 六槽模板、§5 四坑判断主轴（四件套）、§6 关联理论对手回应（接受+边界+赌注）、§7 维特根斯坦”意义即用法”跨域呼应。所有论文声明（Grice 1975 / Searle 1969 / Kim et al. 2023 arXiv:2305.13826 / Miehling et al. 2024 arXiv:2403.15115 / Kim et al. 2025 arXiv:2503.00858 / Ma et al. 2025 arXiv:2502.12378 / Sperber & Wilson 1986 / Cohen & Levesque 1990 / arXiv:2504.00928）均来自已核实简报。