R

R02 语用学增强 Prompt 设计

创建 2026-06-07 更新 2026-06-11 0 条双链 计算语言学 专题 AI 整理

很多人把 prompt 工程当成”措辞玄学”——换个词、加个”请”、贴个”你是专家”,碰运气。本节点要解决的问题是:能不能把 prompt 设计从玄学降维成一套有理论依据、可复现、可调试的工程纪律? 答案是能,杠杆就是语用学(Pragmatics)——研究”语言在语境中如何传递超出字面意义的信息”的学科。本节用 Grice 的合作原则(明确说话者与听者如何协作传义)和 Searle 的言语行为理论(明确”说一句话”到底在执行什么动作),把模糊的 prompt 直觉翻译成显式的设计杠杆,给出可直接套用的模板,并在结尾埋下一个最常被忽视的陷阱。这是 A02 语用学与 Prompt 设计 的”动手版”:A02 讲理论与术语辨析,R02 讲怎么改、怎么测、怎么避坑。

§0 为什么是”语用学”框架,而不是”措辞技巧”框架

市面上 prompt 教程的默认框架是词汇级技巧清单:“加 Let’s think step by step""说 you are an expert""用分隔符”。这个框架的致命缺陷是:它无法解释为什么某些技巧有效、什么时候会失效、以及两个技巧冲突时该听谁的。它是一袋互不相干的咒语。

语用学提供的是生成式框架而非清单。它的核心洞察是:人类对话之所以能用很少的字传递很多意思,是因为说话者和听者共享一套协作推理规则(Grice 合作原则)和一套**“说话即做事”的行为约定**(Austin-Searle 言语行为)。一句”能把盐递给我吗”,字面是问能力,实际是请求——听者靠”对方在合作、字面问句在此处是废话”推断出真实意图。

把这套规则搬到人机交互,立刻得到一个反共识判断:LLM 模拟了合作对话的统计形式,但不持有合作意图本身。(来源:philarchive.org “Speech Acts and Large Language Models”,2024,质疑”合作原则对无意图的模型是否适用”)人类对话中,大量含义靠听者”假设对方在合作”来补全;模型没有这个稳定的意图锚点,于是人类省略掉的语用信息,必须在 prompt 里被显式重建。Kim et al.(2025, CHI’25 LBW,arXiv:2503.00858)的实证正是这个结论:LLM 难以推断上下文细微差异和用户真实意图,需要在 prompt 中显式补偿。

所以”语用学框架 vs 措辞技巧框架”的分野是:前者告诉你缺的是哪一类语用信息、为什么缺、补哪里;后者只给你一袋咒语。本节点全程站在前者。

§1 把合作原则四准则翻译成四个 prompt 设计杠杆

Grice(“Logic and Conversation”,1975,收于 Cole & Morgan 编 Syntax and Semantics vol. 3;讲座原为 1967 哈佛 William James Lectures)提出,合作的对话遵守四条准则(Maxims)。人类靠”默认对方遵守、偶尔故意违反以传递言外之意”来高效沟通。模型的问题在于:它既不稳定遵守,又不会”故意违反”,于是这四条必须被你硬编码进 prompt

Grice 准则人类对话默认LLM 已知违规模式Prompt 设计杠杆
Quantity(数量)信息量恰好够用verbosity bias,倾向过度输出显式规定详略与长度上限(“≤200 字""只列 3 条”)
Quality(质量)只说相信为真、有据的幻觉=Quality 的严重违反强制不确定性标注(“不确定就说不确定,禁止编造”),链入 幻觉
Relation(关联)紧扣当前话题多轮中遗忘焦点、漂移每轮重申主题锚点、提供 context 边界
Manner(方式)清晰、简短、有序、无歧义长链路结构混乱显式指定输出格式(编号步骤 / markdown 表 / JSON schema)

这张表是 R02 的骨干。它把”prompt 写得好不好”从主观体感变成四个可勾选的维度:你的 prompt 在 Quantity / Quality / Relation / Manner 上,分别显式约束了吗?没约束的那一格,就是模型最可能给你惊喜(坏的那种)的地方。

[!note] 一个反直觉的点 verbosity bias 正是模型违反 Quantity 的系统性表现——它不是”想多帮你”,而是 RLHF 阶段长答案常被打高分留下的习得偏好。你不显式压长度,它默认违反 Quantity。这条让”为什么要明确写字数上限”从经验变成了机制解释。

§2 用言语行为理论给 prompt 归类:你到底在让模型”做什么”

Searle(Speech Acts,Cambridge University Press,1969)把所有”说话即做事”的行为分为五类。这套分类对 prompt 设计的价值是:先想清楚这条 prompt 属于哪一类言语行为,再决定怎么写。 同一个意图,错配了言语行为类型,效果会断崖式下跌。

Searle 五类适合方向对应 prompt 类型写法要点
Directives(指令类)world-to-word(让世界符合话语)“请总结/改写/分类这段”动词开头、可验收的完成标准
Representatives(断言类)word-to-world(让话语符合世界)“X 是真的吗""解释 Y”要求标来源、标置信度,挂 Quality
Commissives(承诺类)“你将按以下步骤执行”用于 agent 多步规划的自我承诺
Expressives(表达类)客服话术、共情回复指定情感基调,警惕过度道歉
Declarations(宣告类)说即改变现实系统级判定(“已封号”)危害系数最高,需人审兜底

实操上最关键的一条:绝大多数失败的 prompt,是把 Directive(要模型做事)和 Representative(要模型陈述事实)混在一句里没拆开。 比如”分析这家公司值不值得投并给出结论”——前半是 Directive(分析这个动作),后半是 Representative(“值得/不值得”是一个真值断言)。模型常常跳过分析直接给断言(因为断言更短、满足 verbosity 之外的”给结论”偏好)。拆成两步——先 Directive 要它列证据,再 Representative 要它基于证据下判断并标置信度——质量立刻分层。这正是意图识别(intent detection)和对话系统路由的理论来源(来源:arXiv:2504.00928 “Taxonomizing Representational Harms using Speech Act Theory”;多 agent 框架的 inform/request/propose 消息类型继承自 FIPA ACL,1997)。

§3 改写实验:同一任务,朴素 prompt vs 语用学增强 prompt

下面用一个真实场景演示”前后对照”。任务:让模型帮 Rick 把一段巴西 99 平台的现金支付纠纷用户反馈,整理成产品可用的问题清单。

朴素 prompt(违反全部四准则):

帮我看看这些用户反馈说了啥。

诊断:Quantity 无约束(不知要多详细)、Quality 无约束(不知要不要去重/去噪)、Relation 无锚点(“看看说了啥”没有目标焦点)、Manner 无格式(输出形态全凭运气)。言语行为含糊——是要 Representative(描述反馈内容)还是 Directive(产出清单)?没说清。

语用学增强 prompt(四准则 + 言语行为显式化):

[角色与任务·Directive] 你是产品分析助手。把下面的用户反馈整理成可执行的问题清单。 [Relation·焦点锚定] 只关注与”现金支付纠纷处理流程”相关的问题,无关内容忽略。 [Quantity·信息量约束] 输出 5–8 条,每条一句话,不展开背景。 [Manner·格式约束] 用 markdown 表格:列=[问题描述 | 出现频次估计 | 严重度 高/中/低]。 [Quality·诚实约束] 频次和严重度若无法从文本判断,标”无法判断”,禁止编造。 [输入] <粘贴反馈>

这不是”写得更长”,是把人类会自动补全的语用信息,逐项显式重建。每个方括号标签对应 §1 的一个准则或 §2 的一个言语行为,可逐项验收、可单独 A/B 测试。

怎么测(让”有没有用”可证伪): 准备 5–10 条同类输入,朴素版与增强版各跑一遍,用三个客观指标打分:①格式合规率(是否真的输出了表格、条数在区间内);②幻觉率(人工核对”频次/严重度”是否有凭空编造);③可用率(产出能否直接进 backlog 而不需返工)。语用学增强的收益主要落在 ②③——这与 Kim, Taylor & Kang(2023,arXiv:2305.13826)的发现一致:把 Grice 四准则融进 Chain-of-Thought,模型在会话含义理解任务上可超越人类平均水平。注意这是会话含义理解任务上的结果,不是所有任务的普适承诺(边界见 §6)。

§4 可复用模板:PRAGMA 六槽位

把上面的实验固化成一个可填空的模板。命名 PRAGMA(六个槽位首字母),按言语行为先定性、再按四准则填约束:

[P · Performative 言语行为]  这条 prompt 的主动作是什么?
    Directive(做事) / Representative(陈述事实) / 二者拆分?
[R · Relation 关联焦点]      只关注 ____;忽略 ____。(多轮则重申主题)
[A · Amount 信息量]          输出 ____ 条/字;详略要求 ____。
[G · Grounding 质量]         不确定标"不确定";编造视为失败;如需来源标 ____。
[M · Manner 格式]            输出形态:表格/编号/JSON schema ____。
[A · Anchor 上下文边界]      输入范围=____;超出此范围的内容不处理。

填表纪律:P 槽先于一切。 先判定言语行为类型,因为它决定后面五槽怎么填——Directive 任务重点在 A(信息量) 与 M(格式),Representative 任务重点在 G(质量/来源)。把这个模板存成 snippet,每写一条复杂 prompt 过一遍六槽,缺哪槽心里有数。这与 Miehling et al.(2024,arXiv:2403.15115)为人机交互新增的两条 AI 专属准则呼应——他们在 Grice 四条之外加了 Benevolence(善意,处理有害内容)Transparency(透明,承认知识与能力边界);在高风险场景,PRAGMA 的 G 槽应扩写成显式的 Transparency 要求(“超出能力范围请明说,不要假装能做”)。

§5 判断主轴:90% 的人在语用学增强 Prompt 上会栽的四个坑

这一节是 R02 和”又一篇 prompt 技巧文”的分界线。每个坑给出症状 → 为什么会错 → 正确做法 → 真实反例

坑 1:把”礼貌”当”明示”。

  • 症状:在 prompt 里加大量”请""麻烦""谢谢""你真厉害”,以为更”合作”。
  • 为什么会错:Grice 的合作不是礼貌(politeness 是另一套理论,Brown & Levinson)。礼貌词是 Expressive,不传递任务约束,反而稀释信号、增加 token、违反 Quantity。
  • 正确做法:把礼貌预算花在明示约束(四准则)上,而非情绪词。
  • 真实反例:“请你一定要非常仔细认真地帮我好好分析一下”——零约束信息,纯噪声;换成”输出 5 条、每条标证据来源”立刻有效。

坑 2:在一条 prompt 里堆叠相互冲突的准则。

  • 症状:“尽可能详尽” + “控制在 100 字内”同时出现。
  • 为什么会错:Quantity 内部自相矛盾,模型只能挑一个服从(通常是后者或更显著的那个),你以为是模型不听话。
  • 正确做法:准则冲突时显式排序(“优先满足 100 字上限,在此前提下尽量详尽”)。
  • 真实反例:要”全面覆盖所有边界情况”又要”简洁”,结果模型省略边界——它在替你做你没做的取舍。

坑 3:误以为”含义推断”模型一定会做对——间接 prompt 的赌博。

  • 症状:用间接言语行为下指令,如”这段文字有点长哦”(实际想让它精简)。
  • 为什么会错:间接请求(“Can you pass the salt?”类)究竟算独立言语行为还是含义推断,Searle 与 Grice 框架本就有分歧(来源:Cohen & Levesque, 1990);模型对间接含义的处理仍是公认难题(来源:Ma et al., 2025, ACL 2025, arXiv:2502.12378,综述确认 implicature 处理是重大挑战)。
  • 正确做法:把间接含义改写成直接 Directive(“把这段精简到 100 字内”);只有在确需测试模型语用能力时才用间接式。
  • 真实反例:“要是能再正式一点就好了”——模型可能回”好的我会注意”却不改写,因为它把这句解析成了 Expressive 而非 Directive。

坑 4:把会话含义任务的成功,泛化成所有任务都该上 Gricean CoT。

  • 症状:读了 Kim et al. 2023”超越人类”就给每个 prompt 都套四准则 CoT。
  • 为什么会错:那篇的增益是在会话含义理解这一特定任务上测得的;对纯检索、纯格式转换类任务,加 Gricean reasoning 只增 token、增延迟,收益趋零(成本视角见 m209 - 推理成本控制手册)。
  • 正确做法:先判任务类型——含蓄/意图模糊的任务才上 Gricean CoT;明确的 Directive 任务直接给约束即可。
  • 真实反例:让模型”把这个 JSON 的 key 全改成小写”,套一段四准则推理是纯浪费。

§6 对手框架回应:关联理论说”四准则是多余的”

最强的反方不是”语用学没用”,而是Sperber & Wilson 的关联理论(Relevance Theory,1986/1995):它主张 Grice 的四条准则可以归约成一条原则——人类认知天然追求最大关联性,一个话语值得处理当且仅当其认知收益超过处理成本。Horn(1984)的 Q/R 二原则、Levinson(2000)的 Q/I/M 三原则同样认为四准则相互重叠、界定模糊(Relation 太含糊、Quantity 与 Relevance 打架)。

接受它对的部分: 关联理论在认知机制上很可能更接近真相——人确实是按”省力 vs 效果”权衡来推断含义的,而不是逐条核对四准则。对 prompt 设计,这给出一个更锋利的优化方向:降低模型的推断成本 + 提高关键信息的显著性,可能比机械地逐条满足四准则更有效。把最重要的约束放在 prompt 显著位置(开头/结尾、加粗、独立成行),本质就是在做关联理论意义上的”提高显著性”。

坚持的边界与赌注: 但对 PM 的工程交付而言,四准则的可操作性碾压一条抽象原则。“提高关联性”无法直接落成 checklist,“分别约束 Quantity/Quality/Relation/Manner”可以。我赌的是:在可教、可复现、可团队对齐这三个工程维度上,Gricean 四准则是更好的脚手架;关联理论是更好的解释,但不是更好的工具。 这个赌注的失效场景:当团队已具备成熟的 prompt 直觉、追求极致 token 效率时,四准则的显式约束会显得冗余,此时应转向关联理论式的”最小显著性”设计。我把四准则当训练轮,不当终点。

§7 跨域呼应:维特根斯坦的”意义即用法”与 prompt 的语境依赖

Rick 熟悉的一个框架在这里被直接迁移:维特根斯坦后期”意义即用法”(meaning is use)。它改变了一个具体的技术判断——不存在”最优 prompt 模板”这种脱离语境的东西。 一句 prompt 的意义不在词句本身,而在它被使用的”语言游戏”(language game)里:同一句”分析这个”,在投资语境、bug 排查语境、用户反馈语境里,触发的合理输出完全不同。

这把语用学的核心命题(意义=字面 + 语境推断)拉到更激进的位置:连”字面意义”都不是固定的,它随使用场景流动。对 prompt 设计的直接后果是:PRAGMA 模板里的 R 槽(关联焦点)和 A 槽(上下文边界)不是可选项,而是把抽象 prompt 锚进具体语言游戏的钉子。 不锚定语境,模型就在所有可能的语言游戏里随机挑一个玩——这正是”同样的 prompt 今天好用明天废了”的根因。维特根斯坦让”为什么要写 context”从工程经验升级成语言哲学的必然。(可对照 A02 语用学与 Prompt 设计 与 0117社会学 中语境与意义协商的讨论。)

§8 PM 决策启示:面试 / 选型 / 复现三类落地

  • 面试怎么用: 当被问”你怎么做 prompt 工程”,不要答技巧清单,答框架——“我把 prompt 拆成言语行为定性 + Grice 四准则约束(PRAGMA 六槽),每槽可单独 A/B 测、可团队对齐”。再补一句边界:“关联理论会说四准则冗余,我承认它解释力更强,但四准则更可教、可复现”——展示你有对手框架意识,正是出版级 E 维要的东西。
  • 选型怎么用: 评估 prompt 管理工具 / agent 框架时,看它有没有把 prompt 当言语行为分类管理(Directive/Representative 路由)、有没有把不确定性标注(Quality/Transparency)做成一等公民。只支持自由文本拼接的,是把语用纪律的成本全甩给用户。
  • 复现怎么用: 任何 prompt 改写都要带可证伪的测法(§3 的三指标:格式合规率 / 幻觉率 / 可用率)。“改完感觉更好了”不是复现,“改完幻觉率从 30% 降到 8%“才是。把这条钉进团队的 prompt review 流程。

§9 与已有节点的关系

  • 对照 A02 语用学与 Prompt 设计:A02 是概念辨析层(语用学术语史、Grice/Austin/Searle 谱系、近邻辨析),R02 是操作层(改写实验 + PRAGMA 模板 + 四坑 + 测法)。R02 不复述 A02 的理论基础,只调用其结论并落成可动手的纪律——属于”深化 + 操作化”。
  • 对照 幻觉:把幻觉显式定位为”Grice Quality 准则的严重违反”,给了幻觉一个语用学解释框架,是对话(换视角解释同一现象),不复述幻觉的成因机制。
  • 对照 m209 - 推理成本控制手册:§5 坑 4 与坑 1 都指向”语用约束的 token 成本”,把语用纪律与成本工程挂钩——属于补缺(m209 谈成本不谈语用,R02 补上语用约束的成本边界)。

§10 关联节点

核心(必读):

延伸(可选):

修订日志

  • R1(2026-06-07):首稿。建立 §1 四准则→四杠杆映射表、§2 言语行为分类表、§3 前后对照改写实验(巴西 99 现金纠纷场景)、§4 PRAGMA 六槽模板、§5 四坑判断主轴(四件套)、§6 关联理论对手回应(接受+边界+赌注)、§7 维特根斯坦”意义即用法”跨域呼应。所有论文声明(Grice 1975 / Searle 1969 / Kim et al. 2023 arXiv:2305.13826 / Miehling et al. 2024 arXiv:2403.15115 / Kim et al. 2025 arXiv:2503.00858 / Ma et al. 2025 arXiv:2502.12378 / Sperber & Wilson 1986 / Cohen & Levesque 1990 / arXiv:2504.00928)均来自已核实简报。