A02 语用学与 Prompt 设计
A02 语用学与 Prompt 设计
一条 prompt 写下去到底是在做什么?工程默认答案是”它是一段指令字符串,模型按字面执行”。这个答案在 90% 的失败 prompt 背后埋着一颗雷:prompt 不是命令,而是一次言语行为(speech act)——它的实际意义依赖语境、依赖说话者意图、依赖听话者(模型)对”你到底想要什么”的推断。把 prompt 当命令而非言语行为,等于把语言学积累了七十年的”字面意义 ≠ 交际意义”的洞察整个扔掉。本节用语用学(Pragmatics)的两个支柱——Grice 的会话含义(conversational implicature)和 Austin–Searle 的言语行为理论——来重构”prompt 是什么”这个问题,并给出 PM 在 system prompt 设计、意图路由、多轮对话维护上的具体决策。
[!warning] 判断主轴(一句话) 把 prompt 当”命令”是工程视角的窄化;prompt 本质是”言语行为”,其意义在语境中推断而非在字面中给定——忽视这一点是产品级歧义的系统性根源。
§0 为什么是语用学,而不是”prompt engineering 技巧合集”
业界主流的 prompt 框架(few-shot、CoT、ReAct、role-play、structured output)是经验技巧的归纳,缺一个解释性理论:为什么”请扮演一个资深律师”会改变输出质量?为什么”一步步想”会提升推理?为什么同样语义的两句 prompt 效果天差地别?
候选框架有三个,我先做框架级辨析,挡掉两个错误默认:
| 候选框架 | 它说 prompt 是什么 | 为什么不够 |
|---|---|---|
| 句法/语义框架(把 prompt 当形式语言) | prompt 是一段需被”解析执行”的代码 | 解释不了”字面相同、语境不同则意义不同”,也解释不了间接请求 |
| 统计模式框架(prompt 是触发分布的 key) | prompt 是检索训练分布的查询向量 | 描述了机制,但不提供设计规范——无法告诉 PM”该补什么” |
| 语用学框架(prompt 是言语行为) | prompt 是带意图的交际行为,意义需推断 | ✅ 既解释现象,又给出可操作的设计准则(见 §3) |
选语用学,不是因为它”更高级”,而是因为它唯一同时回答”为什么会错”和”该怎么补”。句法框架告诉你 prompt 是字符串(对,但无用);统计框架告诉你 prompt 触发分布(对,但只是机制描述);只有语用学给出”prompt 作为交际行为,其字面之下还有意图层、语境层、合作层”这一可补缺的结构。
这也是本节与下文 c02 - Tokenization 与词表工程 的分工:c02 处理 prompt 在符号层如何被切分(token),本节处理 prompt 在意义层如何被理解(pragmatics)。两者正交——token 切得再优,意图推断错了照样答非所问。
§1 Grice:合作原则与”prompt 是一次合作的交际”
Grice 在 1967 年哈佛 William James 讲座(正式发表于 1975 年,收入 Cole & Morgan 编 Syntax and Semantics vol. 3;后收入 Studies in the Way of Words, 1989)提出合作原则(Cooperative Principle):交际双方默认对方在”按当前对话目的提供恰当贡献”。其下四条准则:
| 准则 | 内容 | prompt 设计对应 |
|---|---|---|
| Quantity(量) | 信息量恰好,不多不少 | system prompt 应规定详略;否则模型 verbosity bias 倾向过度输出 |
| Quality(质) | 只说你相信为真、有据的 | 要求模型标注不确定性,不捏造——幻觉 = Quality 的严重违反 |
| Relation(关) | 保持话题相关 | 多轮对话要重申焦点,防漂移 |
| Manner(式) | 清晰、简短、有序、避歧义 | 显式指定结构(markdown/编号步骤) |
会话含义的机制是这里的核心洞察:说话者表面违反某准则(flouting),听话者基于”对方仍在合作”的假设,反推出字面之外的隐含意义。经典例:“Can you pass the salt?”——字面是能力问句(违反 Quantity,因为”能不能”是废话),听话者据此推断真实意图是请求。
这对 prompt 设计意味着什么?用户的 prompt 几乎总是带会话含义的。用户输入”这段代码有点慢”,字面是陈述,含义是”帮我优化”。一个把 prompt 当命令的系统会回答”是的,它确实慢”(字面合作);一个理解会话含义的系统会启动优化(交际合作)。
[!note] 这里有一个被低估的不对称 人类听话者自动做含义推断(Grice 假设这是合作的默认);LLM 不会自动做,它需要被显式提示去推断。Kim et al.(2023, arXiv:2305.13826)证明:把 Grice 四准则注入 Chain-of-Thought,模型在会话含义理解任务上能超越人类平均水平。这不是模型天生会的,而是被语用学理论”教会”的。
§2 Austin–Searle:prompt 是哪一类言语行为
Austin 在 How to Do Things with Words(1955 哈佛讲座,1962 身后出版)提出:有些话语不是描述事实,而本身就是行动——“我宣布二位结为夫妻""我把这艘船命名为……”。他后来放弃 constative/performative 二分,提出三层:
- Locutionary(话语行为):发出有意义的语言表达
- Illocutionary(以言行事):通过说话完成的约定行为——命令、请求、断言、承诺
- Perlocutionary(取效行为):说话产生的实际效果——被说服、被激怒
Searle(Speech Acts, 1969, Cambridge UP)批评 Austin 分类”过于依赖词汇列举”,改用基于原则的五类分类(据 Stanford Encyclopedia of Philosophy “Speech Acts” 条目):
| Searle 五类 | 定义 | 在人–LLM 交互中的对应 |
|---|---|---|
| Representatives(断言类) | 承诺命题为真 | 模型答事实问题、用户陈述前提 |
| Directives(指令类) | 让对方做某事 | ”请总结这段”——最常见的 prompt 类型 |
| Commissives(承诺类) | 承诺未来行动 | 模型”我将分三步执行” |
| Expressives(表达类) | 表达心理状态 | 模型”很抱歉给您带来困扰” |
| Declarations(宣告类) | 说即改变现实 | 管理员”你已被封号”——危害系数最高 |
对 PM 最直接的用处:意图识别(intent detection)。 对话系统的槽位填充、路由分发,本质就是先判断用户 prompt 属于 Searle 哪一类——Directive 走任务执行链,Representative 走知识检索链,Commissive 走 agent 规划链。这正是多 agent 框架里消息类型(inform / request / agree / propose)的理论祖先,可上溯到 FIPA ACL(1997)的 agent 通信语言。
[!note] direction of fit(适合方向)——一个被工程忽视的开关 Searle 区分:断言是 word-to-world(话语应匹配世界),命令/请求是 world-to-world(世界应匹配话语)。一条 prompt 同时可能两个方向:用户说”我们的退款率是 5%“(断言,word-to-world)“把它降下来”(指令,world-to-word)。把整条 prompt 当单一命令处理的系统,会丢掉前半句的事实校验。direction of fit 是判断”这部分要核实事实 vs. 这部分要执行动作”的语用学开关。
§3 判断主轴:把 prompt 当命令的四个致命错位
[!warning] 这是本节命门:90% 的 prompt 失败都能归到下面四个”命令式误读”
错位一:忽视会话含义,只执行字面
- 症状:用户输入”这个方案风险大吗”,模型回”是的,有风险”(字面应答),不给缓解措施。
- 为什么会错:把 prompt 当 constative(描述性问句)字面处理,忽视它的 illocutionary force 其实是 directive(“请评估并给建议”)。
- 正确做法:在 system prompt 中显式要求模型先做意图推断(“先判断用户真正想要什么,再回应”),即 Kim et al. 2023 的 CoT + Gricean reasoning 路径。
- 真实反例:早期客服 bot 对”我的快递怎么还没到”回”您的快递正在运输中”——字面合作,交际失败,因为它没识别出含义是”请催/请赔”这一 directive。
错位二:违反 Quantity,过度或不足输出
- 症状:问”今天天气”,模型输出三段气象学讲解(违反 Quantity 上界);或要详细方案却只给一句话(违反下界)。
- 为什么会错:命令式视角假设”模型知道该说多少”,但 Quantity 是语境相关的合作判断,不是命令里写死的。LLM 有结构性的 verbosity bias(RLHF 偏好更长回答),默认违反 Quantity 上界。
- 正确做法:system prompt 硬编码长度约束(“不超过 200 字""只给结论不给推理”),用规则补偿模型缺失的 Quantity 直觉。
- 真实反例:未约束的总结类 prompt 普遍产出”摘要比原文还长”,这是 Quantity 违规的经典形态。
错位三:把 Quality 违规(幻觉)当”执行正常”
- 症状:模型自信编造一个不存在的 API、一篇不存在的论文。
- 为什么会错:命令式视角里”模型给了输出 = 命令执行成功”,但语用学视角里,幻觉是 Quality 准则的根本违反——它”说了它没有据信为真的话”。
- 正确做法:把 Quality 当成可监控的语用约束——要求模型在证据不足时说”我不确定”,并对宣告类(Declarations)输出加最高审查(arXiv:2504.00928 指出 Declarations 类输出危害系数最高)。
- 真实反例:法律、医疗场景中模型”宣告”某条款存在/某药安全——这是 Declaration 类 Quality 违规,后果最严重。
错位四:单轮命令视角丢失多轮 Relation
- 症状:多轮对话到第 5 轮,模型忘了第 1 轮设定的主题,开始跑题。
- 为什么会错:命令式视角把每轮当独立命令,但合作原则下的 Relation 是跨轮维持的——对话有”被接受的方向”。
- 正确做法:在每轮 prompt 中人工重申焦点(“继续围绕 X 这个目标”),人工维护 Relevance(这正是 Sperber & Wilson 关联理论强调的——见 §6)。
- 真实反例:长对话 agent 在工具调用十几步后”忘记初始目标”,是 Relation 维护失败的典型——这与 上下文工程专题处理的”上下文衰减”是同一现象的两个侧面(见 §8 升级对照)。
§4 产品 PM 视角补盲:工程看不到的三个语用盲点
工程把 prompt 当字符串,看不到下面三层:
-
用户心理模型的语用错配。用户对 LLM 说话时,会无意识套用人类合作原则——他们省略他们认为”对方应该懂”的语境(Grice 的 Quantity:不说废话)。于是用户写”帮我弄一下那个”,省略了”那个”指什么,因为人类对话里指代靠共享语境补全。产品若不主动追问(“您指的是哪个文件?”),就是默认了一个用户并没给的语境。这是 onboarding 流失的隐形杀手:用户按人类合作习惯说话,系统按命令习惯执行,错配产生挫败。
-
跨文化的合作原则差异。Grice 假设合作原则普适,但人类学和跨文化语用学早有反例:高语境文化(日本、拉美部分场景)的”恰当信息量”远低于低语境文化(德、美),因为更多意义靠语境承载。Rick 在滴滴/99 巴西、墨西哥的 fieldwork 里见过这种张力:巴西用户的客服表达常带大量寒暄与间接请求(间接 directive),一个按低语境 Quantity 标准训练/调优的系统会觉得”信息冗余、意图不明”,反之亦然。Prompt 的合作准则不是文化中立的——这一点与 人类学 的 民族志 视角直接相关,也呼应本专题 E03 跨文化迁移节点。
-
合规边界即 Declaration 边界。Searle 的宣告类言语行为”说即改变现实”——只有具备制度性权力的人说才生效(法官说”判处”才有效)。LLM 没有这种权力,但用户/下游系统可能把模型输出当 Declaration 对待(“AI 说我违规了,所以封号”)。把模型的 Representative(“据我判断这可能违规”)误当 Declaration(“你违规了”)执行,是 AI 合规事故的语用学根源。PM 必须在产品层显式降级模型输出的言语行为类型——这是 Claude 等厂商在高风险场景加”this is not legal advice”的语用学本质。
§5 对手框架回应:关联理论(Relevance Theory)会怎么打 Gricean prompt 设计
[!quote] 接受 + 边界,不是反驳
对手立场(Sperber & Wilson, Relevance, 1986/1995):Grice 的四条准则是冗余的。人类认知天然追求最大关联性——一个话语值得处理,当且仅当其认知效益(cognitive effect)超过处理成本(cognitive effort)。不需要四条准则,只需一条关联原则。Horn(1984)的 Q/R 二原则、Levinson(2000)的 Q/I/M 三原则也都认为 Grice 准则相互重叠、界定模糊(“Relation 太含糊,Quantity 与 Relevance 重叠”)。
我接受的部分:关联理论对 prompt 设计可能更接近机制真相。如果模型本质是在”最小化处理成本、最大化相关信息”,那么逐条核查四准则就是错误的工程隐喻——更对的做法是降低模型的推断成本 + 提高关键信息的显著性(salience):把最相关的约束放在 prompt 显著位置(开头/结尾)、减少需要模型自行推断的隐含语境。这与”prompt 的指令前置/后置位置影响效果”的工程经验高度吻合。
我坚持的边界与赌注:但对 PM 落地操作而言,Grice 四准则仍是更好的设计清单。原因有二:(1) 关联理论是描述性认知理论,它不告诉你”该往 system prompt 里写什么”;Grice 四准则是可逐条转译成约束的 checklist(Quantity→长度限制,Quality→不确定性标注,见 §3)。(2) Miehling et al.(2024, arXiv:2403.15115)正是沿 Gricean 路线,为 AI 新增了 Benevolence(善意,处理有害内容) 和 Transparency(透明,承认知识边界) 两条专属准则——这是关联理论的单一原则难以直接派生的可操作维度。我赌的是:在理论解释力上关联理论可能更优,但在 PM 工具箱里 Gricean checklist 更可用;当二者冲突时,对高风险场景我选 Gricean 的显式约束,对效率优化我借关联理论的”显著性”直觉。
第二个对手框架(Rick 未读,用来破 echo chamber):philarchive.org “Speech Acts and Large Language Models”(GORSAA)提出更尖锐的质疑——合作原则对 LLM 根本不适用,因为模型没有”合作意图”。Grice 的整个机制建立在”双方都想合作”的共同信念上;LLM 是统计拟合,无意图、无信念。若此论成立,那么”把 prompt 当言语行为”本身就是拟人化谬误。我的边界承担:这是本节最该警惕的失效点——我主张的”prompt 是言语行为”是一个对人有用的设计隐喻,不是关于模型内部的本体论断言。模型是否”真的”在做言语行为是开放的语言哲学问题(arXiv:2312.09545 关于 GPT-4 是否超越人类语用表现也无定论);但作为 PM 的设计框架,把交互建模为言语行为能让你补对盲点——这就够了。
§6 跨域呼应:从 Austin 的”以言行事”到福柯的”话语即权力”
Austin 的核心贡献是揭示语言不只描述世界,还作用于世界(performative)。把这条线索往社会理论延伸,福柯的”话语(discourse)即权力”是它的政治升级版:谁有资格做哪类言语行为,本身是权力结构的产物——只有法官能”判决”,只有医生能”诊断”,这些 Declaration 的”生效条件”就是制度性权力的分配。
这个跨域呼应如何改变本节的技术判断? 它让我看清一件工程视角看不到的事:当 LLM 被部署进决策链,它实际上在僭越言语行为的权力分配。一个内容审核模型输出”此内容违规”,在 Searle 框架里这应是 Representative(一个可错的判断),但在产品流程里它被当 Declaration(直接触发封号)执行——这是把统计判断偷换成制度性宣告的权力滑变。福柯让我们看到这不是 bug,而是技术嵌入权力结构时的结构性诱惑:系统设计者倾向于让模型输出”看起来像权威宣告”,因为这样省去人工复核。本节 §4.3 的合规盲点,本质就是 0117社会学意义上的权力问题,而非纯技术问题。这也是为什么 PM 在高风险场景必须显式标注模型输出的言语行为类型并降级——这是对话语权力的产品级治理。
§7 PM 决策启示:面试 / 选型 / 复现三类落地
- 面试桌:被问”你怎么设计 prompt”,不要答技巧合集。答:“我把 prompt 当言语行为而非命令——先做意图识别(Searle 五类路由),再按 Grice 四准则做约束(Quantity 限长、Quality 标不确定、Relation 锚定焦点、Manner 结构化)。“30 秒内把一个经验问题升到理论框架,这是判断力的展示。
- 选型会:评估对话产品时,看它是否处理会话含义与多轮 Relation——用间接请求(“这报告读着费劲”)测它会不会”字面应答”还是”识别优化意图”;用长对话测它的 Relation 维护。这比看 feature list 更能区分产品成熟度。
- 复现台:直接复用 Kim et al.(2023, arXiv:2305.13826)的 CoT + Gricean reasoning 模板——对模糊/间接 prompt,先让模型显式推断意图(按四准则),再执行。这是迄今最直接把语用学注入 prompt engineering 的实证验证(CHI’25 的 Kim et al. 2025, arXiv:2503.00858 进一步给出 9 条面向交互阶段的可操作设计考量)。
§8 与已有节点的关系(升级对照,不复述)
- 对 c02 - Tokenization 与词表工程 与 Tokenization:做正交补缺。c02/Tokenization 讲 prompt 在符号层如何被切分计费;本节讲 prompt 在意义层如何被理解。两者合起来才完整:“token 切得对”且”意图推断对”缺一不可。
- 对 上下文工程专题:做显式升级对照,不复述。0417 处理”上下文窗口里放什么、怎么排、怎么衰减”——这是工程层的上下文管理;本节处理”用户那句话真正想要什么”——这是语用层的意图理解。关系是:0417 解决”把对的信息塞进窗口”,本节解决”判断什么才是对的信息”。§3 错位四(多轮 Relation 丢失)与 0417 的”上下文衰减”是同一现象的语用侧与工程侧——0417 用更长窗口/检索缓解,本节用 Relation 重申缓解,两者互补而非重复。本节不复述 0417 的窗口管理细节。
- 对 幻觉:做重新归类。本节不复述幻觉的成因机制,而是把它重新定位为 Grice Quality 准则的违反——这给幻觉治理一个新抓手:不只是”提高事实准确率”,而是”训练模型遵守 Quality 合作准则(不确定就说不确定)”。
- 对 m209 - 推理成本控制手册:做对话。Quantity 准则(控制输出长度)直接是成本杠杆——遵守 Quantity 上界 = 降低输出 token 成本。语用学约束与成本控制在此重合。
§9 关联节点
核心(必读)
- c02 - Tokenization 与词表工程 —— prompt 的符号层,与本节意义层正交
- Tokenization —— 概念卡,token 切分机制
- 幻觉 —— 本节将其重定位为 Quality 准则违反
- m209 - 推理成本控制手册 —— Quantity 准则的成本对应
- 人类学 / 民族志 —— §4.2 跨文化合作原则差异的方法论支撑
延伸(可选)
- Embedding —— prompt 语义的向量侧
- Claude / Gemini / ChatGPT —— 不同厂商在言语行为降级(如免责声明)上的设计差异
- 0117社会学 —— §6 话语权力的社会理论入口
- AI PM 知识图谱·总索引 —— 全局导航
- 本专题同级:A01(语言学视角总论)、E03(跨文化迁移·拉美 fieldwork)、0413 多语 token 成本、0422 STS 跨文化
修订日志
- R0(2026-06-07):首稿。建立”prompt 是言语行为非命令”判断主轴,四件套错位(会话含义/Quantity/Quality/Relation),Grice + Austin–Searle 双理论支柱,关联理论 + “LLM 无合作意图”两个对手框架的”接受+边界”回应,福柯话语权力跨域呼应,与 c02/0417/幻觉/m209 升级对照,Rick 拉美 fieldwork 跨文化盲点。待 grounding pass 复核 arXiv ID 与 0417/0117 链名。
- 2026-06-11 P3.4 校链:0417 上下文工程专题现已入库,删除全文 staging 注解并恢复真链——§3 真实反例段「0417…总览〔待核实链名〕」、§8「位于 _ai_review、暂以据称引用、入库后补双链」均改为 上下文工程专题;§9 关联节点行纯文本 0413/0422 同步恢复为真链。
- 2026-06-12 内审修复:修复 §3/§8/§9 四处跨专题死链——
0417 总览/0413 总览/0422 总览在全 vault 均不存在,改为真实 basename[_上下文工程系统化专题·总览](/kb/专题-工程与成本/_上下文工程系统化专题-总览/)/[_成本工程系统化专题·总览](/kb/专题-工程与成本/_成本工程系统化专题-总览/)/[_STS 系统化专题·总览](/kb/专题-人文社科透镜/_sts-系统化专题-总览/)(保留显示别名)。