A02 语用学与 Prompt 设计

一条 prompt 写下去到底是在做什么？工程默认答案是”它是一段指令字符串，模型按字面执行”。这个答案在 90% 的失败 prompt 背后埋着一颗雷：prompt 不是命令，而是一次言语行为（speech act）——它的实际意义依赖语境、依赖说话者意图、依赖听话者（模型）对”你到底想要什么”的推断。把 prompt 当命令而非言语行为，等于把语言学积累了七十年的”字面意义 ≠ 交际意义”的洞察整个扔掉。本节用语用学（Pragmatics）的两个支柱——Grice 的会话含义（conversational implicature）和 Austin–Searle 的言语行为理论——来重构”prompt 是什么”这个问题，并给出 PM 在 system prompt 设计、意图路由、多轮对话维护上的具体决策。

[!warning] 判断主轴（一句话）把 prompt 当”命令”是工程视角的窄化；prompt 本质是”言语行为”，其意义在语境中推断而非在字面中给定——忽视这一点是产品级歧义的系统性根源。

§0 为什么是语用学，而不是”prompt engineering 技巧合集”

业界主流的 prompt 框架（few-shot、CoT、ReAct、role-play、structured output）是经验技巧的归纳，缺一个解释性理论：为什么”请扮演一个资深律师”会改变输出质量？为什么”一步步想”会提升推理？为什么同样语义的两句 prompt 效果天差地别？

候选框架有三个，我先做框架级辨析，挡掉两个错误默认：

候选框架	它说 prompt 是什么	为什么不够
句法/语义框架（把 prompt 当形式语言）	prompt 是一段需被”解析执行”的代码	解释不了”字面相同、语境不同则意义不同”，也解释不了间接请求
统计模式框架（prompt 是触发分布的 key）	prompt 是检索训练分布的查询向量	描述了机制，但不提供设计规范——无法告诉 PM”该补什么”
语用学框架（prompt 是言语行为）	prompt 是带意图的交际行为，意义需推断	✅ 既解释现象，又给出可操作的设计准则（见 §3）

选语用学，不是因为它”更高级”，而是因为它唯一同时回答”为什么会错”和”该怎么补”。句法框架告诉你 prompt 是字符串（对，但无用）；统计框架告诉你 prompt 触发分布（对，但只是机制描述）；只有语用学给出”prompt 作为交际行为，其字面之下还有意图层、语境层、合作层”这一可补缺的结构。

这也是本节与下文 c02 - Tokenization 与词表工程的分工：c02 处理 prompt 在符号层如何被切分（token），本节处理 prompt 在意义层如何被理解（pragmatics）。两者正交——token 切得再优，意图推断错了照样答非所问。

§1 Grice：合作原则与”prompt 是一次合作的交际”

Grice 在 1967 年哈佛 William James 讲座（正式发表于 1975 年，收入 Cole & Morgan 编 Syntax and Semantics vol. 3；后收入 Studies in the Way of Words, 1989）提出合作原则（Cooperative Principle）：交际双方默认对方在”按当前对话目的提供恰当贡献”。其下四条准则：

准则	内容	prompt 设计对应
Quantity（量）	信息量恰好，不多不少	system prompt 应规定详略；否则模型 verbosity bias 倾向过度输出
Quality（质）	只说你相信为真、有据的	要求模型标注不确定性，不捏造——幻觉 = Quality 的严重违反
Relation（关）	保持话题相关	多轮对话要重申焦点，防漂移
Manner（式）	清晰、简短、有序、避歧义	显式指定结构（markdown／编号步骤）

会话含义的机制是这里的核心洞察：说话者表面违反某准则（flouting），听话者基于”对方仍在合作”的假设，反推出字面之外的隐含意义。经典例：“Can you pass the salt?”——字面是能力问句（违反 Quantity，因为”能不能”是废话），听话者据此推断真实意图是请求。

这对 prompt 设计意味着什么？用户的 prompt 几乎总是带会话含义的。用户输入”这段代码有点慢”，字面是陈述，含义是”帮我优化”。一个把 prompt 当命令的系统会回答”是的，它确实慢”（字面合作）；一个理解会话含义的系统会启动优化（交际合作）。

[!note] 这里有一个被低估的不对称人类听话者自动做含义推断（Grice 假设这是合作的默认）；LLM 不会自动做，它需要被显式提示去推断。Kim et al.（2023, arXiv:2305.13826）证明：把 Grice 四准则注入 Chain-of-Thought，模型在会话含义理解任务上能超越人类平均水平。这不是模型天生会的，而是被语用学理论”教会”的。

§2 Austin–Searle：prompt 是哪一类言语行为

Austin 在 How to Do Things with Words（1955 哈佛讲座，1962 身后出版）提出：有些话语不是描述事实，而本身就是行动——“我宣布二位结为夫妻""我把这艘船命名为……”。他后来放弃 constative/performative 二分，提出三层：

Locutionary（话语行为）：发出有意义的语言表达
Illocutionary（以言行事）：通过说话完成的约定行为——命令、请求、断言、承诺
Perlocutionary（取效行为）：说话产生的实际效果——被说服、被激怒

Searle（Speech Acts, 1969, Cambridge UP）批评 Austin 分类”过于依赖词汇列举”，改用基于原则的五类分类（据 Stanford Encyclopedia of Philosophy “Speech Acts” 条目）：

Searle 五类	定义	在人–LLM 交互中的对应
Representatives（断言类）	承诺命题为真	模型答事实问题、用户陈述前提
Directives（指令类）	让对方做某事	”请总结这段”——最常见的 prompt 类型
Commissives（承诺类）	承诺未来行动	模型”我将分三步执行”
Expressives（表达类）	表达心理状态	模型”很抱歉给您带来困扰”
Declarations（宣告类）	说即改变现实	管理员”你已被封号”——危害系数最高

对 PM 最直接的用处：意图识别（intent detection）。 对话系统的槽位填充、路由分发，本质就是先判断用户 prompt 属于 Searle 哪一类——Directive 走任务执行链，Representative 走知识检索链，Commissive 走 agent 规划链。这正是多 agent 框架里消息类型（inform / request / agree / propose）的理论祖先，可上溯到 FIPA ACL（1997）的 agent 通信语言。

[!note] direction of fit（适合方向）——一个被工程忽视的开关 Searle 区分：断言是 word-to-world（话语应匹配世界），命令/请求是 world-to-world（世界应匹配话语）。一条 prompt 同时可能两个方向：用户说”我们的退款率是 5%“（断言，word-to-world）“把它降下来”（指令，world-to-word）。把整条 prompt 当单一命令处理的系统，会丢掉前半句的事实校验。direction of fit 是判断”这部分要核实事实 vs. 这部分要执行动作”的语用学开关。

§3 判断主轴：把 prompt 当命令的四个致命错位

[!warning] 这是本节命门：90% 的 prompt 失败都能归到下面四个”命令式误读”

错位一：忽视会话含义，只执行字面

症状：用户输入”这个方案风险大吗”，模型回”是的，有风险”（字面应答），不给缓解措施。
为什么会错：把 prompt 当 constative（描述性问句）字面处理，忽视它的 illocutionary force 其实是 directive（“请评估并给建议”）。
正确做法：在 system prompt 中显式要求模型先做意图推断（“先判断用户真正想要什么，再回应”），即 Kim et al. 2023 的 CoT + Gricean reasoning 路径。
真实反例：早期客服 bot 对”我的快递怎么还没到”回”您的快递正在运输中”——字面合作，交际失败，因为它没识别出含义是”请催/请赔”这一 directive。

错位二：违反 Quantity，过度或不足输出

症状：问”今天天气”，模型输出三段气象学讲解（违反 Quantity 上界）；或要详细方案却只给一句话（违反下界）。
为什么会错：命令式视角假设”模型知道该说多少”，但 Quantity 是语境相关的合作判断，不是命令里写死的。LLM 有结构性的 verbosity bias（RLHF 偏好更长回答），默认违反 Quantity 上界。
正确做法：system prompt 硬编码长度约束（“不超过 200 字""只给结论不给推理”），用规则补偿模型缺失的 Quantity 直觉。
真实反例：未约束的总结类 prompt 普遍产出”摘要比原文还长”，这是 Quantity 违规的经典形态。

错位三：把 Quality 违规（幻觉）当”执行正常”

症状：模型自信编造一个不存在的 API、一篇不存在的论文。
为什么会错：命令式视角里”模型给了输出 = 命令执行成功”，但语用学视角里，幻觉是 Quality 准则的根本违反——它”说了它没有据信为真的话”。
正确做法：把 Quality 当成可监控的语用约束——要求模型在证据不足时说”我不确定”，并对宣告类（Declarations）输出加最高审查（arXiv:2504.00928 指出 Declarations 类输出危害系数最高）。
真实反例：法律、医疗场景中模型”宣告”某条款存在/某药安全——这是 Declaration 类 Quality 违规，后果最严重。

错位四：单轮命令视角丢失多轮 Relation

症状：多轮对话到第 5 轮，模型忘了第 1 轮设定的主题，开始跑题。
为什么会错：命令式视角把每轮当独立命令，但合作原则下的 Relation 是跨轮维持的——对话有”被接受的方向”。
正确做法：在每轮 prompt 中人工重申焦点（“继续围绕 X 这个目标”），人工维护 Relevance（这正是 Sperber & Wilson 关联理论强调的——见 §6）。
真实反例：长对话 agent 在工具调用十几步后”忘记初始目标”，是 Relation 维护失败的典型——这与上下文工程专题处理的”上下文衰减”是同一现象的两个侧面（见 §8 升级对照）。

§4 产品 PM 视角补盲：工程看不到的三个语用盲点

工程把 prompt 当字符串，看不到下面三层：

用户心理模型的语用错配。用户对 LLM 说话时，会无意识套用人类合作原则——他们省略他们认为”对方应该懂”的语境（Grice 的 Quantity：不说废话）。于是用户写”帮我弄一下那个”，省略了”那个”指什么，因为人类对话里指代靠共享语境补全。产品若不主动追问（“您指的是哪个文件？”），就是默认了一个用户并没给的语境。这是 onboarding 流失的隐形杀手：用户按人类合作习惯说话，系统按命令习惯执行，错配产生挫败。
跨文化的合作原则差异。Grice 假设合作原则普适，但人类学和跨文化语用学早有反例：高语境文化（日本、拉美部分场景）的”恰当信息量”远低于低语境文化（德、美），因为更多意义靠语境承载。Rick 在滴滴/99 巴西、墨西哥的 fieldwork 里见过这种张力：巴西用户的客服表达常带大量寒暄与间接请求（间接 directive），一个按低语境 Quantity 标准训练/调优的系统会觉得”信息冗余、意图不明”，反之亦然。Prompt 的合作准则不是文化中立的——这一点与人类学的民族志视角直接相关，也呼应本专题 E03 跨文化迁移节点。
合规边界即 Declaration 边界。Searle 的宣告类言语行为”说即改变现实”——只有具备制度性权力的人说才生效（法官说”判处”才有效）。LLM 没有这种权力，但用户/下游系统可能把模型输出当 Declaration 对待（“AI 说我违规了，所以封号”）。把模型的 Representative（“据我判断这可能违规”）误当 Declaration（“你违规了”）执行，是 AI 合规事故的语用学根源。PM 必须在产品层显式降级模型输出的言语行为类型——这是 Claude 等厂商在高风险场景加”this is not legal advice”的语用学本质。

§5 对手框架回应：关联理论（Relevance Theory）会怎么打 Gricean prompt 设计

[!quote] 接受 + 边界，不是反驳

对手立场（Sperber & Wilson, Relevance, 1986/1995）：Grice 的四条准则是冗余的。人类认知天然追求最大关联性——一个话语值得处理，当且仅当其认知效益（cognitive effect）超过处理成本（cognitive effort）。不需要四条准则，只需一条关联原则。Horn（1984）的 Q/R 二原则、Levinson（2000）的 Q/I/M 三原则也都认为 Grice 准则相互重叠、界定模糊（“Relation 太含糊，Quantity 与 Relevance 重叠”）。

我接受的部分：关联理论对 prompt 设计可能更接近机制真相。如果模型本质是在”最小化处理成本、最大化相关信息”，那么逐条核查四准则就是错误的工程隐喻——更对的做法是降低模型的推断成本 + 提高关键信息的显著性（salience）：把最相关的约束放在 prompt 显著位置（开头/结尾）、减少需要模型自行推断的隐含语境。这与”prompt 的指令前置/后置位置影响效果”的工程经验高度吻合。

我坚持的边界与赌注：但对 PM 落地操作而言，Grice 四准则仍是更好的设计清单。原因有二：(1) 关联理论是描述性认知理论，它不告诉你”该往 system prompt 里写什么”；Grice 四准则是可逐条转译成约束的 checklist（Quantity→长度限制，Quality→不确定性标注，见 §3）。(2) Miehling et al.（2024, arXiv:2403.15115）正是沿 Gricean 路线，为 AI 新增了 Benevolence（善意，处理有害内容） 和 Transparency（透明，承认知识边界） 两条专属准则——这是关联理论的单一原则难以直接派生的可操作维度。我赌的是：在理论解释力上关联理论可能更优，但在 PM 工具箱里 Gricean checklist 更可用；当二者冲突时，对高风险场景我选 Gricean 的显式约束，对效率优化我借关联理论的”显著性”直觉。

第二个对手框架（Rick 未读，用来破 echo chamber）：philarchive.org “Speech Acts and Large Language Models”（GORSAA）提出更尖锐的质疑——合作原则对 LLM 根本不适用，因为模型没有”合作意图”。Grice 的整个机制建立在”双方都想合作”的共同信念上；LLM 是统计拟合，无意图、无信念。若此论成立，那么”把 prompt 当言语行为”本身就是拟人化谬误。我的边界承担：这是本节最该警惕的失效点——我主张的”prompt 是言语行为”是一个对人有用的设计隐喻，不是关于模型内部的本体论断言。模型是否”真的”在做言语行为是开放的语言哲学问题（arXiv:2312.09545 关于 GPT-4 是否超越人类语用表现也无定论）；但作为 PM 的设计框架，把交互建模为言语行为能让你补对盲点——这就够了。

§6 跨域呼应：从 Austin 的”以言行事”到福柯的”话语即权力”

Austin 的核心贡献是揭示语言不只描述世界，还作用于世界（performative）。把这条线索往社会理论延伸，福柯的”话语（discourse）即权力”是它的政治升级版：谁有资格做哪类言语行为，本身是权力结构的产物——只有法官能”判决”，只有医生能”诊断”，这些 Declaration 的”生效条件”就是制度性权力的分配。

这个跨域呼应如何改变本节的技术判断？ 它让我看清一件工程视角看不到的事：当 LLM 被部署进决策链，它实际上在僭越言语行为的权力分配。一个内容审核模型输出”此内容违规”，在 Searle 框架里这应是 Representative（一个可错的判断），但在产品流程里它被当 Declaration（直接触发封号）执行——这是把统计判断偷换成制度性宣告的权力滑变。福柯让我们看到这不是 bug，而是技术嵌入权力结构时的结构性诱惑：系统设计者倾向于让模型输出”看起来像权威宣告”，因为这样省去人工复核。本节 §4.3 的合规盲点，本质就是 0117社会学意义上的权力问题，而非纯技术问题。这也是为什么 PM 在高风险场景必须显式标注模型输出的言语行为类型并降级——这是对话语权力的产品级治理。

§7 PM 决策启示：面试 / 选型 / 复现三类落地

面试桌：被问”你怎么设计 prompt”，不要答技巧合集。答：“我把 prompt 当言语行为而非命令——先做意图识别（Searle 五类路由），再按 Grice 四准则做约束（Quantity 限长、Quality 标不确定、Relation 锚定焦点、Manner 结构化）。“30 秒内把一个经验问题升到理论框架，这是判断力的展示。
选型会：评估对话产品时，看它是否处理会话含义与多轮 Relation——用间接请求（“这报告读着费劲”）测它会不会”字面应答”还是”识别优化意图”；用长对话测它的 Relation 维护。这比看 feature list 更能区分产品成熟度。
复现台：直接复用 Kim et al.（2023, arXiv:2305.13826）的 CoT + Gricean reasoning 模板——对模糊/间接 prompt，先让模型显式推断意图（按四准则），再执行。这是迄今最直接把语用学注入 prompt engineering 的实证验证（CHI’25 的 Kim et al. 2025, arXiv:2503.00858 进一步给出 9 条面向交互阶段的可操作设计考量）。

§8 与已有节点的关系（升级对照，不复述）

对 c02 - Tokenization 与词表工程与 Tokenization：做正交补缺。c02/Tokenization 讲 prompt 在符号层如何被切分计费；本节讲 prompt 在意义层如何被理解。两者合起来才完整：“token 切得对”且”意图推断对”缺一不可。
对上下文工程专题：做显式升级对照，不复述。0417 处理”上下文窗口里放什么、怎么排、怎么衰减”——这是工程层的上下文管理；本节处理”用户那句话真正想要什么”——这是语用层的意图理解。关系是：0417 解决”把对的信息塞进窗口”，本节解决”判断什么才是对的信息”。§3 错位四（多轮 Relation 丢失）与 0417 的”上下文衰减”是同一现象的语用侧与工程侧——0417 用更长窗口/检索缓解，本节用 Relation 重申缓解，两者互补而非重复。本节不复述 0417 的窗口管理细节。
对幻觉：做重新归类。本节不复述幻觉的成因机制，而是把它重新定位为 Grice Quality 准则的违反——这给幻觉治理一个新抓手：不只是”提高事实准确率”，而是”训练模型遵守 Quality 合作准则（不确定就说不确定）”。
对 m209 - 推理成本控制手册：做对话。Quantity 准则（控制输出长度）直接是成本杠杆——遵守 Quantity 上界 = 降低输出 token 成本。语用学约束与成本控制在此重合。

§9 关联节点

核心（必读）

c02 - Tokenization 与词表工程 —— prompt 的符号层，与本节意义层正交
Tokenization —— 概念卡，token 切分机制
幻觉 —— 本节将其重定位为 Quality 准则违反
m209 - 推理成本控制手册 —— Quantity 准则的成本对应
人类学 / 民族志 —— §4.2 跨文化合作原则差异的方法论支撑

延伸（可选）

Embedding —— prompt 语义的向量侧
Claude / Gemini / ChatGPT —— 不同厂商在言语行为降级（如免责声明）上的设计差异
0117社会学 —— §6 话语权力的社会理论入口
AI PM 知识图谱·总索引 —— 全局导航
本专题同级：A01（语言学视角总论）、E03（跨文化迁移·拉美 fieldwork）、0413 多语 token 成本、0422 STS 跨文化

修订日志

R0（2026-06-07）：首稿。建立”prompt 是言语行为非命令”判断主轴，四件套错位（会话含义/Quantity/Quality/Relation），Grice + Austin–Searle 双理论支柱，关联理论 + “LLM 无合作意图”两个对手框架的”接受+边界”回应，福柯话语权力跨域呼应，与 c02/0417/幻觉/m209 升级对照，Rick 拉美 fieldwork 跨文化盲点。待 grounding pass 复核 arXiv ID 与 0417/0117 链名。
2026-06-11 P3.4 校链：0417 上下文工程专题现已入库，删除全文 staging 注解并恢复真链——§3 真实反例段「0417…总览〔待核实链名〕」、§8「位于 _ai_review、暂以据称引用、入库后补双链」均改为上下文工程专题；§9 关联节点行纯文本 0413/0422 同步恢复为真链。
2026-06-12 内审修复：修复 §3/§8/§9 四处跨专题死链——0417 总览/0413 总览/0422 总览 在全 vault 均不存在，改为真实 basename [_上下文工程系统化专题·总览](/kb/专题-工程与成本/_上下文工程系统化专题-总览/)/[_成本工程系统化专题·总览](/kb/专题-工程与成本/_成本工程系统化专题-总览/)/[_STS 系统化专题·总览](/kb/专题-人文社科透镜/_sts-系统化专题-总览/)（保留显示别名）。