E02 跨文化 Prompt 与本地化剖解 · 知识库

同一条 prompt，换一种语言写，效果可能从 A 掉到 D——而 90% 的产品团队仍把”本地化”当成把英文 prompt 丢进 Google 翻译再贴回 system message 的体力活。本节点解决的问题是：当一个 LLM 产品要跨语言、跨文化上线时，prompt 工程在哪些地方会以工程视角看不见的方式悄悄失效，以及为什么”翻译 ≠ 本地化”这句口号在 LLM 时代有了一个全新的、可量化的技术含义。本节的视角框架是语用学（pragmatics）：本地化不是词汇替换，而是一次语用工程——你迁移的不只是字面意义，而是会话含义、言语行为的礼貌策略、以及一整套文化预设。

判断主轴一句话：同一 prompt 跨语言效果差异巨大，本地化是语用工程而非翻译工程；谁把它当翻译做，谁就会在敬语、语域、文化预设这三道暗门上系统性翻车。

§0 为什么是”语用工程”框架，而不是”翻译质量”框架

读者脑中的默认框架通常是”翻译质量”：以为跨文化 prompt 的问题是”翻得准不准”。这个框架会把你带进沟里，因为它假设存在一个语言无关的”原意”，翻译只是换壳。

但 prompt 的本质不是陈述句，而是言语行为（speech act）。借 Searle（1969，Speech Acts，Cambridge University Press）的分类：一条 prompt 几乎总是一个 Directive（指令类）——“请总结这段文字”——它的成功条件不在于字面正确，而在于听话者（模型）是否推断出了你真正想要的行为。而言语行为如何被理解，恰恰是语境敏感、文化敏感的。同一个 Directive，在英语里用裸祈使句（“Summarize this”）完全得体，直译进日语却会因为缺少敬语层（です/ます体、ください）而触发模型一套截然不同的语域反应；直译进西班牙语，tú/usted 的选择会改变整段输出的正式度。

所以正确的框架是 Grice（1975，“Logic and Conversation”，收于 Cole & Morgan 编 Syntax and Semantics vol. 3）的会话含义 + Searle 的言语行为：本地化要保的不是”what is said”（字面说了什么），而是”what is implicated”（隐含意图）和”illocutionary force”（言外之力）。换框架的收益是：你立刻知道该去哪里找 bug——不是去查词典，而是去查敬语、语域、文化预设这三类语用变量。

[!note] 跨域呼应（语用学 → 言语行为理论） Austin（1962，How to Do Things with Words）的洞见——“说话即行动”——在 prompt 工程里被字面兑现：你的 prompt 不是描述一个需求，它就是那个需求的执行。这意味着 prompt 的”翻译”必须保留 perlocutionary effect（取效行为，即对模型实际产生的效果），而不只是 locutionary content（话语字面）。这也是为什么 BLEU 分数高的翻译 prompt 仍可能是个坏 prompt——BLEU 测的是 locution，prompt 工程要的是 illocution。

§1 第一道暗门：敬语与语域（register）会改写整段输出

敬语（honorifics）和语域不是装饰，它们是会改变模型行为分布的控制信号。

证据来自语言相对性研究在 LLM 上的复现：Schut, Gal & Farquhar（2025，arXiv:2502.15603，“Do Multilingual LLMs Think in English?”）用 logit lens 证明，多语言 LLM 在处理语义实词时先生成接近英语的内部表示，再翻译到目标语言。这条隐性英语主导路径意味着：当你用日语敬体写 prompt，模型并不是在”日语原生语用空间”里推理，而是在一个英语骨架上贴日语皮——而英语没有语法化的敬语系统。结果是模型对敬语层的处理常常不稳定：要么过度正式（把客服话术写成公文），要么礼貌层在多轮中漂移。

语域变量	英语原 prompt	直译陷阱	语用工程做法
日语敬语层	”Reply to the customer.”	裸译丢失です/ます体，语域随机	显式锁定”終始敬体・丁寧語、避免尊敬語过度”
西语 tú/usted	”Help the user.”	默认 tú 在巴西商务场景失礼	system prompt 显式指定第二人称正式度
中文语气	”Tell them no.”	直译过于生硬	指定”委婉拒绝、给替代方案”（汉语高语境偏好）

这里直接接上判断主轴：敬语/语域是 prompt 的隐藏参数，翻译会把它清零，必须在本地化时显式重新注入。

§2 第二道暗门：文化预设（presupposition）与高低语境

Grice 的 Quantity 准则（信息量恰好满足需求）在跨文化场景下会爆炸，因为”恰好”是文化相对的。Hall 的高语境/低语境（high-/low-context）区分在这里是关键：英语是低语境文化，要求把话说全；中文、日语、阿拉伯语是高语境文化，大量意义靠语境承载。

一条在英语里”信息量恰好”的 prompt，直译进高语境语言后，对母语用户会显得啰嗦、说教（违反目标语言的 Quantity 预期）；反过来，一条中文里点到为止的 prompt，直译进英语会因为留白太多而触发模型的会话含义推断失败——模型补不出你省略的文化预设。

更危险的是事实性文化预设。LLM 的道德与价值判断会随提示语言变化：Aksoy（2024，arXiv:2412.18863）用 MFQ-2 道德基础问卷测 8 种语言，发现多语言 LLM 倾向施加英语主导的道德规范而非反映各文化价值观；Ramezani & Xu（2023，arXiv:2402.02135）测出 LLM 跨语言道德推理能力排序为英语 > 西班牙语 > 俄语 > 中文 > 印地语 > 斯瓦希里语。这意味着：一条隐含”个人主义”文化预设的英文 prompt（如”prioritize the user’s individual preference”），直译进强调集体/家庭决策的语境后，产出的建议会与本地用户的实际心理模型错位。

[!note] 跨域呼应（语言相对性 → 产品本地化） Winawer et al.（2007，PNAS）的”俄语蓝”实验证明语言范畴影响在线认知处理；Levinson（1997，Journal of Linguistic Anthropology）的 Guugu Yimithirr 空间框架研究证明语言塑造非语言记忆编码。把这套迁移到产品：本地化不是替换 UI 字符串，而是替换认知框架。这与人类学的”文化即意义系统”立场一致——产品本地化本质是一次跨文化翻译，而跨文化翻译从来不是词对词的。这也是 0117社会学意义上的”嵌入性”问题：技术行为嵌入在不同社会语境里，同一接口在不同语境下是不同的社会事实。

§3 第三道暗门：token 溢价让”非英语 prompt”先天吃亏

这一道暗门是工程视角最容易完全忽略、却直接决定本地化成本与质量上限的：token 溢价。同义内容在不同语言中所需 token 数差异巨大，根源是 BPE/BBPE tokenizer 的词表以英语为主构建（详见 c02 - Tokenization 与词表工程与 Tokenization，本节点不复述其机制）。

已发表的量化（均基于 FLORES-200 等平行语料）：Petrov et al.（2023，NeurIPS，arXiv:2305.15425）测出跨语言 tokenization 长度差最高 15×；Ahia et al.（2023，EMNLP，“Do All Languages Cost the Same?”）发现 token 溢价与各语言所属地区的 HDI 负相关——越欠发达地区的语言，用 AI 越贵。对 Rick 的拉美/巴西战场尤其要命：

语言/场景	token 溢价（vs 英语）	来源	本地化含义
葡语 (pt)，GPT-4/ChatGPT tokenizer	~1.5×（约多 50% token）	Petrov et al. 2023（arXiv:2305.15425），葡语是与英语最接近平价的语言之一	同一 system prompt 在巴西多吃 ~50% 上下文
巴西葡语 (pt-BR)，Llama-2 32K 词表	更高，~1.8–2.5×	〔示意，32K 英语偏向词表的量级估算，未直接核实〕	旧/小词表下溢价显著放大
西语，主流 BPE	~1.3–1.6×	Petrov et al. 2023：西/法/葡溢价相近	与中文相近，溢价中等
拉美土著语（瓜拉尼/克丘亚/马雅语系）	字节级碎片，最高量级 15×	Petrov et al. 2023（跨语言最高差达 15×）	几乎无法有效 prompt，本地化成本极高

产品含义直接而残酷：用高溢价语言写的 prompt，相同信息量挤占更多上下文、更贵、且 fertility 越高质量越可能下降（Lundin et al. 2025，arXiv:2509.05486 在 16 种非洲语言上测到每多 1 token/词、准确率掉 8–18 个百分点）。所以本地化不是”翻译完就行”——你可能需要为高溢价语言重写更紧凑的 prompt、改用对该语言更友好的模型（CJK 场景下 Qwen/DeepSeek 有结构性 token 优势，详见 c02 - Tokenization 与词表工程），并按字符数而非 token 数重做上下文预算（关联 m209 - 推理成本控制手册）。

§4 判断主轴 · 90% 的人会搞错的四个点

#	症状	为什么会错	正确做法	真实反例
1	把 system prompt 直接机翻成 N 种语言上线	误以为 prompt 是陈述句、存在语言无关的”原意”	按语用变量（敬语/语域/语境度）重写，不是翻译	直译的英文裸祈使句进日语后语域随机漂移（语用预期：终始敬体）
2	用 BLEU/翻译质量评估本地化 prompt	BLEU 测 locution，prompt 要的是 illocution（言外之力）	评估指标改为目标语言下的任务成功率，做语言分层 A/B	Ren et al. 2026（arXiv:2604.14210）证明中文 prompt 即便省 token，任务成功率仍可能更低
3	假设模型在每种语言里”原生”推理	忽略隐性英语主导路径	对非英语场景显式补偿文化预设，必要时英语推理 + 目标语言输出	Schut et al. 2025：模型先生成英语内部表示再翻译
4	各语言用同一 token/成本预算	忽略 token 溢价	按语言设差异化预算（中/日 1.2–1.6×、葡语更高），高溢价语言重写更紧凑 prompt	Ahia et al. 2023：溢价与 HDI 负相关，低资源语言系统性更贵

§5 产品 PM 视角补盲

工程 PM 会盯着”翻译准确率”和”延迟”，但跨文化本地化真正的看走眼点在别处：

用户心理模型错位：高语境用户期待”读懂言外之意”，低语境用户期待”把话说全”。同一个 AI 客服，对德国用户该直给、对日本用户该铺垫。这不是 prompt 措辞问题，是产品对话策略问题。
合规/安全边界因语言而崩：低资源语言的安全对齐更脆弱（研究显示极少数据即可绕过非英语对齐）。一个在英语上过了红队的产品，在斯瓦希里语上可能裸奔。本地化必须包含语言分层的安全评测，不能假设英语对齐能迁移。
GTM 与定价：token 溢价直接吃毛利。一个按英语 token 算账的定价模型，进巴西/印度市场会被溢价侵蚀单位经济。PM 要在商业模型里把溢价当一等变量。

§6 对手框架回应（接受 + 边界）

对手立场一：Sperber & Wilson 的关联理论（Relevance Theory，1986/1995）认为 Grice 四准则冗余，一条”关联原则”即可解释一切含义推断。 接受：他们对的——人类（和可能 LLM）天然寻求”认知效益/处理成本”最优，逐条核查四准则确实不符合实际处理机制。边界：对做本地化工程的 PM 而言，Grice 四准则的可操作性高于关联理论——你没法在 system prompt 里写”请最大化关联性”，但你能写”信息量恰好、不啰嗦”（Quantity）。关联理论是更好的解释框架，Gricean 是更好的施工框架；本节点赌的是后者的工程价值。

对手立场二：工程派认为”模型够强就能自动处理跨文化，不需要语用工程”——大模型规模上来后本地化是伪问题。 接受：前沿模型（GPT-4o、Claude、Gemini）的跨语言差距确在缩小（Ramezani & Xu 2023 测出 GPT-4 跨语言道德推理差距最小）。边界：差距缩小 ≠ 消失。Ma et al.（2025，arXiv:2502.12378，ACL 2025）综述明确：LLM 对含义和指称等语用现象的处理仍是重大挑战，专项数据集严重不足。PM 决策无法等待”模型足够强”那一天——拉美/CJK 产品现在就要上线，语用工程是当下的必需品而非可选项。

[!warning] failure scenario · 本节点结论的失效边界本节点把”敬语/语域/文化预设/token 溢价”列为四道暗门，但这套框架在两类场景会失效：(1) 纯代码/数学 prompt——这类 prompt 几乎无文化预设，语用工程收益接近零，直译即可；(2) 目标语言是高资源近邻语言（如英→西、英→德），语用距离小、token 溢价低，本地化收益边际递减。把语用工程无差别套用到所有语言对，是过度工程。

confirmation-bias 砍除：本节点早期论证倾向反复引”翻译 ≠ 本地化”作为正面口号，但要补反例——Ren et al. 2026（“Chinese Language Is Not More Efficient Than English in Vibe Coding: A Preliminary Study on Token Cost and Problem-Solving Rate”，arXiv:2604.14210）正面打脸了”中文 prompt 更省/更优”这类民俗式本地化直觉：本地化不等于”换母语就更好”，盲目本地化同样会翻车。本地化是工程，要测，不是信仰。

§7 PM 决策启示

面试：被问”如何做 LLM 产品本地化”，标准答案是”翻译 system prompt”——这是 C 级答案。A 级答案：本地化是语用工程，分敬语/语域/文化预设/token 溢价四个维度，评估指标用任务成功率而非 BLEU，安全对齐要语言分层。一句话亮判断：“翻译保的是字面，本地化保的是言外之力。”
选型：CJK/高溢价语言密集场景，把 tokenizer fertility 和语言分层安全评测纳入选型矩阵（呼应 c02 - Tokenization 与词表工程）。
复现：搭一个最小语言分层 A/B——同一任务的 prompt，分别用机翻版 vs 语用工程版，在目标语言上跑任务成功率，量出差距。这是把本节点判断变成可证伪实验的最小动作。

§8 与已有节点的关系

对照 c02 - Tokenization 与词表工程 / Tokenization：本节点深化其”2.3 多语言陷阱”小节——c02 讲 token 溢价的机制，本节点接住它在跨文化 prompt 本地化上的产品后果，不复述 BPE 机制。
对照 m209 - 推理成本控制手册：本节点为其补一个语言维度——成本控制不只是模型分层和缓存，还要按语言做差异化 token 预算。
对照本专题 A04（语用学 · Grice 与言语行为）：本节点是其病理学落地——A04 立理论，本节点剖现实怎么走样。对照本专题同模块 E03（跨文化 fieldwork 迁移）：显式承接 Rick 的滴滴/99 拉美多语言 fieldwork，E03 提供田野证据，本节点提供语用工程框架。
升级方向（非复述）：把”翻译 ≠ 本地化”从口号升级为可量化的四维语用工程清单。

§9 关联节点

核心（必读）

c02 - Tokenization 与词表工程
Tokenization
m209 - 推理成本控制手册
人类学
0117社会学
CPF实名验证
拉美知识图

延伸（可选）

Embedding
幻觉
Claude
Gemini
ChatGPT
民族志
PAX-Premium实名徽章
墨西哥
阿根廷
哥伦比亚
AI PM 知识图谱·总索引

修订日志

R0（2026-06-07）：首稿。确立”本地化 = 语用工程”判断主轴，四道暗门（敬语/语域/文化预设/token 溢价），四件套判断主轴表，接入 Sperber & Wilson 关联理论与”模型够强论”两个对手框架，标注两类 failure scenario 与一处 confirmation-bias 砍除（Ren et al. 2026, arXiv:2604.14210）。
R0.1（2026-06-07）：WebSearch 核实葡语 token 溢价——Petrov et al. 2023 确证葡语在 GPT-4/ChatGPT tokenizer 下约多 50% token（~1.5×），是与英语最接近平价的语言之一；跨语言最高差达 15×。表中据此替换原〔示意〕值，Llama-2 32K 的更高量级估算仍保留〔示意〕标注。
2026-06-12 内审修复：去掉 arXiv:2604.14210 库内自创的”Mythbuster:“前缀（§3 confirmation-bias 砍除段 + R0 日志），补回真实副标题”Chinese Language Is Not More Efficient Than English in Vibe Coding: A Preliminary Study on Token Cost and Problem-Solving Rate”（来源：Rick 内审权威值）。