R

E02 跨文化 Prompt 与本地化剖解

创建 2026-06-07 更新 2026-06-12 1 条双链 计算语言学 专题 AI 整理

同一条 prompt,换一种语言写,效果可能从 A 掉到 D——而 90% 的产品团队仍把”本地化”当成把英文 prompt 丢进 Google 翻译再贴回 system message 的体力活。本节点解决的问题是:当一个 LLM 产品要跨语言、跨文化上线时,prompt 工程在哪些地方会以工程视角看不见的方式悄悄失效,以及为什么”翻译 ≠ 本地化”这句口号在 LLM 时代有了一个全新的、可量化的技术含义。本节的视角框架是语用学(pragmatics):本地化不是词汇替换,而是一次语用工程——你迁移的不只是字面意义,而是会话含义、言语行为的礼貌策略、以及一整套文化预设。

判断主轴一句话:同一 prompt 跨语言效果差异巨大,本地化是语用工程而非翻译工程;谁把它当翻译做,谁就会在敬语、语域、文化预设这三道暗门上系统性翻车。

§0 为什么是”语用工程”框架,而不是”翻译质量”框架

读者脑中的默认框架通常是”翻译质量”:以为跨文化 prompt 的问题是”翻得准不准”。这个框架会把你带进沟里,因为它假设存在一个语言无关的”原意”,翻译只是换壳。

但 prompt 的本质不是陈述句,而是言语行为(speech act)。借 Searle(1969,Speech Acts,Cambridge University Press)的分类:一条 prompt 几乎总是一个 Directive(指令类)——“请总结这段文字”——它的成功条件不在于字面正确,而在于听话者(模型)是否推断出了你真正想要的行为。而言语行为如何被理解,恰恰是语境敏感、文化敏感的。同一个 Directive,在英语里用裸祈使句(“Summarize this”)完全得体,直译进日语却会因为缺少敬语层(です/ます体、ください)而触发模型一套截然不同的语域反应;直译进西班牙语,tú/usted 的选择会改变整段输出的正式度。

所以正确的框架是 Grice(1975,“Logic and Conversation”,收于 Cole & Morgan 编 Syntax and Semantics vol. 3)的会话含义 + Searle 的言语行为:本地化要保的不是”what is said”(字面说了什么),而是”what is implicated”(隐含意图)和”illocutionary force”(言外之力)。换框架的收益是:你立刻知道该去哪里找 bug——不是去查词典,而是去查敬语、语域、文化预设这三类语用变量。

[!note] 跨域呼应(语用学 → 言语行为理论) Austin(1962,How to Do Things with Words)的洞见——“说话即行动”——在 prompt 工程里被字面兑现:你的 prompt 不是描述一个需求,它就是那个需求的执行。这意味着 prompt 的”翻译”必须保留 perlocutionary effect(取效行为,即对模型实际产生的效果),而不只是 locutionary content(话语字面)。这也是为什么 BLEU 分数高的翻译 prompt 仍可能是个坏 prompt——BLEU 测的是 locution,prompt 工程要的是 illocution。

§1 第一道暗门:敬语与语域(register)会改写整段输出

敬语(honorifics)和语域不是装饰,它们是会改变模型行为分布的控制信号

证据来自语言相对性研究在 LLM 上的复现:Schut, Gal & Farquhar(2025,arXiv:2502.15603,“Do Multilingual LLMs Think in English?”)用 logit lens 证明,多语言 LLM 在处理语义实词时先生成接近英语的内部表示,再翻译到目标语言。这条隐性英语主导路径意味着:当你用日语敬体写 prompt,模型并不是在”日语原生语用空间”里推理,而是在一个英语骨架上贴日语皮——而英语没有语法化的敬语系统。结果是模型对敬语层的处理常常不稳定:要么过度正式(把客服话术写成公文),要么礼貌层在多轮中漂移。

语域变量英语原 prompt直译陷阱语用工程做法
日语敬语层”Reply to the customer.”裸译丢失です/ます体,语域随机显式锁定”終始敬体・丁寧語、避免尊敬語过度”
西语 tú/usted”Help the user.”默认 tú 在巴西商务场景失礼system prompt 显式指定第二人称正式度
中文语气”Tell them no.”直译过于生硬指定”委婉拒绝、给替代方案”(汉语高语境偏好)

这里直接接上判断主轴:敬语/语域是 prompt 的隐藏参数,翻译会把它清零,必须在本地化时显式重新注入。

§2 第二道暗门:文化预设(presupposition)与高低语境

Grice 的 Quantity 准则(信息量恰好满足需求)在跨文化场景下会爆炸,因为”恰好”是文化相对的。Hall 的高语境/低语境(high-/low-context)区分在这里是关键:英语是低语境文化,要求把话说全;中文、日语、阿拉伯语是高语境文化,大量意义靠语境承载。

一条在英语里”信息量恰好”的 prompt,直译进高语境语言后,对母语用户会显得啰嗦、说教(违反目标语言的 Quantity 预期);反过来,一条中文里点到为止的 prompt,直译进英语会因为留白太多而触发模型的会话含义推断失败——模型补不出你省略的文化预设。

更危险的是事实性文化预设。LLM 的道德与价值判断会随提示语言变化:Aksoy(2024,arXiv:2412.18863)用 MFQ-2 道德基础问卷测 8 种语言,发现多语言 LLM 倾向施加英语主导的道德规范而非反映各文化价值观;Ramezani & Xu(2023,arXiv:2402.02135)测出 LLM 跨语言道德推理能力排序为英语 > 西班牙语 > 俄语 > 中文 > 印地语 > 斯瓦希里语。这意味着:一条隐含”个人主义”文化预设的英文 prompt(如”prioritize the user’s individual preference”),直译进强调集体/家庭决策的语境后,产出的建议会与本地用户的实际心理模型错位。

[!note] 跨域呼应(语言相对性 → 产品本地化) Winawer et al.(2007,PNAS)的”俄语蓝”实验证明语言范畴影响在线认知处理;Levinson(1997,Journal of Linguistic Anthropology)的 Guugu Yimithirr 空间框架研究证明语言塑造非语言记忆编码。把这套迁移到产品:本地化不是替换 UI 字符串,而是替换认知框架。这与 人类学 的”文化即意义系统”立场一致——产品本地化本质是一次跨文化翻译,而跨文化翻译从来不是词对词的。这也是 0117社会学 意义上的”嵌入性”问题:技术行为嵌入在不同社会语境里,同一接口在不同语境下是不同的社会事实。

§3 第三道暗门:token 溢价让”非英语 prompt”先天吃亏

这一道暗门是工程视角最容易完全忽略、却直接决定本地化成本与质量上限的:token 溢价。同义内容在不同语言中所需 token 数差异巨大,根源是 BPE/BBPE tokenizer 的词表以英语为主构建(详见 c02 - Tokenization 与词表工程Tokenization,本节点不复述其机制)。

已发表的量化(均基于 FLORES-200 等平行语料):Petrov et al.(2023,NeurIPS,arXiv:2305.15425)测出跨语言 tokenization 长度差最高 15×;Ahia et al.(2023,EMNLP,“Do All Languages Cost the Same?”)发现 token 溢价与各语言所属地区的 HDI 负相关——越欠发达地区的语言,用 AI 越贵。对 Rick 的拉美/巴西战场尤其要命:

语言/场景token 溢价(vs 英语)来源本地化含义
葡语 (pt),GPT-4/ChatGPT tokenizer~1.5×(约多 50% token)Petrov et al. 2023(arXiv:2305.15425),葡语是与英语最接近平价的语言之一同一 system prompt 在巴西多吃 ~50% 上下文
巴西葡语 (pt-BR),Llama-2 32K 词表更高,~1.8–2.5×〔示意,32K 英语偏向词表的量级估算,未直接核实〕旧/小词表下溢价显著放大
西语,主流 BPE~1.3–1.6×Petrov et al. 2023:西/法/葡溢价相近与中文相近,溢价中等
拉美土著语(瓜拉尼/克丘亚/马雅语系)字节级碎片,最高量级 15×Petrov et al. 2023(跨语言最高差达 15×)几乎无法有效 prompt,本地化成本极高

产品含义直接而残酷:用高溢价语言写的 prompt,相同信息量挤占更多上下文、更贵、且 fertility 越高质量越可能下降(Lundin et al. 2025,arXiv:2509.05486 在 16 种非洲语言上测到每多 1 token/词、准确率掉 8–18 个百分点)。所以本地化不是”翻译完就行”——你可能需要为高溢价语言重写更紧凑的 prompt、改用对该语言更友好的模型(CJK 场景下 Qwen/DeepSeek 有结构性 token 优势,详见 c02 - Tokenization 与词表工程),并按字符数而非 token 数重做上下文预算(关联 m209 - 推理成本控制手册)。

§4 判断主轴 · 90% 的人会搞错的四个点

#症状为什么会错正确做法真实反例
1把 system prompt 直接机翻成 N 种语言上线误以为 prompt 是陈述句、存在语言无关的”原意”按语用变量(敬语/语域/语境度)重写,不是翻译直译的英文裸祈使句进日语后语域随机漂移(语用预期:终始敬体)
2用 BLEU/翻译质量评估本地化 promptBLEU 测 locution,prompt 要的是 illocution(言外之力)评估指标改为目标语言下的任务成功率,做语言分层 A/BRen et al. 2026(arXiv:2604.14210)证明中文 prompt 即便省 token,任务成功率仍可能更低
3假设模型在每种语言里”原生”推理忽略隐性英语主导路径对非英语场景显式补偿文化预设,必要时英语推理 + 目标语言输出Schut et al. 2025:模型先生成英语内部表示再翻译
4各语言用同一 token/成本预算忽略 token 溢价按语言设差异化预算(中/日 1.2–1.6×、葡语更高),高溢价语言重写更紧凑 promptAhia et al. 2023:溢价与 HDI 负相关,低资源语言系统性更贵

§5 产品 PM 视角补盲

工程 PM 会盯着”翻译准确率”和”延迟”,但跨文化本地化真正的看走眼点在别处:

  • 用户心理模型错位:高语境用户期待”读懂言外之意”,低语境用户期待”把话说全”。同一个 AI 客服,对德国用户该直给、对日本用户该铺垫。这不是 prompt 措辞问题,是产品对话策略问题。
  • 合规/安全边界因语言而崩:低资源语言的安全对齐更脆弱(研究显示极少数据即可绕过非英语对齐)。一个在英语上过了红队的产品,在斯瓦希里语上可能裸奔。本地化必须包含语言分层的安全评测,不能假设英语对齐能迁移。
  • GTM 与定价:token 溢价直接吃毛利。一个按英语 token 算账的定价模型,进巴西/印度市场会被溢价侵蚀单位经济。PM 要在商业模型里把溢价当一等变量。

§6 对手框架回应(接受 + 边界)

对手立场一:Sperber & Wilson 的关联理论(Relevance Theory,1986/1995)认为 Grice 四准则冗余,一条”关联原则”即可解释一切含义推断。 接受:他们对的——人类(和可能 LLM)天然寻求”认知效益/处理成本”最优,逐条核查四准则确实不符合实际处理机制。边界:对做本地化工程的 PM 而言,Grice 四准则的可操作性高于关联理论——你没法在 system prompt 里写”请最大化关联性”,但你能写”信息量恰好、不啰嗦”(Quantity)。关联理论是更好的解释框架,Gricean 是更好的施工框架;本节点赌的是后者的工程价值。

对手立场二:工程派认为”模型够强就能自动处理跨文化,不需要语用工程”——大模型规模上来后本地化是伪问题。 接受:前沿模型(GPT-4o、Claude、Gemini)的跨语言差距确在缩小(Ramezani & Xu 2023 测出 GPT-4 跨语言道德推理差距最小)。边界:差距缩小 ≠ 消失。Ma et al.(2025,arXiv:2502.12378,ACL 2025)综述明确:LLM 对含义和指称等语用现象的处理仍是重大挑战,专项数据集严重不足。PM 决策无法等待”模型足够强”那一天——拉美/CJK 产品现在就要上线,语用工程是当下的必需品而非可选项。

[!warning] failure scenario · 本节点结论的失效边界 本节点把”敬语/语域/文化预设/token 溢价”列为四道暗门,但这套框架在两类场景会失效:(1) 纯代码/数学 prompt——这类 prompt 几乎无文化预设,语用工程收益接近零,直译即可;(2) 目标语言是高资源近邻语言(如英→西、英→德),语用距离小、token 溢价低,本地化收益边际递减。把语用工程无差别套用到所有语言对,是过度工程。

confirmation-bias 砍除:本节点早期论证倾向反复引”翻译 ≠ 本地化”作为正面口号,但要补反例——Ren et al. 2026(“Chinese Language Is Not More Efficient Than English in Vibe Coding: A Preliminary Study on Token Cost and Problem-Solving Rate”,arXiv:2604.14210)正面打脸了”中文 prompt 更省/更优”这类民俗式本地化直觉:本地化不等于”换母语就更好”,盲目本地化同样会翻车。本地化是工程,要测,不是信仰。

§7 PM 决策启示

  • 面试:被问”如何做 LLM 产品本地化”,标准答案是”翻译 system prompt”——这是 C 级答案。A 级答案:本地化是语用工程,分敬语/语域/文化预设/token 溢价四个维度,评估指标用任务成功率而非 BLEU,安全对齐要语言分层。一句话亮判断:“翻译保的是字面,本地化保的是言外之力。”
  • 选型:CJK/高溢价语言密集场景,把 tokenizer fertility 和语言分层安全评测纳入选型矩阵(呼应 c02 - Tokenization 与词表工程)。
  • 复现:搭一个最小语言分层 A/B——同一任务的 prompt,分别用机翻版 vs 语用工程版,在目标语言上跑任务成功率,量出差距。这是把本节点判断变成可证伪实验的最小动作。

§8 与已有节点的关系

  • 对照 c02 - Tokenization 与词表工程 / Tokenization:本节点深化其”2.3 多语言陷阱”小节——c02 讲 token 溢价的机制,本节点接住它在跨文化 prompt 本地化上的产品后果,不复述 BPE 机制
  • 对照 m209 - 推理成本控制手册:本节点为其补一个语言维度——成本控制不只是模型分层和缓存,还要按语言做差异化 token 预算。
  • 对照本专题 A04(语用学 · Grice 与言语行为):本节点是其病理学落地——A04 立理论,本节点剖现实怎么走样。对照本专题同模块 E03(跨文化 fieldwork 迁移):显式承接 Rick 的滴滴/99 拉美多语言 fieldwork,E03 提供田野证据,本节点提供语用工程框架。
  • 升级方向(非复述):把”翻译 ≠ 本地化”从口号升级为可量化的四维语用工程清单。

§9 关联节点

核心(必读)

延伸(可选)

修订日志

  • R0(2026-06-07):首稿。确立”本地化 = 语用工程”判断主轴,四道暗门(敬语/语域/文化预设/token 溢价),四件套判断主轴表,接入 Sperber & Wilson 关联理论与”模型够强论”两个对手框架,标注两类 failure scenario 与一处 confirmation-bias 砍除(Ren et al. 2026, arXiv:2604.14210)。
  • R0.1(2026-06-07):WebSearch 核实葡语 token 溢价——Petrov et al. 2023 确证葡语在 GPT-4/ChatGPT tokenizer 下约多 50% token(~1.5×),是与英语最接近平价的语言之一;跨语言最高差达 15×。表中据此替换原〔示意〕值,Llama-2 32K 的更高量级估算仍保留〔示意〕标注。
  • 2026-06-12 内审修复:去掉 arXiv:2604.14210 库内自创的”Mythbuster:“前缀(§3 confirmation-bias 砍除段 + R0 日志),补回真实副标题”Chinese Language Is Not More Efficient Than English in Vibe Coding: A Preliminary Study on Token Cost and Problem-Solving Rate”(来源:Rick 内审权威值)。