R

A04 翻译≠本地化

创建 2026-06-07 更新 2026-06-12 3 条双链 计算语言学 专题 AI 整理

把多语言产品当成”接一个翻译 API”来做,是国际化最隐蔽、也最贵的一类灾难——因为它在 demo 里看起来完全正常,却在真实市场里系统性失败。本节要解决的问题是:当一个 LLM 既会翻译又会生成、还号称”支持 100 种语言”时,PM 怎么分清”译得对”和”用得对”是两件根本不同的事?框架名:i18n(internationalization,国际化)/ l10n(localization,本地化)的工程分层,叠加语用学(A02 语用学与 Prompt 设计)与语言相对性(A06 语言相对性与 LLM 跨语言偏差)两把刀。

§0 为什么是 i18n/l10n 这套框架,而不是”翻译质量”框架

读者脑里默认的框架往往是:多语言 = 翻译,翻译做好 = 产品做好。这个框架的隐含假设是,一句话的”意思”是语言无关的、可逆的、可搬运的——把中文的”意思”装进英语的”容器”,再装进葡语的”容器”,内容守恒。这正是 A04 翻译≠本地化 要拆掉的东西。

国际化软件工程很早就放弃了这个框架,换成两层:

  • i18n(国际化):把产品改造成”可被本地化”的——抽离硬编码字符串、支持 Unicode、把日期/货币/数字格式/排序/复数规则/书写方向(RTL)外置成可配置项、给 UI 留出文本膨胀(德语比英语长约 30%,阿拉伯语要镜像布局)。这是一次性的架构投资。
  • l10n(本地化):在 i18n 的地基上,针对某个具体市场调适内容、文案、合规、支付方式、文化符号、法律措辞、客服话术。这是每进一个市场都要重做一遍的、与”翻译”正交的工作。

[!note] 判断主轴 把多语言当翻译 API = 本地化灾难。翻译是 l10n 的一个子任务(且常常是最不重要的那个);真正决定成败的是 i18n 的架构债和 l10n 里那些”译得再准也救不了”的东西——语域、法律、支付、文化想象(0422 STS 专题 的 imaginaries)。LLM 的出现没有消灭这个分层,只是给了一个让人误以为分层消失了的错觉:因为它能一键产出流利译文,PM 容易把 l10n 坍缩回”翻译”。

为什么不用”翻译质量”框架?因为它会把你的注意力锁死在”准不准”这一个维度,而真实的本地化失败有 80% 不在准确度上:一句完全正确的译文,可能语域错了(对巴西用户用了过度正式的伊比利亚葡语)、文化错位了(在墨西哥用了西班牙的 vosotros)、合规缺失了(漏掉巴西必需的 CPF 字段说明)、或者干脆是”译对了一个本地根本不存在的概念”。这些都不是翻译引擎能发现的错,因为译文本身没错。

§1 i18n 与 l10n 的正交分解

维度i18n(国际化)l10n(本地化)
性质架构能力(一次性)内容适配(每市场一次)
解决”产品能不能被翻译/适配""产品对这个市场对不对”
典型工作字符串外置、Unicode、RTL、复数规则、日期货币格式、文本膨胀预留文案、语域、合规、支付、文化符号、法律措辞、客服话术
翻译在其中无关(翻译还没发生)子任务之一,常非关键路径
LLM 能帮多少几乎帮不上(这是工程架构)能起草译文,但语域/合规/文化需人审
失败的样子阿拉伯语挤成一行、emoji 变豆腐块、巴西手机号校验失败译文流利但用户觉得”这不是给我做的”

关键判断:i18n 是技术债,l10n 是市场认知债,翻译只是 l10n 的入口而非全部。 一个把多语言外包给 GPT-4o 的团队,往往两层都没做:UI 没做 i18n(文本一膨胀就溢出),l10n 只剩翻译(语域、合规、支付全靠默认)。

§2 LLM 把”翻译≠本地化”的陷阱放大了,而不是消除了

LLM 多语言能力带来一个危险的认知坍缩:既然模型”什么语言都会”,是不是 i18n/l10n 这套老工程框架就过时了?恰恰相反——LLM 在三个地方把陷阱放大:

(1) 直译陷阱(literal translation)。 LLM 默认输出”语义对等”的译文,但本地化要的是”功能对等(functional equivalence)“——同样的言外之意和取效A02 语用学与 Prompt 设计 的 illocutionary / perlocutionary act)。一句营销 CTA “Grab yours now”,直译成任何语言都对,但能不能在巴西激发同样的紧迫感与信任感,取决于该市场的语用习惯,不取决于译文准确度。LLM 把 locutionary act(说出的话)译对了,却对 illocutionary force(这话要干什么)无感——因为它在统计形式上工作,而本地化在交际意图上工作。

(2) 语域错位(register mismatch)。 葡语有 você / o senhor 的正式度梯度,西语有 tú / usted、拉美 ustedes vs 西班牙 vosotros 的地域分裂。LLM 在没有显式语域指令时,会回归训练数据里的”平均语域”——通常偏正式、偏伊比利亚标准。结果:给 99(滴滴巴西)司机推送的消息,听起来像政府公文,而不是同行在跟你说话。这是直译不会暴露、只有本地母语者能闻出来的错。

(3) 文化错位与”假在地性(fake locality)”。 最危险的不是译错,而是译对了一个本地不存在的东西:把一个美式优惠机制原样译进拉美,文案完美,但那个机制本身和当地的支付习惯(巴西大量现金交易,见 PDP现金支付纠纷治理)、信任结构、监管要求都不兼容。译文是 l10n 的皮,i18n/合规/支付是骨——LLM 只能给你皮。

[!note] 三件套 · 致命错位 症状:产品在英语市场跑得好,一键翻译进巴西/墨西哥后留存暴跌,但抽查译文”没有错”。 为什么会错:团队用”翻译准确度”验收本地化,而真实失败在语域、合规、支付、文化想象这四个翻译引擎看不见的层。 正确做法:把验收指标从”译文准确率”换成”本地母语 PM 的语域审 + 合规清单 + 支付路径可用性 + A/B 留存”;翻译只占验收权重的一小部分。 真实反例:滴滴/99 在拉美做实名验证时,CPF实名验证(巴西 11 位身份证)这类字段不是”翻译”问题——它是 i18n(字段是否外置可配)+ l10n(巴西法律是否要求)+ 文化(用户是否信任交出 CPF)三层叠加。任何把它当”翻译一个表单标签”处理的方案,都会在巴西碰壁。

§3 理解 vs 生成的不对称如何加剧本地化风险

A05 理解与生成的不对称 指出:LLM 的生成流利度(NLG)远超其真实理解(NLU)。这在本地化上是最致命的组合——因为本地化恰恰需要”先深刻理解源意图,再在目标文化里重新生成功能对等的表达”,而 LLM 的能力曲线正好相反:它生成得比理解得好

后果:模型会用极其流利的目标语言,自信地输出一个理解错了源意图、或错配了目标语域的本地化文案。流利度反而成了伪装——它让错误更难被非母语 PM 发现。这与 幻觉 同源:高置信度的流利错误。在本地化场景,“幻觉”表现为”自信地编造一个本地化得很地道、但文化上根本不成立的版本”。

PM 启示:越流利的本地化译文,越需要本地母语审核,而不是越不需要。 流利度和正确性在跨文化生成里是解耦的。

§4 多语言成本:本地化的隐藏税

把多语言当翻译 API,还会在成本上踩第二个坑——非英语 token 溢价(详见 A03 多语言 Tokenization 效率差异c02 - Tokenization 与词表工程,本节不复述机制)。要点迁移到本地化:

  • 用同一个英语为中心的 tokenizer(GPT/Claude)服务多市场,高溢价语言的本地化运营成本结构性更高:同样一条客服回复,葡语/西语比英语多耗约 1.3–1.6× token,CJK 更高(来源:A03 多语言 Tokenization 效率差异 汇总的 Petrov et al. NeurIPS 2023、Ahia et al. EMNLP 2023)。
  • Ahia et al.(2023)的发现尤其刺耳:token 溢价与该语言地区的 HDI 负相关——越是发展中市场的语言,用 AI 做本地化越贵。对一个主攻拉美/全球南方的产品(99、滴滴国际化),这不是技术细节,是 unit economics。
  • 本地化预算因此必须语言敏感:不能用英语 token 成本线性外推所有市场,否则拉美市场的 AI 客服成本会被系统性低估。

§5 产品 PM 视角补盲:用户心理、商业模式、合规

工程视角容易把本地化窄化成”译文 + 格式”。三个工程 PM 常看走眼的点:

  • 用户心理模型:本地化的终极指标不是”译得准”,是用户的”这是给我做的”之感(sense of being addressed)。一个语域错位的流利译文,会触发”恐怖谷”——用户说不出哪里不对,但就是不信任。这是 A02 语用学与 Prompt 设计 的 Manner 准则(清晰得体)在跨文化场景的延伸。
  • 商业模式:本地化深度是有 ROI 曲线的。MVP 进新市场可以”翻译 + 最小 i18n”,但留存/付费转化的临界点往往卡在语域和支付本地化上——这决定了”什么时候该从翻译升级到真本地化”的投资节奏。
  • 合规边界:本地化里法律措辞、隐私条款、实名要求(CPF实名验证、PAX-Premium实名徽章)是不能用 LLM 直译的——译错一个法律术语的后果不是体验差,是合规风险。这类内容必须走人工法务,LLM 顶多做初稿。

§6 对手框架回应:本地化已死论 vs 文化适配论

业界反方立场(接受 + 边界):

  • “LLM 让本地化民主化/即将取代本地化产业”(部分 AI 翻译创业公司、机器翻译乐观派的公开立场)。接受:LLM 确实把翻译这一子任务的边际成本压到接近零,长尾语言、低预算市场第一次有了”够用”的本地化起点,这是真实的民主化。边界:它压缩的是 l10n 里翻译这一层,没有触及 i18n 架构、语域、合规、支付、文化想象。把”翻译成本归零”误读成”本地化成本归零”,正是本节要拆的灾难。本地化产业分析机构 Nimdzi 的数据印证了这种”workflow 转型而非消灭”:MTPE(机器翻译译后编辑)采用率从 2022 年的约 26% 飙升到 2024 年的约 46%(两年增长约 75%),译者的角色从”从零翻译”转向”高层把关、内容核验、文化与伦理 sanity check”——也就是说,机器接管了翻译,人退回到了本地化里翻译之外的那几层(来源:Nimdzi, “The MTPE Efficiency Gap” / Language Technology Radar Report 2024–2025)。

  • 跨域对手框架 ①(Rick 未读)· Lawrence Venuti《The Translator’s Invisibility》(1995) 的”归化 vs 异化(domestication vs foreignization)”。 Venuti 批评英语世界的翻译追求”流畅、隐形”(domestication),抹平源文化的他者性。迁移到 LLM:LLM 的本地化默认就是极致的 domestication——把一切都磨成目标语言里最顺滑、最不刺眼的版本,代价是抹掉源产品的文化棱角和品牌个性。对一个想在拉美建立差异化品牌的产品,“完美归化”可能恰恰是错的——你需要可控的”异化”来保留辨识度。这是纯工程视角永远看不到的产品判断。

  • 跨域对手框架 ②(Rick 未读)· Anthony Pym《Exploring Translation Theories》的”功能主义/Skopos 理论”(Vermeer/Reiss)。 Skopos 理论主张:译文的标准不是”忠于原文”,而是”是否达成目标语境中的目的(skopos)“。迁移到 LLM:这正是”翻译≠本地化”的理论根基——同一段源文本,给法务看的版本和给营销看的版本应该不同,因为 skopos 不同。LLM 默认追求”忠实译文”(与原文对齐),而本地化要的是”目的达成”。PM 要做的是把 skopos 显式写进 prompt(这条消息要在巴西激发信任/紧迫/合规告知中的哪一个),而不是要一段”准确的翻译”。

[!note] failure scenario(本节结论的失效边界) 本节强调”翻译≠本地化、要重投 l10n”,但在两种场景会失效:(1) 纯工具型 / 开发者向产品(如 API 文档、CLI),用户语用敏感度低,高质量翻译 + 最小 i18n 往往就够,过度本地化是浪费;(2) 超早期市场验证,在 PMF 未验证前砸重金做深度 l10n 是过早优化——此时”够用的翻译”反而是正确的精益选择。本节的判断赌的是:一旦进入留存/变现阶段、且面向语用敏感的 C 端市场(如出行、社交、金融),翻译与本地化的鸿沟就会变成增长天花板。

[!note] confirmation-bias 砍除 早期写作倾向反复用”LLM 直译翻车”作为正面论据来证明”翻译≠本地化”。这是 bias——它只取了 LLM 失败的案例。补入反例:在高资源语言对的信息型文本上,前沿模型的翻译质量已逼近人类。Lokalise 2024 的盲测(600+ 对人工评估)中,LLM 在多个语言对上拿到 56–80% 的 “good” 评分,Claude 3.5 Sonnet 被偏好的比例达 78%;WMT24 上 Claude 3.5 Sonnet 在 11 个语言对里赢下 9 个(来源:Lokalise “AI translation quality” 2024;WMT24)。学界亦有节制:Yan et al. 的 GPT-4 vs 人类译者评测(arXiv:2407.03658 / 2411.13775)发现 GPT-4 总错误数与初级译者相当,但仍落后中高级译者,且 GPT-4 在低资源语言上的质量衰减比传统 NMT 小得多。所以本节的论点要收窄为:“在语用密集、文化敏感、合规相关的内容上,翻译≠本地化的鸿沟最大”,而非”LLM 翻译一律不可信”——在高资源信息型文本上,鸿沟已经很小。

§7 跨域呼应:Rick 的拉美 fieldwork 作为一手证据

这是本节点最独特的资产。Rick 在滴滴/99 做国际化与安全产品,在拉美有一手的多语言 fieldwork——这让”翻译≠本地化”从理论变成可触摸的产品经验:

  • 巴西葡语 ≠ 伊比利亚葡语:99 的司机/乘客文案如果用模型默认的偏欧标葡语,会立刻被识别为”外来的、不接地气的”。本地化在这里是语域的政治——用谁的葡语,就是在表态”这个产品是不是属于这里”。这与 人类学 的 emic/etic 视角直接相关:本地化的本质是从 etic(外部观察者)切换到 emic(本地成员)的视角,而 LLM 默认困在 etic。
  • 拉美各国西语的碎裂(墨西哥、阿根廷、哥伦比亚、秘鲁 等,见 拉美知识图):一个”拉美西语”的统一本地化是不存在的——voseo(阿根廷的 vos)、墨西哥俚语、安第斯地区的用法各不相同。把”西语”当一个 locale,是把多语言当翻译 API 的典型症状。
  • 支付与信任的文化嵌入(PDP现金支付纠纷治理):巴西大量现金交易、对数字支付的信任结构,决定了本地化不是文案问题而是产品形态问题。译得再好的”绑卡引导”,在一个现金主导的信任结构里也是无效本地化。

这把 0422 STS 专题 的 sociotechnical imaginaries(技术在不同社会语境里被想象的方式)落到了实处:本地化的最深层,是让产品契合当地人对”一个可信的出行/支付产品该是什么样”的集体想象——而这恰恰是翻译 API 永远到不了的层。民族志 式的 fieldwork,而非翻译质量分,才是本地化的真正验收方法。

§8 PM 决策启示

  • 面试怎么用:“你怎么做多语言产品?“——不要答”接一个翻译模型”。答:先分清 i18n(架构债)和 l10n(市场认知债),翻译只是 l10n 的子任务;用 Skopos / 功能对等而非语义对等做验收;流利度和正确性在跨文化生成里解耦,越流利越要本地母语审。再用 99/巴西 CPF、葡语语域、现金支付三个一手例子落地——这是大多数候选人答不出的深度。
  • 选型怎么用:评估多语言方案时,问三个翻译质量分回答不了的问题:(1) i18n 架构是否就绪(文本膨胀、RTL、locale 外置)?(2) 语域/合规是否有本地母语 + 法务 in the loop?(3) 目标市场语言的 token 成本是否单独建模(A03 多语言 Tokenization 效率差异)?
  • 复现怎么用:做 LLM 本地化 pipeline 时,把 skopos 显式写进 system prompt(“这条消息的目的是 X,目标用户是巴西现金支付为主的下沉市场”),并强制语域参数(“用 99 司机之间同行口吻的巴西葡语,você 而非 o senhor”),最后接一道本地母语审核闸——把流利度当风险信号而非质量信号。

§9 与已有节点的关系

  • 对照 A04 翻译≠本地化:A02 在哲学/翻译学层面论证”意义不可完整搬运”,本节点是它的工程/产品落地——把”不可搬运性”翻译成 i18n/l10n 分层与可操作的验收清单(深化 + 对话)。
  • 对照 c02 - Tokenization 与词表工程 / A03 多语言 Tokenization 效率差异:本节点引用其 token 溢价机制作为本地化成本论据,不复述机制本身,只做”成本视角的迁移”(补缺——把技术机制接到本地化的 unit economics)。
  • 对照 A02 语用学与 Prompt 设计:本节点把言语行为理论(locutionary/illocutionary/perlocutionary)用作”翻译为何不等于本地化”的微观解释(应用 + 深化)。
  • 对照 A05 理解与生成的不对称:本节点指出该不对称在跨文化生成中最危险(迁移)。

§10 关联节点

核心(必读)

延伸(可选)

修订日志

  • R1(2026-06-07):首稿。建立 i18n/l10n 正交分解框架;判断主轴”把多语言当翻译 API = 本地化灾难”;三件套(直译/语域/文化错位);引入两个 Rick 未读对手框架(Venuti 归化异化、Pym/Vermeer Skopos 理论);接入 Rick 拉美/巴西一手 fieldwork 作为独特证据;显式标注 failure scenario 与 confirmation-bias 砍除;token 成本视角迁移自 A03/c02 不复述。
  • R1.1(2026-06-07):grounding pass。核实并落地两处原 〔待核实〕:(1) Nimdzi MTPE 采用率 2022→2024 由 ~26% 升至 ~46%(“The MTPE Efficiency Gap” / Language Technology Radar Report 2024–2025);(2) Lokalise 2024 盲测(600+ 对评估,LLM 56–80% “good”,Claude 3.5 Sonnet 偏好率 78%)、WMT24(Claude 3.5 Sonnet 11 中赢 9)、Yan et al. GPT-4 vs 人类译者评测(arXiv:2407.03658 / 2411.13775,GPT-4≈初级译者、落后中高级、低资源衰减小于 NMT)。剩余 〔待核实〕:本地化 ROI 曲线的具体定量数据。
  • 2026-06-11 P3.4 校链:0422 STS 专题现已入库,正文(§0 提要、§7 imaginaries 段)与 §9 延伸节点列表中三处纯文本”0422 STS 专题”恢复为真链 0422 STS 专题
  • 2026-06-12 内审修复:§0/§7/§9 四处 0422 总览 死链改为真实 basename [_STS 系统化专题·总览](/kb/专题-人文社科透镜/_sts-系统化专题-总览/)(保留显示别名)——0422 总览 在全 vault 不存在。