R03 多语言质量评估 · 知识库

如何设计一套不靠英语 benchmark 翻译的多语言 AI 质量评估流程，让一个产品 PM 在面对”巴西葡语版上线后投诉激增、但所有自动指标都是绿的”这种局面时，能在 30 秒内说清”我们的评估在哪一层撒了谎”。本节点的视角不是”再跑一个 benchmark”，而是把多语言质量拆成可分离的失效层（tokenization 层 / 理解层 / 生成层 / 文化适配层 / 安全对齐层），每一层给一个最小可复现的测法与一张模板，最后用一节专门讲这套流程最容易骗自己的陷阱。

[!warning] 一句话反共识立场 “把英语 benchmark 翻译成目标语言再跑分”——这个业界默认动作不是”次优”，而是系统性测错了对象。它测的是”模型能不能处理翻译腔英语的影子”，不是”模型能不能服务一个真实的西语/葡语用户”。绿色的翻译 benchmark 和飙升的本地投诉可以同时为真。

§0 为什么是”分层失效”框架，而不是”一个总分”

PM 拿到的第一个诱惑，是要一个数字——“我们泰语版的质量是 78 分”。这个总分框架在多语言场景下是有害的简化，因为多语言质量的失效不是连续滑坡，而是多个正交维度各自塌方：

一个模型可能理解西语完全没问题，但生成时输出英语腔的西语（语序、搭配像翻译机）；
也可能 tokenization 把某个安第斯语言切成字节碎片，于是成本翻 4 倍、上下文有效容量缩水，但准确率指标看不出来；
还可能在西语上”安全对齐”形同虚设——同样的越狱 prompt，英语会被拒，西语会被照做。

这三种失效的修复手段完全不同（换 tokenizer / 加本地化后训练数据 / 补多语言红队），一个总分把它们糊在一起，等于告诉 PM “你的车坏了”却不说是发动机还是刹车。所以本节点坚持：多语言质量评估的第一性原理是”分层归因”，不是”打总分”。 总分只在最后一步、面向汇报时合成，且必须带分层拆解附在旁边。

对照另一个候选框架——CheckList（Ribeiro et al., ACL 2020，行为测试：用能力 × 扰动矩阵生成测试用例）。CheckList 很强，但它本身是语言无关的方法论，不告诉你”非英语特有的失效层在哪”。本节点的分层框架可以看作把 CheckList 的”行为测试”思想接地到多语言失效结构上的特化版：每一层都对应一组 CheckList 风格的扰动。

§1 第零层：tokenization 体检（最便宜、最被忽略）

在跑任何质量指标之前，先做一次 tokenizer 体检——这是成本最低、信息量最高、几乎没人做的一步。

为什么必须先做这一层：tokenization 溢价（token premium，同义内容在目标语言 vs 英语所需 token 数之比）直接决定了你后面所有质量数字的”地基”。如果泰卢固语的溢价是 4–5×（Ahia et al., “Do All Languages Cost the Same?”, EMNLP 2023），那么：(a) 同样 128k 上下文窗口，泰卢固语用户的有效信息密度是英语的 1/4；(b) 同样预算，每条请求贵 4–5 倍；(c) 更长的 token 序列本身就拉低准确率——Lundin et al.（“The Token Tax”, 2025, arXiv:2509.05486）在 16 种非洲语言上量化出”每多 1 token/词，准确率下降 8–18 个百分点”。

最小可复现测法（10 分钟）：

# 用平行语料（FLORES-200 取 200 句）算各语言 fertility
# fertility = 目标语言 token 数 / 英语对应 token 数
import tiktoken  # 或对应模型的 tokenizer
enc = tiktoken.encoding_for_model("gpt-4o")
premium = len(enc.encode(text_target)) / len(enc.encode(text_en))

tokenizer 体检模板：

语言	tokenizer	fertility (vs 英语)	有效上下文损失	成本放大	体检结论
葡语 (pt-BR)	GPT-4o (o200k)	~1.3×	-23%	1.3×	可接受
西语 (es)	GPT-4o	~1.3–1.5×	-25%	1.4×	可接受
中文 (zh)	GPT-4o	~1.3× / Qwen <1.0×	视模型	视模型	选型敏感
泰卢固/阿姆哈拉语	GPT-3.5 (BBPE)	~4–5×	-75%	4–5×	⚠️选型红线
拉美土著语（瓦尤/马雅语系）	主流 BPE	字节级碎片	灾难	灾难	❌不可上线

[!note] Rick 的 DiDi/99 fieldwork 接地这一层不是抽象的。在 99（滴滴巴西）做实名验证产品时，CPF（巴西身份证 11 位纯数字）tokenization 效率高、几乎无溢价；但 巴西葡语 自由文本字段（如纠纷描述、客服对话）在旧版 tokenizer 上 fertility 约 1.8–2.5×，直接抬高了”用 LLM 自动分类纠纷”功能的单位成本。这正是 c02 - Tokenization 与词表工程 2.3 节”小语种陷阱”在真实拉美业务里的样子。详见 CPF实名验证、PAX-Premium实名徽章。

这一层的产品启示：模型选型必须语言敏感。CJK 密集场景下 Qwen/DeepSeek 在 token 经济性上有结构性优势（DeepSeek-V3 中文成本可低至英语的 0.65×，来源：TechFlow 2026 实测）；但同一个 Qwen 在乌克兰语上 fertility 反而高达 2.89（Maksymenko & Turuta, Frontiers in AI 2025）——没有一个 tokenizer 对所有语言公平，优化永远是局部的。

§2 理解层 vs 生成层：必须分开测的不对称

第二层是本节点最依赖语言学洞察的地方：NLU（理解）和 NLG（生成）在模型内部是分离的能力，必须分开测。

理论支点是 Mahowald et al.（2024, Trends in Cognitive Sciences, arXiv:2301.06627）的”形式能力 vs 功能能力”框架：LLM 的形式语言能力（语法、流利度）惊人地强，但功能语言能力（在真实语境中理解和运用）不稳定。生成流利 ≠ 真正理解——这两者依赖不同神经机制，在模型里也同样分离。

为什么这对多语言评估是致命的：一个模型可以生成毫无语法破绽的葡语（NLG 强，所以人工评审一眼看去”挺地道”），同时理解葡语用户的真实意图却频频出错（NLU 弱）。如果你只用”输出流利度”打分，会被 NLG 的表面流利彻底骗过。

最小可复现测法——分别探针：

理解层探针（输入目标语言，输出可机器判分的结构化结果）：意图分类、抽取式 QA、自然语言推断（XNLI）、给定目标语言文本做事实判断。判分不依赖生成质量。
生成层探针（要求输出目标语言自由文本）：摘要、改写、开放问答。判分必须用母语者或目标语言原生指标，不能用”翻回英语再评”。

理解/生成分离评估模板：

探针	层	输入语	输出形式	判分方式	能抓的失效
意图分类	NLU	目标语	标签	准确率/F1	理解偏差
抽取式 QA	NLU	目标语	span	EM/F1	指代/含义理解
XNLI	NLU	目标语	蕴含/中立/矛盾	准确率	深层语义
本地化改写	NLG	目标语	目标语文本	母语者评分	翻译腔、不地道
开放问答	NLG	目标语	目标语文本	母语者 + LLM-judge（目标语 rubric）	文化失配

跨语言能力差距的根因要让 PM 心里有数：GPT-3 训练 token 中约 92.65% 为英语，LLaMA 2 约 89.70%（Li et al., AAAI 2025, arXiv:2404.11553），模型性能与该语言在预训练语料中的占比强相关。更隐蔽的是 Schut et al.（2025, arXiv:2502.15603）用 logit lens 发现：多语言 LLM 处理语义实词时先生成接近英语的内部表示再翻译到目标语言——你的西语模型，可能在”用英语思考”。这意味着 NLU/NLG 不对称在非英语上会被放大：英语中轴一旦在第一步翻译错，错误会级联到生成。

§3 文化适配层：翻译 ≠ 本地化

第三层是产品 PM 最该懂、技术评估最常漏的一层：翻译正确不等于本地化正确。 一句话在语言上无懈可击，在文化语用上可能完全失败。

理论支点是语用学（Grice 合作原则 + Searle 言语行为）。Grice 的四准则（Quality/Quantity/Relation/Manner）和会话含义机制告诉我们：很多意义不在字面，而在”说话者表面违反某准则、听话者推断隐含意图”的过程里（Grice, “Logic and Conversation”, 1975）。同一个言外之意（implicature），在不同文化里靠不同的语用规约触发——直译会把 implicature 整个丢掉。Ma et al.（“Pragmatics in the Era of LLMs”, ACL 2025, arXiv:2502.12378）的综述确认：LLM 对含义和指称等语用现象的处理仍是重大挑战，专项数据集严重不足。

为什么翻译 benchmark 测不出这一层：把英语 benchmark 翻成西语，测的是”语义保真”；但本地化质量是”在西语文化语境里，这个回复是否得体、是否触发了对的 implicature、敬语/称呼/隐私边界是否符合当地预期”。后者翻译 benchmark 结构上无法覆盖——因为它的”标准答案”本身就是英语文化的产物。

更深一层是语言相对性的产品含义：道德/价值判断会随提示语言变化。Aksoy（2024, arXiv:2412.18863）用 MFQ-2 在 8 种语言上测出多语言 LLM 倾向施加英语主导的道德规范，而非反映各文化价值观；Ramezani & Xu（2023, arXiv:2402.02135）测出道德推理质量跨语言排序为英语 > 西语 > 俄语 > 中文 > 印地语 > 斯瓦希里语。对一个服务拉美的产品，这意味着模型默认的”得体”是北美得体，不是巴西或墨西哥得体。

最小可复现测法——本地化探针套件：

语用合规探针：构造一组目标文化特有的间接请求/委婉表达，看模型是否正确解读 implicature（参考 Kim, Taylor & Kang, 2023, arXiv:2305.13826 的会话含义测法）。
称呼/敬语探针：西语 tú/usted、葡语 você/o senhor 是否随场景正确切换。
文化禁忌/敏感探针：本地宗教、政治、历史敏感点的回避是否到位。
本地常识探针：本地节假日、行政流程（如巴西 CPF/SUS）、货币格式、地址格式。

文化适配评估模板：

维度	探针类型	谁来判分	失效信号	拉美实例
语用得体	implicature 解读	母语者	把委婉当字面	巴西式”看情况”被当肯定
称呼系统	tú/usted 切换	母语者	对长辈用 tú	客服对老年乘客失礼
文化敏感	禁忌回避	本地审核	触雷	墨西哥毒品/暴力话题
本地常识	行政/格式	规则校验	格式错	CPF 校验、雷亚尔格式

[!note] 跨域呼应：从”翻译”到”民族志” 这一层把评估从语言学推到人类学 / 民族志。本地化质量本质是”在地知识”（local knowledge）问题——Clifford Geertz 意义上的”深描”（thick description）：同一个手势/说法的意义只在具体文化网络里成立。所以文化适配层的判分不能外包给任何远程标注，必须由在地母语者做，这和田野调查不能靠二手转述是同一个认识论。Rick 在 99 做拉美产品时反复撞到的”需求在地化”问题（见拉美知识图），就是这层的现实版。

§4 安全对齐层：低资源语言是越狱后门

第四层是合规和风险 PM 必须单独立项的一层：安全对齐在非英语、尤其低资源语言上系统性更弱。

这是一个被反复确证的硬事实：低资源语言的 LLM 安全防护更脆，把英语有害输入翻译成低资源语言即可绕过 GPT-4 护栏，AdvBench 上攻击成功率约 79%（来源：Yong, Menghini & Bach, “Low-Resource Languages Jailbreak GPT-4,” arXiv:2310.02446，已核实 2026-06-12）；防御侧补强仅需极少数据（Chen et al., “Unlocking LLM Safeguards for Low-Resource Languages,” arXiv:2510.10677, 2025，已核实 2026-06-12）。直觉很简单——安全对齐（RLHF / Constitutional AI）的训练数据绝大多数是英语，对齐”学到”的拒绝行为没有充分迁移到低资源语言。结果是同一个有害 prompt，英语会被拒，斯瓦希里语/孟加拉语可能被照做。

为什么翻译 benchmark 完全测不到：安全 benchmark 通常用英语红队 prompt 跑分，绿了就过。但攻击者不会用英语攻击你的葡语产品——他们会用葡语、用混合语言、用本地俚语。你的英语安全分是 99%，不代表你的葡语产品不是个敞开的后门。

最小可复现测法——多语言红队：

取英语越狱集（如 AdvBench 风格），人工翻译 + 母语者本地化改写成目标语言（不是机翻——机翻会丢失本地俚语攻击向量）。
加入目标语言原生的攻击向量：本地敏感话题、code-switching（中途切英语）、本地俚语包装。
分别统计英语 vs 目标语言的攻击成功率（ASR），看 gap。

多语言安全评估模板：

攻击类型	英语 ASR	目标语 ASR	gap	风险等级
直接有害请求	2%	18%	+16pp	高
越狱包装	5%	31%	+26pp	严重
code-switch 混合	4%	27%	+23pp	严重
本地俚语规避	—	22%	—	高（英语无对应）

任何一行 gap > 10pp 都应作为上线阻断项。这一层关联 Constitutional AI——对齐方法本身的语言覆盖，是评估前就该问清的供应链问题。

§5 判断主轴：90% 的人在多语言评估里会踩的五个坑

这一节是本节点的命门。每个坑给症状 → 为什么会错 → 正确做法 → 真实反例四件套。

坑 1：翻译英语 benchmark 当多语言评估。

症状：MMLU/MGSM 翻成目标语跑分，绿了就宣布”支持该语言”。
为什么会错：翻译 benchmark 测的是”语义保真+形式能力”，测不到文化适配、语用得体、本地常识、安全 gap；而且翻译过程本身引入”翻译腔”,模型可能恰好擅长处理这种不自然的输入，虚高。Petrov et al.（NeurIPS 2023）证明翻译后 tokenization 差异最高 15×,连”题目长度”都不可比。
正确做法：用原生平行评估（FLORES-200 这类母语者构建的平行语料）+ 目标语言原生 benchmark（如非洲语言的 IrokoBench——17 种非洲语言、AfriXNLI/AfriMGSM/AfriMMLU 三任务，arXiv:2406.03368, NAACL 2025；印度语言原生集 IndicParam），自由生成层必须母语者判分。
真实反例：印度次大陆低资源语言在翻译 benchmark 上看着还行，但原生 zero-shot 准确率常低于 23.6%（来源：IndicParam / INDIC QA, arXiv:2512.00333）——翻译分掩盖了真实差距。

坑 2：用 NLG 流利度代替 NLU 准确率。

症状：人工评审”读着挺地道”就给高分。
为什么会错：Mahowald et al.（2024）——形式能力和功能能力分离，流利的葡语不代表理解了葡语用户的意图。
正确做法：理解层用结构化、可机器判分的探针（分类/抽取/XNLI），与生成层分开打分。
真实反例：客服 bot 生成的西语回复语法完美，但把用户的”取消订单”意图理解成”修改订单”——流利度满分，意图准确率塌方。

坑 3：忽略 tokenization，把成本/质量混为一谈。

症状：发现某语言”质量差又贵”,归因为”模型不行”。
为什么会错：可能纯粹是 tokenizer 词表分配问题（Arnett et al., NeurIPS 2025, arXiv:2510.21909：不公平主要来自词表大小和预分词，非语言本身）。换 tokenizer/换模型即可大幅改善。
正确做法：先做 §1 的 tokenizer 体检，把”tokenization 导致的成本/容量损失”和”模型本身的能力差距”分离归因。
真实反例：“中文 prompt 更省 token”是工程民俗——Ren et al.（2026, arXiv:2604.14210）实测多个模型，中文反而贵 1.09–1.28×，且省 token 时任务成功率下降可抵消节省。把民俗当事实，选型会做反。

坑 4：安全评估只跑英语，假设对齐会自动迁移。

症状：英语红队全绿，多语言产品直接上线。
为什么会错：对齐数据以英语为主，拒绝行为不迁移到低资源语言；攻击者用目标语言攻击。
正确做法：§4 的多语言红队，统计英语 vs 目标语 ASR gap,任何 gap > 10pp 阻断上线。
真实反例：把有害 prompt 切到低资源语言即可绕过 GPT-4 对齐，AdvBench ASR 约 79%（Yong et al., arXiv:2310.02446，已核实 2026-06-12）——英语 ASR 2%、低资源语言 ASR 30%+ 是常态。

坑 5：把本地化外包给远程标注/机翻，没有在地母语者。

症状：用众包平台的”会西语”标注员、或 LLM-judge 用英语 rubric 评西语。
为什么会错：文化适配是在地知识问题（§3），远程标注没有”深描”能力；英语 rubric 内嵌英语文化预设。
正确做法：文化适配层和安全层必须由目标市场在地母语者判分；LLM-judge 若用，rubric 必须用目标语言、由母语者校准。
真实反例：道德/得体判断随语言变化（Aksoy 2024）——用英语 rubric 评，会系统性把”北美得体”当”正确”，惩罚正确的本地表达。

§6 产品 PM 视角补盲

跳出工程评估，三个 PM 容易看走眼的点：

用户心理模型：非英语用户对”AI 说不地道的母语”的容忍度极低——这比英语用户对偶尔出错的容忍度低得多，因为”不地道”会被解读为”这个产品不重视我们市场”。质量差距在情感上被放大。本地化不是合规项，是信任项。
商业模式/单位经济：§1 的 tokenization 溢价直接进入毛利模型。一个对英语用户毛利 60% 的 LLM 功能，对 4× 溢价语言的用户可能是负毛利。定价/成本必须语言分档，否则高溢价市场越增长越亏。
合规边界：Ahia et al.（EMNLP 2023）发现 token 溢价与 HDI（人类发展指数）负相关——越不发达地区的语言用 AI 越贵。这是一个潜在的算法公平性/监管暴露点；未来可能面临”披露或均等化多语言定价”的监管压力。把它当前瞻风险登记。

§7 对手框架回应

对手立场（业界主流）：“原生 benchmark 太贵太慢，翻译 + 自动指标是务实的工程权衡，先上线再迭代。”

接受的部分：完全成立。为每个市场从零建母语者 benchmark，对早期产品是不现实的成本；翻译 benchmark + COMET/chrF 这类自动指标作为回归测试的快速 smoke test 是有价值的——它能抓住”模型彻底崩坏”这种粗粒度失效，CI 里跑得起。
坚持的边界与赌注：但翻译 benchmark 的角色只能是 smoke test，不能是 release gate。本节点赌的是：上线决策必须至少有一层在地母语者评估（哪怕只是 50 条样本的人工 spot check）,且安全层的多语言红队不可省。我的判断会在两种场景失效——(a) 纯内部工具、用户全是双语工程师,本地化要求低；(b) 目标语言恰好是高资源语言（西/葡/中/日），翻译 benchmark 与原生差距小，可以放宽。这两种场景下对手的”务实权衡”是对的。

Rick 未读对手框架引入 1：Relevance Theory（Sperber & Wilson, 1986/1995）。 它反对 Grice 的四准则,主张人类认知只遵循一条”关联原则”（认知效益 / 处理成本）。对评估的逼问：如果关联理论更接近真相,那本地化质量的核心指标应该是”目标语言用户处理这个回复的认知成本”,而不是逐条核查 Grice 四准则是否满足。这提醒我 §3 的语用探针不要过度 Grice 化,要补一个”母语者主观处理流畅度”维度。

Rick 未读对手框架引入 2：Bender & Koller（2020, ACL）的”形式≠意义”。 他们用”章鱼思想实验”主张纯形式训练原则上无法习得意义。对本节点的逼问：如果模型根本不”理解”任何语言、只是统计拟合,那 §2 的”NLU 探针”测的到底是真理解还是更精巧的形式匹配？我的边界承担：本节点不预设模型”理解”,所有探针测的都是行为表现（behavioral），不声称测到了”理解”本身——这个认识论谦逊必须写进评估报告,否则会把”通过 NLU 探针”误读为”模型理解了该语言”。

§8 PM 决策启示（三类落地）

面试：被问”怎么保证你们的多语言产品质量”，不要答”我们跑了多语言 benchmark”。答：“我把多语言质量拆成五层——tokenization、理解、生成、文化适配、安全——分别归因；翻译 benchmark 只做 smoke test，release gate 是在地母语者评估 + 多语言红队。” 这一句话直接把你和”翻译 benchmark 就完事”的候选人区分开。
选型：把 §1 的 tokenizer 体检 + §4 的多语言安全 gap 做成模型选型的硬门槛。CJK 场景把 Qwen/DeepSeek 的 token 经济性纳入；任何语言安全 gap > 10pp 直接出局。
复现：从 §1 模板（10 分钟）起步，逐层加探针。最小可上线评估 = tokenizer 体检 + 50 条母语者 spot check + 多语言红队 30 条。中型 = 加原生平行集 + 理解/生成分离套件。进阶 = 持续的在地母语者评估管线 + 文化适配回归集。

§9 与已有节点的关系

对照 0412 评测体系系统化专题（如该专题的评测分层节点）：本节点是其多语言特化——0412 讲”评测的通用陷阱”(Goodhart、数据污染、构念效度)，R03 把这些陷阱接地到非英语语境，补缺了”翻译 benchmark 测错对象”这一多语言独有的构念效度失效。做的是深化 + 补缺。
对照 c02 - Tokenization 与词表工程与 Tokenization：§1 的 tokenizer 体检直接复用这两个节点的事实基础（不复述 BPE 机制、词表演化表），把它们从”概念”升级为”评估动作”——做的是操作化（operationalize）。
对照 m209 - 推理成本控制手册：§1/§6 的成本放大归因是其多语言切面，本节点提供”成本必须语言分档”的评估输入。
对照本专题 A04（语用学）、理解/生成不对称、语言相对性等概念辨析节点：R03 是它们的复现落地——把理论判断变成可跑的探针与模板。

§10 关联节点

核心（必读）

c02 - Tokenization 与词表工程 —— §1 tokenizer 体检的事实基础
Tokenization —— fertility/溢价概念卡
m209 - 推理成本控制手册 —— 成本分档归因
Embedding —— 跨语言表示对齐的底层
幻觉 —— Quality 准则违反在多语言下的放大
人类学 / 民族志 —— §3 文化适配层的认识论基础
Constitutional AI —— §4 安全对齐的语言覆盖供应链

延伸（可选）

CPF实名验证 / PAX-Premium实名徽章 —— Rick 99 巴西葡语实践锚点
拉美知识图 —— 拉美多语言市场地图
Claude / Gemini / ChatGPT —— 各家多语言能力对照对象
0117社会学 —— 算法公平性（token 溢价 × HDI 负相关）
AI PM 知识图谱·总索引

修订日志

R1（2026-06-07）：首稿。建立”分层失效”框架（tokenization/理解/生成/文化适配/安全五层），每层配最小可复现测法 + 模板；§5 判断主轴五坑四件套；§7 接入对手框架（翻译 benchmark 务实派 + Relevance Theory + Bender & Koller）；接地至 Ahia EMNLP 2023、Petrov NeurIPS 2023、Mahowald TiCS 2024、Ma ACL 2025、Aksoy 2024、Schut 2025、Li AAAI 2025、Lundin 2025、Ren 2026 等已核实来源；显式迁移 Rick 的 99 巴西葡语 fieldwork。
2026-06-12 内审修复：第四层（安全洼地）及 §5 坑对 arXiv:2510.10677 的误引——WebFetch 核实该篇实为防御工作（Chen et al., “Unlocking LLM Safeguards for Low-Resource Languages”），原文却拿它当”绕过对齐”的攻击证据。攻击侧改引已核实的 Yong et al. arXiv:2310.02446（“Low-Resource Languages Jailbreak GPT-4”，AdvBench ASR ~79%），2510.10677 改述为防御侧补强，两者均标”已核实 2026-06-12”。与 S03/S01/S02/A06 的同一修正对齐。