E01 多语言 Tokenization 成本剖解 · 知识库

同一句话，英文用户付 1 块钱，掸语用户付 19 块钱——这不是汇率，是 tokenizer。本节点要解决的问题是：为什么”语义等价”的内容在不同语言里要消耗成倍的 token，这笔”token 溢价”（token premium）如何穿透到 API 账单、上下文窗口、推理延迟和模型质量，以及一个做国际化产品的 PM 该如何在选型时把它算清楚。视角是病理学——不讲 BPE 该怎么训（那是 c02 - Tokenization 与词表工程的事），只解剖真实产品里这套机制怎么走样，谁在为它买单。

§0 为什么是”token 溢价”这个框架，而不是”小语种支持得不好”

PM 谈多语言能力，最容易落进的默认框架是**“覆盖率”框架**：模型支不支持葡语？西语效果如何？这个框架把语言能力当成一个布尔开关或一条质量曲线，但它漏掉了最隐蔽、最难翻案的一层——计费层。

“token 溢价”框架的核心主张是：即使一个模型在小语种上质量完全合格，非英语用户仍然系统性地多付钱、少拿到上下文、等更久。因为收费单位是 token，而 token 的”性价比”由词表（vocabulary）决定，词表是从以英语为主的语料训出来的。这是一种结构性、被计量单位本身隐藏的不平等——它不在模型卡的 benchmark 表里，不在营销页的”支持 100+ 语言”里，只在你跑完一个月才出现在账单上。

换框架的收益：从”这个语言效果好不好”（质量问题，可以靠堆数据缓解）升级到”这个语言每个字符值几个 token”（计量问题，必须换 tokenizer 才能根治）。后者才是 PM 选型时真正该锁的变量。这一层抽象正是本节点相对 c02 - Tokenization 与词表工程升高之处：c02 讲机制与词表工程，本节点把同一机制放进真实计费场景与拉美/CJK 业务里做病理切片。

§1 token 溢价的定义与根因

token 溢价 = 同义内容在某语言所需 token 数 ÷ 英语所需 token 数。英语基准记为 1.0×。它直接决定四件事：API 计费、上下文窗口有效容量、推理延迟、以及该语言上的实际质量上限。

根因只有一句话：BPE/BBPE 的词表是从英语为主的语料里”合并”出来的。 英语单词在训练语料里高频出现且有空格作天然边界，常常被整词合并成 1 个 token（1 token ≈ 4–5 个字符）。而 CJK 字符低频、无空格边界，无法充分合并，逼近”1 字符 = 1 token”的最差压缩率；很多小语种的字符甚至连 Unicode 都没进词表，被打成字节级碎片（1 字符 = 2–4 个 token）。

[!note] 一句话记牢不是”中文/泰米尔语天生难分词”，是”英语在词表里占了便宜”。同一份 7000 万合并规则的预算，绝大部分花在了拉丁字母组合上。

§2 真实数据：语言级溢价对照（强接地）

下表全部来自已发表论文或实测，均基于平行语料（FLORES-200 或同类基准），控制了语义等价性。不同研究的度量口径（fertility = tokens/词 vs. 片段长度比）略有差异，已标注来源。

语言	tokenizer	token 溢价（vs 英语）	来源
葡萄牙语 (pt-BR)	GPT-4 系	~1.5×（约多 50% token）	Petrov et al., NeurIPS 2023
西班牙语	主流 BPE	~1.3–1.6×	Petrov et al., NeurIPS 2023
中文（简体）	GPT-4o (o200k)	~1.3×	TechFlow 2026 实测
乌克兰语	GPT-2 / Phi-2（差）	~3×	Petrov et al. 2023 / Maksymenko & Turuta 2025
乌克兰语	GPT-4o / Llama 3.1（优）	~1.9×	Maksymenko & Turuta, Frontiers AI 2025
印地语 (Hindi)	GPT-2/3	7.51×	Churchill & Skiena 2026
孟加拉语 (Bangla)	Claude 2.1	8.43×	Churchill & Skiena 2026
泰卢固语 / 阿姆哈拉语	GPT-3.5 (BBPE)	~4–5×	Ahia et al., EMNLP 2023
亚美尼亚语	OLMo 2	10.02×	Churchill & Skiena 2026
掸语 (Shan)	GPT-2/3	19.09×	Churchill & Skiena 2026
跨语言最大差距	17 种 tokenizer	最高 15×	Petrov et al., NeurIPS 2023

判断主轴在这里第一次浮现：判断主轴 = 非英语用户为同样的内容多付数倍。 这不是个别极端值——印度次大陆几大语言普遍 6–8×，非洲语言普遍 4–5×，连欧洲语言里的乌克兰语在老 tokenizer 上都是 3×。掸语的 19× 是上限提醒：对最弱势的语言，token 溢价能让 AI 贵到几乎不可用。

§2.1 CJK 详情：中文不是想象中那么贵，但也不是免费

中文是个反直觉的案例，值得单独剖。社交媒体上流传”中文 prompt 比英文省 40% token”的说法，这是个工程民俗，需要拆开看。

模型 / tokenizer	中文 fertility（tokens/词）	中英比值
GPT-4o (o200k)	~1.8–2.0	~1.3×
Qwen 2.5（词表 151,936）	~2.40（fertility 高但整 token 质量好）	某些文本类型 <1.0×
DeepSeek-V3	低 fertility	低至 0.65×（中文比英语省 35%）

一个具体实测（来源：TechFlow 2026）：句子”人工智能正在重塑全球的信息基础设施”（16 个汉字）——

GPT-4 tokenizer：19 tokens
Qwen tokenizer：6 tokens
差距：3.2×

结论分两层：(a) 用 GPT/Claude 的西方 tokenizer，中文仍有 ~1.3× 溢价；(b) 用 Qwen/DeepSeek 这类专门扩了 CJK 词表的国产 tokenizer，中文能做到逆溢价（比英语还省）。所以”中文省 token”这句话只在特定 tokenizer 上成立——它是 tokenizer 设计的结果，不是中文这门语言的属性。日语/韩语没这么幸运：主流 BPE 下汉字/假名/谚文音节块多为 1:1，普遍 2–4× 溢价（细分数字见 Petrov et al. 2023）。

§3 成本如何穿透：从 fertility 到账单到训练

token 溢价不是抽象的，它在三条链路上变成真金白银（数据来源：Lundin et al. 2025, “The Token Tax”）。

链路一 · API 计费（线性放大）：

GPT-4o 标价约 $5–20 / 百万英语 token；
2× fertility 的语言，相同内容量实际成本 $10–40 / 百万 token——直接翻倍。

链路二 · 训练成本（二次方放大）：

token 数翻倍，但 Attention 是 O(n²)，训练时间/成本约翻 4 倍；
据 Lundin et al. 测算：若按英语训 Llama-3.1-405B 约 $1.05 亿，则 2× fertility 语言达约 $4.20 亿。这是为什么厂商没有商业动力去优化小语种——它越贵，越没人为它投词表预算，形成”越穷的语言越贵”的闭环。

链路三 · 质量塌缩（非线性）：

Lundin et al. 在 16 种非洲语言上测得：每多 1 token/词，准确率下降 8–18 个百分点；
非洲语言整体落后英语约 25 个准确率点。

还有一条隐性链路——上下文窗口缩水：同样 128k 窗口，高溢价语言能塞进的实际信息量显著更少。RAG 的 chunk、long-context 的”读整本书”，对这些语言都打了折扣。这一层与 m209 - 推理成本控制手册的成本优化清单直接咬合——它教你怎么省 token，本节点告诉你起跑线本身就因语言而不同。

[!note] 与 0413 成本工程的对话边界 m209 - 推理成本控制手册默认”token 数 = 内容量”，在多语言场景这个假设破裂。E01 的修正：成本模型必须乘一个语言敏感系数（中文/日文 ×1.2–1.6，印度/非洲语言 ×4–8）。这是成本工程专题通用成本核算缺的语言维度，可由其总览进入对照。

§4 判断主轴：90% 的 PM 会在这里栽的四个坑

每个坑给”症状 → 为什么会错 → 正确做法 → 真实反例”四件套。

坑 1：用英文 token 单价做全球成本估算

症状：财务模型里写”$X / 百万 token”，全球一个数。
为什么会错：把 token 当成语言中立的计量单位，忽略 fertility 是语言相关变量。
正确做法：按目标市场语言乘溢价系数重算 unit economics。巴西葡语 ×1.5、印地语 ×7。
真实反例：一个面向印度市场的客服 bot，若按英语成本定价，实际 token 消耗是预算的 6–8 倍（Churchill & Skiena 2026：Hindi 7.51×），毛利直接为负。

坑 2：把”支持 100+ 语言”当成”100+ 语言都划算”

症状：选型看模型卡的语言覆盖列表，不看每语言的 fertility。
为什么会错：覆盖 ≠ 经济。模型能输出某语言，和那个语言不被宰，是两回事。
正确做法：拿目标语言的平行文本，在候选 tokenizer 上实测 token 数（Petrov 等提供了在线对比工具）。
真实反例：Ahia et al.（EMNLP 2023）发现 token 溢价与 HDI（人类发展指数）负相关（相关系数 -0.41 至 -0.60）——越不发达地区的语言越贵。“支持”它们的厂商，恰恰让最付不起的人付最多。

坑 3：相信”中文 prompt 省 token”这个民俗，跨模型乱套

症状：因为在 Qwen 上看到中文省 token，就在所有模型上假设中文便宜。
为什么会错：逆溢价是特定 tokenizer 的局部优化，不是语言属性，换模型即失效。
正确做法：溢价系数绑定到”语言 × tokenizer”二元组，不绑单语言。
真实反例：Ren et al.（2026, “Chinese Language Is Not More Efficient Than English in Vibe Coding: A Preliminary Study on Token Cost and Problem-Solving Rate”, arXiv:2604.14210, 2026-04-06，基于 SWE-bench Lite）实测发现”中文省 token”的优势并不存在，且效应因模型架构而异——MiniMax-2.7 中文 token 成本反而高 1.28×，而 GLM-5 中文确实更省；更关键的是，所有模型上中文 prompt 的任务成功率都系统性低于英语——省的 token 被掉的成功率吃回去。结论：换语言省不了钱，反而可能更笨。（已 WebSearch 核实）

坑 4：以为”省了 token = 没有损失”

症状：选 fertility 低的 tokenizer，认为纯赚。
为什么会错：token 切得越碎，每 token 携带的语义越少，模型质量可能掉；反之 token 太”贪婪”也可能丢边界信息。token 数与质量是两个轴。
正确做法：用 fertility 和下游任务准确率两个指标联合评估，别只盯计费。
真实反例：Nayeem et al.（2025, arXiv:2510.09947）批评 fertility 单指标无法区分”多 token 但有意义”与”多 token 且破碎”，提出 STRR（子词-参考比率）作为补充——说明只优化 token 数会选出便宜但更笨的 tokenizer。

§5 产品 PM 视角补盲：计费层之外的三个盲点

跳出工程视角，token 溢价还藏着工程 PM 看不到的产品/商业/合规问题。

定价公平性是潜在合规与品牌风险。 Ahia et al. 已把 tokenizer 溢价与社会经济不平等公开挂钩。一个面向全球南方的产品，若按 token 透传成本，等于对最弱势用户加价——这在监管趋严、ESG 叙事盛行的环境里是可被点名的风险。前瞻做法：对高溢价语言市场做字符级或会话级定价，把 tokenizer 的不公平吸收在后端，不传导给用户。
用户心理模型：用户按”字数/句数”感知价值，不按 token。 一个巴西用户写 100 字葡语问题，和一个美国用户写 100 字英语问题，主观上付出相同努力、期待相同回应。若你的额度系统按 token 扣，葡语用户会无端更快撞墙——他感受到的是”这个产品对我更小气”，而他根本不知道 token 是什么。本地化的额度设计应以字符/消息为锚，不以 token 为锚。
GTM 的隐性歧视。 当 unit economics 因语言而异，增长团队会”理性地”优先英语市场（毛利最高），把高溢价语言市场定为”低优先级”——token 溢价于是从技术问题变成市场进入顺序的隐性决定因素。Rick 在 DiDi/99 拉美业务里能直接看到这层：见 §7 跨域呼应。

§6 对手框架回应：接受 + 边界

对手立场（强版本，来自 Arnett et al., NeurIPS 2025 与 Churchill & Skiena 2026）： “token 溢价完全是词表设计问题，与语言本身无关。扩大 CJK/小语种词表、采用允许跨空格合并的’超词 tokenizer’，溢价可大幅消除——Qwen、DeepSeek 已经证明。所以这不是结构性不公，是个可解的工程 bug。”

接受的部分： 对。Qwen（词表 151,936）和 DeepSeek-V3 的逆溢价是硬证据，证明对中文这种有充分商业动机投词表的语言，溢价确实可以被工程消除。 Arnett et al. 用约 7000 个单语 tokenizer、97 种语言的实验也确证：词表大小和预分词是主因，不是语言难度。

坚持的边界与赌注： 但”可解”不等于”会被解”。

(a) 逆优化是此消彼长的局部优化：Qwen 在中文上逆溢价，在乌克兰语上 fertility 却高达 2.89（Maksymenko & Turuta 2025）。至今没有在所有语言上都公平的 tokenizer。
(b) “可解”假设有人愿意为每种语言付那笔训练放大成本（§3 链路二的 4×）。掸语 19× 的现实是：商业动机恰恰在最需要的地方最弱。 这就是为什么 token 溢价仍是 PM 必须现在就算进模型的真实约束，而不是”等工程修好”的临时现象。

第二个对手框架（Rick 未读，破 echo chamber）——“CJK 逻辑文字论”： 另一派认为 CJK 的 logographic 系统和无空格边界天然增加分词难度，即使大词表也需根本不同的分词哲学（字节 vs 字 vs 词粒度的选择无定论）。这一派与 Arnett 的”纯词表论”未达成共识——本节点不站队，只标注：这是个未解的开放争论，PM 不应假设任何一方已胜出。

§7 跨域呼应：从拉美 fieldwork 看 token 溢价的社会嵌入

[!note] Rick 的独特资产：DiDi/99 国际化 + 拉美多语言 fieldwork token 溢价不是抽象的”全球南方不公”，它在 Rick 做过的具体产品里有名有姓。

人类学视角——把 tokenizer 看成一种”基础设施的政治”。 人类学对基础设施（infrastructure）的研究有个核心洞见：基础设施从不中立，它把某些人的便利固化为默认，把另一些人的需求变成”特殊处理”。tokenizer 正是 LLM 的基础设施——它把英语的便宜固化为”1.0× 基准”，把所有其他语言变成”溢价”。这个视角改变了技术判断：token 溢价不该被读作”小语种支持的技术债”，而该被读作”谁的语言被设成了默认”的权力分配问题。 这正是民族志式 fieldwork 的价值——只有蹲在巴西用户旁边，你才会注意到他用葡语打的字在后台被切成了比英语多 50% 的碎片。

具体迁移到 Rick 的业务节点：

巴西葡语场景。 CPF（Cadastro de Pessoas Físicas，巴西 11 位纯数字身份证）tokenizer 处理效率高，但承载它的葡语对话文本，在 Llama-2（32K 词表）下 fertility 约英语 1.8–2.5×，Llama-3（128K）、Qwen 2.5（151,936）改善明显。Rick 做过的 CPF实名验证、PAX-Premium实名徽章若上 LLM 客服/审核，token 预算必须按这个系数重估——这是 §4 坑 1 的真实落地。
西语（拉美各国）场景。 西语在主流 BPE 上约 1.3–1.6× 英语，与中文相近；但拉美土著语言（瓜拉尼语、马雅语系、Kogi 等）仍是字节级碎片，与 c02 - Tokenization 与词表工程 §2.3”小语种被拆成字节级碎片”完全呼应。覆盖墨西哥、秘鲁、玻利维亚等多民族市场时，对原住民语言的 AI 服务在经济上几乎不可行——这不是”以后做”，是”按现在的 tokenizer 永远不划算”。可链：拉美知识图。

这一段把跨域资源用”实”了：人类学的”基础设施政治”框架，把一个看似纯工程的计费问题，重判为产品伦理与市场公平问题——而 Rick 的拉美 fieldwork 提供了工程视角拿不到的接地证据。

§8 PM 决策启示：面试 / 选型 / 复现三类落地

面试怎么用。 被问”如何评估一个多语言 LLM 产品的成本”，不要答”看 token 单价”。答：“token 单价只是分子，分母是 fertility，它因语言而异最高差 15×（Petrov, NeurIPS 2023），而且与 HDI 负相关（Ahia, EMNLP 2023）——所以我会按目标市场语言乘溢价系数重算 unit economics，并把高溢价语言的定价策略单独拎出来。” 这一句话区分”读过 benchmark 表的人”和”算过账的 PM”。
选型怎么用。 拿目标语言的平行文本，在候选模型 tokenizer 上实测 token 数（不信营销页的语言列表）。CJK 密集场景认真评估 Qwen/DeepSeek 的结构性 token 优势；但记住 §4 坑 3——溢价绑”语言 × tokenizer”，换模型重测。
复现怎么用。 复现 RAG 时，chunk 边界用字符数而非 token 数（避免高溢价语言 chunk 信息量被压缩）；成本估算脚本里加一列语言敏感系数，别用单一 token 单价。

§9 与已有节点的关系

对 c02 - Tokenization 与词表工程：深化 + 病理化。c02 讲 BPE 机制、词表演化与产品影响的”是什么”；E01 不复述机制，而是把”多语言陷阱”那一层放进真实计费、CJK 逆溢价、拉美业务做切片，补上 c02 没展开的 fertility 实测数据与社会嵌入视角。
对 Tokenization（概念卡）：补缺。概念卡的”AI PM 隐藏陷阱”第 4 条提到多语言成本核算但未给数字，E01 是它的实证后端——可反向被概念卡引用具体溢价表。
对 m209 - 推理成本控制手册：对话 + 纠偏。m209 的成本优化默认”token = 内容量”，E01 纠正这个假设：起跑线本身因语言而不同。
对成本工程专题：升级对照。E01 的 token 溢价实测数据是 0413 成本优化的多语言前置——0413 默认”token = 内容量”，E01 补上”起跑线因语言而异”这一层，预留接口在 §3 callout。

§10 关联节点

核心（必读）：

延伸（可选）：

幻觉（Quality 准则违反与多语言质量塌缩的交叉）
民族志
墨西哥 · 秘鲁 · 玻利维亚
PAX-Premium实名徽章
0117社会学（基础设施的政治）
AI PM 知识图谱·总索引
本专题同级：E02 跨文化 Prompt 与本地化剖解 · E03 拉美多语言 AI 产品剖解（同专题节点，名以总览为准）

修订日志

R1 (2026-06-07)：首稿。建立”token 溢价”框架（§0）、强接地数据表（§2，Petrov/Ahia/Churchill/Lundin/TechFlow 多源）、成本三链路（§3）、判断主轴四坑（§4）、对手框架双立场回应（§6，Arnett 纯词表论 + CJK 逻辑文字论）、拉美 fieldwork 跨域呼应（§7，人类学基础设施政治 + CPF/西语/土著语言落地）。
R1.1 (2026-06-07)：grounding 复核。WebSearch 确证 arXiv:2604.14210（Ren et al.，“Chinese Language Is Not More Efficient Than English in Vibe Coding”，2026-04-06，SWE-bench Lite）与 arXiv:2601.13328（Churchill & Skiena，Shan 19× / BERT-Multilingual 反向优于英语 2×）真实存在；移除 §4 坑 3 的〔待核实〕标记，修正为”效应因模型架构而异 + 成功率系统性更低”的准确表述。剩余单源待复核项：TechFlow 2026 中文实测（19 vs 6 tokens）为行业实测、单一来源，引用时已标”TechFlow 2026 实测”；DeepSeek-V3 0.65× 同属单源实测，保留来源标注。
2026-06-11 P3.1 接地修复：WebFetch 核实 arXiv:2601.13328 正文 Table 2，确证掸语 19.09×（GPT-2/3）、孟加拉语 8.43×（Claude 2.1）等精确值真实存在，§2 数据表全部保留；据该论文提交日期 2026-01-19（arXiv 2601 即 2026 年 1 月），将引用标签由”Churchill & Skiena 2025”统一改为”2026”。来源：https://arxiv.org/abs/2601.13328 ，https://arxiv.org/html/2601.13328v1 。
2026-06-11 P3.4 校链：0413 成本工程专题现已入库，删除全文 0413 相关 staging 注解并恢复真链——§3「与 0413 对话边界」callout 及 §9「与已有节点关系」末条均改为成本工程专题。
2026-06-12 内审修复：去掉 arXiv:2604.14210 库内自创的”Mythbuster:“前缀（§4 坑 3 正文 + R1.1 日志），补回真实副标题”…: A Preliminary Study on Token Cost and Problem-Solving Rate”（来源：Rick 内审权威值）；修复 §3/§9 三处 0413 总览 死链——实际 basename 为 [_成本工程系统化专题·总览](/kb/专题-工程与成本/_成本工程系统化专题-总览/)（保留显示别名）。