E01 多语言 Tokenization 成本剖解
同一句话,英文用户付 1 块钱,掸语用户付 19 块钱——这不是汇率,是 tokenizer。本节点要解决的问题是:为什么”语义等价”的内容在不同语言里要消耗成倍的 token,这笔”token 溢价”(token premium)如何穿透到 API 账单、上下文窗口、推理延迟和模型质量,以及一个做国际化产品的 PM 该如何在选型时把它算清楚。视角是病理学——不讲 BPE 该怎么训(那是 c02 - Tokenization 与词表工程 的事),只解剖真实产品里这套机制怎么走样,谁在为它买单。
§0 为什么是”token 溢价”这个框架,而不是”小语种支持得不好”
PM 谈多语言能力,最容易落进的默认框架是**“覆盖率”框架**:模型支不支持葡语?西语效果如何?这个框架把语言能力当成一个布尔开关或一条质量曲线,但它漏掉了最隐蔽、最难翻案的一层——计费层。
“token 溢价”框架的核心主张是:即使一个模型在小语种上质量完全合格,非英语用户仍然系统性地多付钱、少拿到上下文、等更久。因为收费单位是 token,而 token 的”性价比”由词表(vocabulary)决定,词表是从以英语为主的语料训出来的。这是一种结构性、被计量单位本身隐藏的不平等——它不在模型卡的 benchmark 表里,不在营销页的”支持 100+ 语言”里,只在你跑完一个月才出现在账单上。
换框架的收益:从”这个语言效果好不好”(质量问题,可以靠堆数据缓解)升级到”这个语言每个字符值几个 token”(计量问题,必须换 tokenizer 才能根治)。后者才是 PM 选型时真正该锁的变量。这一层抽象正是本节点相对 c02 - Tokenization 与词表工程 升高之处:c02 讲机制与词表工程,本节点把同一机制放进真实计费场景与拉美/CJK 业务里做病理切片。
§1 token 溢价的定义与根因
token 溢价 = 同义内容在某语言所需 token 数 ÷ 英语所需 token 数。英语基准记为 1.0×。它直接决定四件事:API 计费、上下文窗口有效容量、推理延迟、以及该语言上的实际质量上限。
根因只有一句话:BPE/BBPE 的词表是从英语为主的语料里”合并”出来的。 英语单词在训练语料里高频出现且有空格作天然边界,常常被整词合并成 1 个 token(1 token ≈ 4–5 个字符)。而 CJK 字符低频、无空格边界,无法充分合并,逼近”1 字符 = 1 token”的最差压缩率;很多小语种的字符甚至连 Unicode 都没进词表,被打成字节级碎片(1 字符 = 2–4 个 token)。
[!note] 一句话记牢 不是”中文/泰米尔语天生难分词”,是”英语在词表里占了便宜”。同一份 7000 万合并规则的预算,绝大部分花在了拉丁字母组合上。
§2 真实数据:语言级溢价对照(强接地)
下表全部来自已发表论文或实测,均基于平行语料(FLORES-200 或同类基准),控制了语义等价性。不同研究的度量口径(fertility = tokens/词 vs. 片段长度比)略有差异,已标注来源。
| 语言 | tokenizer | token 溢价(vs 英语) | 来源 |
|---|---|---|---|
| 葡萄牙语 (pt-BR) | GPT-4 系 | ~1.5×(约多 50% token) | Petrov et al., NeurIPS 2023 |
| 西班牙语 | 主流 BPE | ~1.3–1.6× | Petrov et al., NeurIPS 2023 |
| 中文(简体) | GPT-4o (o200k) | ~1.3× | TechFlow 2026 实测 |
| 乌克兰语 | GPT-2 / Phi-2(差) | ~3× | Petrov et al. 2023 / Maksymenko & Turuta 2025 |
| 乌克兰语 | GPT-4o / Llama 3.1(优) | ~1.9× | Maksymenko & Turuta, Frontiers AI 2025 |
| 印地语 (Hindi) | GPT-2/3 | 7.51× | Churchill & Skiena 2026 |
| 孟加拉语 (Bangla) | Claude 2.1 | 8.43× | Churchill & Skiena 2026 |
| 泰卢固语 / 阿姆哈拉语 | GPT-3.5 (BBPE) | ~4–5× | Ahia et al., EMNLP 2023 |
| 亚美尼亚语 | OLMo 2 | 10.02× | Churchill & Skiena 2026 |
| 掸语 (Shan) | GPT-2/3 | 19.09× | Churchill & Skiena 2026 |
| 跨语言最大差距 | 17 种 tokenizer | 最高 15× | Petrov et al., NeurIPS 2023 |
判断主轴在这里第一次浮现:判断主轴 = 非英语用户为同样的内容多付数倍。 这不是个别极端值——印度次大陆几大语言普遍 6–8×,非洲语言普遍 4–5×,连欧洲语言里的乌克兰语在老 tokenizer 上都是 3×。掸语的 19× 是上限提醒:对最弱势的语言,token 溢价能让 AI 贵到几乎不可用。
§2.1 CJK 详情:中文不是想象中那么贵,但也不是免费
中文是个反直觉的案例,值得单独剖。社交媒体上流传”中文 prompt 比英文省 40% token”的说法,这是个工程民俗,需要拆开看。
| 模型 / tokenizer | 中文 fertility(tokens/词) | 中英比值 |
|---|---|---|
| GPT-4o (o200k) | ~1.8–2.0 | ~1.3× |
| Qwen 2.5(词表 151,936) | ~2.40(fertility 高但整 token 质量好) | 某些文本类型 <1.0× |
| DeepSeek-V3 | 低 fertility | 低至 0.65×(中文比英语省 35%) |
一个具体实测(来源:TechFlow 2026):句子”人工智能正在重塑全球的信息基础设施”(16 个汉字)——
- GPT-4 tokenizer:19 tokens
- Qwen tokenizer:6 tokens
- 差距:3.2×
结论分两层:(a) 用 GPT/Claude 的西方 tokenizer,中文仍有 ~1.3× 溢价;(b) 用 Qwen/DeepSeek 这类专门扩了 CJK 词表的国产 tokenizer,中文能做到逆溢价(比英语还省)。所以”中文省 token”这句话只在特定 tokenizer 上成立——它是 tokenizer 设计的结果,不是中文这门语言的属性。日语/韩语没这么幸运:主流 BPE 下汉字/假名/谚文音节块多为 1:1,普遍 2–4× 溢价(细分数字见 Petrov et al. 2023)。
§3 成本如何穿透:从 fertility 到账单到训练
token 溢价不是抽象的,它在三条链路上变成真金白银(数据来源:Lundin et al. 2025, “The Token Tax”)。
链路一 · API 计费(线性放大):
- GPT-4o 标价约 $5–20 / 百万英语 token;
- 2× fertility 的语言,相同内容量实际成本 $10–40 / 百万 token——直接翻倍。
链路二 · 训练成本(二次方放大):
- token 数翻倍,但 Attention 是 O(n²),训练时间/成本约翻 4 倍;
- 据 Lundin et al. 测算:若按英语训 Llama-3.1-405B 约 $1.05 亿,则 2× fertility 语言达约 $4.20 亿。这是为什么厂商没有商业动力去优化小语种——它越贵,越没人为它投词表预算,形成”越穷的语言越贵”的闭环。
链路三 · 质量塌缩(非线性):
- Lundin et al. 在 16 种非洲语言上测得:每多 1 token/词,准确率下降 8–18 个百分点;
- 非洲语言整体落后英语约 25 个准确率点。
还有一条隐性链路——上下文窗口缩水:同样 128k 窗口,高溢价语言能塞进的实际信息量显著更少。RAG 的 chunk、long-context 的”读整本书”,对这些语言都打了折扣。这一层与 m209 - 推理成本控制手册 的成本优化清单直接咬合——它教你怎么省 token,本节点告诉你起跑线本身就因语言而不同。
[!note] 与 0413 成本工程 的对话边界 m209 - 推理成本控制手册 默认”token 数 = 内容量”,在多语言场景这个假设破裂。E01 的修正:成本模型必须乘一个语言敏感系数(中文/日文 ×1.2–1.6,印度/非洲语言 ×4–8)。这是 成本工程专题 通用成本核算缺的语言维度,可由其总览进入对照。
§4 判断主轴:90% 的 PM 会在这里栽的四个坑
每个坑给”症状 → 为什么会错 → 正确做法 → 真实反例”四件套。
坑 1:用英文 token 单价做全球成本估算
- 症状:财务模型里写”$X / 百万 token”,全球一个数。
- 为什么会错:把 token 当成语言中立的计量单位,忽略 fertility 是语言相关变量。
- 正确做法:按目标市场语言乘溢价系数重算 unit economics。巴西葡语 ×1.5、印地语 ×7。
- 真实反例:一个面向印度市场的客服 bot,若按英语成本定价,实际 token 消耗是预算的 6–8 倍(Churchill & Skiena 2026:Hindi 7.51×),毛利直接为负。
坑 2:把”支持 100+ 语言”当成”100+ 语言都划算”
- 症状:选型看模型卡的语言覆盖列表,不看每语言的 fertility。
- 为什么会错:覆盖 ≠ 经济。模型能输出某语言,和那个语言不被宰,是两回事。
- 正确做法:拿目标语言的平行文本,在候选 tokenizer 上实测 token 数(Petrov 等提供了在线对比工具)。
- 真实反例:Ahia et al.(EMNLP 2023)发现 token 溢价与 HDI(人类发展指数)负相关(相关系数 -0.41 至 -0.60)——越不发达地区的语言越贵。“支持”它们的厂商,恰恰让最付不起的人付最多。
坑 3:相信”中文 prompt 省 token”这个民俗,跨模型乱套
- 症状:因为在 Qwen 上看到中文省 token,就在所有模型上假设中文便宜。
- 为什么会错:逆溢价是特定 tokenizer 的局部优化,不是语言属性,换模型即失效。
- 正确做法:溢价系数绑定到”语言 × tokenizer”二元组,不绑单语言。
- 真实反例:Ren et al.(2026, “Chinese Language Is Not More Efficient Than English in Vibe Coding: A Preliminary Study on Token Cost and Problem-Solving Rate”, arXiv:2604.14210, 2026-04-06,基于 SWE-bench Lite)实测发现”中文省 token”的优势并不存在,且效应因模型架构而异——MiniMax-2.7 中文 token 成本反而高 1.28×,而 GLM-5 中文确实更省;更关键的是,所有模型上中文 prompt 的任务成功率都系统性低于英语——省的 token 被掉的成功率吃回去。结论:换语言省不了钱,反而可能更笨。(已 WebSearch 核实)
坑 4:以为”省了 token = 没有损失”
- 症状:选 fertility 低的 tokenizer,认为纯赚。
- 为什么会错:token 切得越碎,每 token 携带的语义越少,模型质量可能掉;反之 token 太”贪婪”也可能丢边界信息。token 数与质量是两个轴。
- 正确做法:用 fertility 和下游任务准确率两个指标联合评估,别只盯计费。
- 真实反例:Nayeem et al.(2025, arXiv:2510.09947)批评 fertility 单指标无法区分”多 token 但有意义”与”多 token 且破碎”,提出 STRR(子词-参考比率)作为补充——说明只优化 token 数会选出便宜但更笨的 tokenizer。
§5 产品 PM 视角补盲:计费层之外的三个盲点
跳出工程视角,token 溢价还藏着工程 PM 看不到的产品/商业/合规问题。
-
定价公平性是潜在合规与品牌风险。 Ahia et al. 已把 tokenizer 溢价与社会经济不平等公开挂钩。一个面向全球南方的产品,若按 token 透传成本,等于对最弱势用户加价——这在监管趋严、ESG 叙事盛行的环境里是可被点名的风险。前瞻做法:对高溢价语言市场做字符级或会话级定价,把 tokenizer 的不公平吸收在后端,不传导给用户。
-
用户心理模型:用户按”字数/句数”感知价值,不按 token。 一个巴西用户写 100 字葡语问题,和一个美国用户写 100 字英语问题,主观上付出相同努力、期待相同回应。若你的额度系统按 token 扣,葡语用户会无端更快撞墙——他感受到的是”这个产品对我更小气”,而他根本不知道 token 是什么。本地化的额度设计应以字符/消息为锚,不以 token 为锚。
-
GTM 的隐性歧视。 当 unit economics 因语言而异,增长团队会”理性地”优先英语市场(毛利最高),把高溢价语言市场定为”低优先级”——token 溢价于是从技术问题变成市场进入顺序的隐性决定因素。Rick 在 DiDi/99 拉美业务里能直接看到这层:见 §7 跨域呼应。
§6 对手框架回应:接受 + 边界
对手立场(强版本,来自 Arnett et al., NeurIPS 2025 与 Churchill & Skiena 2026): “token 溢价完全是词表设计问题,与语言本身无关。扩大 CJK/小语种词表、采用允许跨空格合并的’超词 tokenizer’,溢价可大幅消除——Qwen、DeepSeek 已经证明。所以这不是结构性不公,是个可解的工程 bug。”
接受的部分: 对。Qwen(词表 151,936)和 DeepSeek-V3 的逆溢价是硬证据,证明对中文这种有充分商业动机投词表的语言,溢价确实可以被工程消除。 Arnett et al. 用约 7000 个单语 tokenizer、97 种语言的实验也确证:词表大小和预分词是主因,不是语言难度。
坚持的边界与赌注: 但”可解”不等于”会被解”。
- (a) 逆优化是此消彼长的局部优化:Qwen 在中文上逆溢价,在乌克兰语上 fertility 却高达 2.89(Maksymenko & Turuta 2025)。至今没有在所有语言上都公平的 tokenizer。
- (b) “可解”假设有人愿意为每种语言付那笔训练放大成本(§3 链路二的 4×)。掸语 19× 的现实是:商业动机恰恰在最需要的地方最弱。 这就是为什么 token 溢价仍是 PM 必须现在就算进模型的真实约束,而不是”等工程修好”的临时现象。
第二个对手框架(Rick 未读,破 echo chamber)——“CJK 逻辑文字论”: 另一派认为 CJK 的 logographic 系统和无空格边界天然增加分词难度,即使大词表也需根本不同的分词哲学(字节 vs 字 vs 词粒度的选择无定论)。这一派与 Arnett 的”纯词表论”未达成共识——本节点不站队,只标注:这是个未解的开放争论,PM 不应假设任何一方已胜出。
§7 跨域呼应:从拉美 fieldwork 看 token 溢价的社会嵌入
[!note] Rick 的独特资产:DiDi/99 国际化 + 拉美多语言 fieldwork token 溢价不是抽象的”全球南方不公”,它在 Rick 做过的具体产品里有名有姓。
人类学视角——把 tokenizer 看成一种”基础设施的政治”。 人类学 对基础设施(infrastructure)的研究有个核心洞见:基础设施从不中立,它把某些人的便利固化为默认,把另一些人的需求变成”特殊处理”。tokenizer 正是 LLM 的基础设施——它把英语的便宜固化为”1.0× 基准”,把所有其他语言变成”溢价”。这个视角改变了技术判断:token 溢价不该被读作”小语种支持的技术债”,而该被读作”谁的语言被设成了默认”的权力分配问题。 这正是 民族志 式 fieldwork 的价值——只有蹲在巴西用户旁边,你才会注意到他用葡语打的字在后台被切成了比英语多 50% 的碎片。
具体迁移到 Rick 的业务节点:
- 巴西葡语场景。 CPF(Cadastro de Pessoas Físicas,巴西 11 位纯数字身份证)tokenizer 处理效率高,但承载它的葡语对话文本,在 Llama-2(32K 词表)下 fertility 约英语 1.8–2.5×,Llama-3(128K)、Qwen 2.5(151,936)改善明显。Rick 做过的 CPF实名验证、PAX-Premium实名徽章 若上 LLM 客服/审核,token 预算必须按这个系数重估——这是 §4 坑 1 的真实落地。
- 西语(拉美各国)场景。 西语在主流 BPE 上约 1.3–1.6× 英语,与中文相近;但拉美土著语言(瓜拉尼语、马雅语系、Kogi 等)仍是字节级碎片,与 c02 - Tokenization 与词表工程 §2.3”小语种被拆成字节级碎片”完全呼应。覆盖 墨西哥、秘鲁、玻利维亚 等多民族市场时,对原住民语言的 AI 服务在经济上几乎不可行——这不是”以后做”,是”按现在的 tokenizer 永远不划算”。可链:拉美知识图。
这一段把跨域资源用”实”了:人类学的”基础设施政治”框架,把一个看似纯工程的计费问题,重判为产品伦理与市场公平问题——而 Rick 的拉美 fieldwork 提供了工程视角拿不到的接地证据。
§8 PM 决策启示:面试 / 选型 / 复现三类落地
- 面试怎么用。 被问”如何评估一个多语言 LLM 产品的成本”,不要答”看 token 单价”。答:“token 单价只是分子,分母是 fertility,它因语言而异最高差 15×(Petrov, NeurIPS 2023),而且与 HDI 负相关(Ahia, EMNLP 2023)——所以我会按目标市场语言乘溢价系数重算 unit economics,并把高溢价语言的定价策略单独拎出来。” 这一句话区分”读过 benchmark 表的人”和”算过账的 PM”。
- 选型怎么用。 拿目标语言的平行文本,在候选模型 tokenizer 上实测 token 数(不信营销页的语言列表)。CJK 密集场景认真评估 Qwen/DeepSeek 的结构性 token 优势;但记住 §4 坑 3——溢价绑”语言 × tokenizer”,换模型重测。
- 复现怎么用。 复现 RAG 时,chunk 边界用字符数而非 token 数(避免高溢价语言 chunk 信息量被压缩);成本估算脚本里加一列语言敏感系数,别用单一 token 单价。
§9 与已有节点的关系
- 对 c02 - Tokenization 与词表工程:深化 + 病理化。c02 讲 BPE 机制、词表演化与产品影响的”是什么”;E01 不复述机制,而是把”多语言陷阱”那一层放进真实计费、CJK 逆溢价、拉美业务做切片,补上 c02 没展开的 fertility 实测数据与社会嵌入视角。
- 对 Tokenization(概念卡):补缺。概念卡的”AI PM 隐藏陷阱”第 4 条提到多语言成本核算但未给数字,E01 是它的实证后端——可反向被概念卡引用具体溢价表。
- 对 m209 - 推理成本控制手册:对话 + 纠偏。m209 的成本优化默认”token = 内容量”,E01 纠正这个假设:起跑线本身因语言而不同。
- 对 成本工程专题:升级对照。E01 的 token 溢价实测数据是 0413 成本优化的多语言前置——0413 默认”token = 内容量”,E01 补上”起跑线因语言而异”这一层,预留接口在 §3 callout。
§10 关联节点
核心(必读):
- c02 - Tokenization 与词表工程
- Tokenization
- m209 - 推理成本控制手册
- Embedding
- 人类学
- CPF实名验证
- 拉美知识图
延伸(可选):
- 幻觉(Quality 准则违反与多语言质量塌缩的交叉)
- 民族志
- 墨西哥 · 秘鲁 · 玻利维亚
- PAX-Premium实名徽章
- 0117社会学(基础设施的政治)
- AI PM 知识图谱·总索引
- 本专题同级:E02 跨文化 Prompt 与本地化剖解 · E03 拉美多语言 AI 产品剖解(同专题节点,名以总览为准)
修订日志
- R1 (2026-06-07):首稿。建立”token 溢价”框架(§0)、强接地数据表(§2,Petrov/Ahia/Churchill/Lundin/TechFlow 多源)、成本三链路(§3)、判断主轴四坑(§4)、对手框架双立场回应(§6,Arnett 纯词表论 + CJK 逻辑文字论)、拉美 fieldwork 跨域呼应(§7,人类学基础设施政治 + CPF/西语/土著语言落地)。
- R1.1 (2026-06-07):grounding 复核。WebSearch 确证 arXiv:2604.14210(Ren et al.,“Chinese Language Is Not More Efficient Than English in Vibe Coding”,2026-04-06,SWE-bench Lite)与 arXiv:2601.13328(Churchill & Skiena,Shan 19× / BERT-Multilingual 反向优于英语 2×)真实存在;移除 §4 坑 3 的〔待核实〕标记,修正为”效应因模型架构而异 + 成功率系统性更低”的准确表述。剩余单源待复核项:TechFlow 2026 中文实测(19 vs 6 tokens)为行业实测、单一来源,引用时已标”TechFlow 2026 实测”;DeepSeek-V3 0.65× 同属单源实测,保留来源标注。
- 2026-06-11 P3.1 接地修复:WebFetch 核实 arXiv:2601.13328 正文 Table 2,确证掸语 19.09×(GPT-2/3)、孟加拉语 8.43×(Claude 2.1)等精确值真实存在,§2 数据表全部保留;据该论文提交日期 2026-01-19(arXiv 2601 即 2026 年 1 月),将引用标签由”Churchill & Skiena 2025”统一改为”2026”。来源:https://arxiv.org/abs/2601.13328 ,https://arxiv.org/html/2601.13328v1 。
- 2026-06-11 P3.4 校链:0413 成本工程专题现已入库,删除全文 0413 相关 staging 注解并恢复真链——§3「与 0413 对话边界」callout 及 §9「与已有节点关系」末条均改为 成本工程专题。
- 2026-06-12 内审修复:去掉 arXiv:2604.14210 库内自创的”Mythbuster:“前缀(§4 坑 3 正文 + R1.1 日志),补回真实副标题”…: A Preliminary Study on Token Cost and Problem-Solving Rate”(来源:Rick 内审权威值);修复 §3/§9 三处
0413 总览死链——实际 basename 为[_成本工程系统化专题·总览](/kb/专题-工程与成本/_成本工程系统化专题-总览/)(保留显示别名)。