A03 多语言 Tokenization 效率差异 · 知识库

同一句话，用英语写要 10 个 token，用中文写要 19 个，用掸语写要 190 个——而你的 API 账单、上下文窗口、推理延迟，统统按 token 计价。本节要解决的问题是：为什么”语言公平”在 LLM 产品里从来不是一个伦理选项，而是一个被 tokenizer 在你看不见的地方提前替你做掉的工程决定。视角是「成本／质量的隐性税」框架——多语言产品的单位经济学和输出质量，被分词器的词表分配悄悄定价，而绝大多数 PM 在做选型、报价、上下文规划时，根本没把这一层算进去。

[!note] 判断主轴 多语言产品的成本与质量，被 tokenizer 隐性决定。 这不是”小语种支持得好不好”的产品功能问题，而是”同样的信息，非英语用户先天多付钱、少容量、低质量”的结构性不公——它发生在你的提示词进入模型之前，发生在产品经理的视野之外。

§0 为什么是「token 溢价」框架，而不是「翻译质量」框架

PM 谈多语言产品，默认框架几乎都是”翻译/本地化质量好不好”——这是 c02 - Tokenization 与词表工程没有展开、而本专题 A04 翻译≠本地化专门处理的维度。但”翻译质量”框架会让你彻底看不见本节要讲的问题，因为它假设语言之间的差异在”语义层”。

真正的不公在更底层、更机械的地方：分词层。在文本变成向量、变成”理解”之前，它先被切成 token。而切法是用一张以英语为绝对主力的语料统计出来的词表（vocabulary）。结果是同义内容在不同语言里的 token 数差异巨大——这个比值就是 token 溢价（token premium），以英语为基准 1.0×。

为什么必须用这个框架而不是翻译框架？因为 token 溢价同时驱动四条 PM 直接负责的指标，而翻译质量一条都管不到：

被 token 溢价驱动的指标	翻译质量框架能解释吗
API 计费（按 token 计价）	不能
上下文窗口有效容量（同样 128k，装的信息量不同）	不能
推理延迟 / 吞吐（token 越多越慢）	不能
输出质量（碎片化 token 损伤模型表现）	部分相关，但归因错位

换句话说：你可以买到完美的翻译 API，仍然在为巴西用户、为掸语用户、为乌克兰用户系统性多付 1.3–19 倍的钱。翻译框架让你优化了语义，却对单位经济学的失血一无所知。这就是为什么本节点要从 c02 - Tokenization 与词表工程的”机制描述”升高一层，做成”语言间不平等的定价分析”。

§1 溢价从哪来：词表是英语母语者写的

token 溢价的根因，不在语言”难”，而在词表”偏”。

主流 LLM 用 BPE / Byte-level BPE（BBPE）分词。词表通过在语料上反复合并高频字节对（merge）建成。问题是训练语料以英语为压倒性主力——据 Li et al.（AAAI 2025，arXiv:2404.11553）核实，GPT-3 训练 token 中约 92.65% 为英语，LLaMA 2 预训练数据中英语约占 89.70%。后果：

英语：常见整词（“information”、“infrastructure”）在训练中高频出现，被合并成单个 token，1 token 可代表 4–5 个字符；
CJK：汉字在英语主导语料中低频、且无空格边界可供合并，往往退化到近乎 1 字符 = 1 token，甚至 1 汉字被拆成 2–3 个 UTF-8 字节级 token；
低资源语言（掸语、阿姆哈拉语、泰卢固语）：几乎没有进入词表的合并机会，被彻底打成字节级碎片。

这一点至关重要，因为它推翻了一个直觉错误：“CJK 多 token 是因为中文信息密度高/方块字复杂”。Arnett, Chang, Biderman & Bergen（NeurIPS 2025，arXiv:2510.21909）用约 7000 个单语 tokenizer 跨 97 种语言证明：跨语言不平等的主因是词表大小和预分词（pre-tokenization）策略，而非语言本身的内在属性——扩充该语言的词表分配，溢价就能大幅消除。Qwen、DeepSeek 已经用工程实践证明了这一点（见 §2）。

§2 强接地数据：溢价到底有多大

这是本节的硬资产。以下数字均来自已发表论文，基于平行语料（FLORES-200 或类似基准），控制了语义等价性。不同研究用的指标略有差异——主流是 fertility（每词 token 数），少数用片段长度比，下文标注来源时一并保留其口径。

2.1 语言级 token 溢价（vs 英语）

语言	tokenizer	溢价	来源
葡萄牙语（巴西 99 业务相关）	GPT-4	~1.5×	Petrov et al., NeurIPS 2023
泰卢固语 / 阿姆哈拉语	GPT-3.5 (BBPE)	~4–5×	Ahia et al., EMNLP 2023
乌克兰语	GPT-4	~3×	Petrov et al., NeurIPS 2023
印地语	GPT-2/3	7.51×	Churchill & Skiena 2026
孟加拉语	Claude 2.1	8.43×	Churchill & Skiena 2026
亚美尼亚语	OLMo 2	10.02×	Churchill & Skiena 2026
掸语（Shan）	GPT-2/3	19.09×	Churchill & Skiena 2026
跨语言最大差异	17 种 tokenizer	最高 15×	Petrov et al., NeurIPS 2023

[!warning] 数据口径说明上述为不同研究、不同模型、不同度量（fertility vs 片段长度比）下的数字，不能直接横向相减，只能各自在其来源口径内成立。共识是：非英语语言存在系统性 token 溢价，且越是低资源语言溢价越高，最高接近 20×。

2.2 CJK：一个被工程改写的案例

中文是观察”溢价可被词表设计逆转”的最佳样本。同一句”人工智能正在重塑全球的信息基础设施”（16 个汉字），实测（来源：TechFlow 2026 行业实测，arXiv 同行数据交叉）：

GPT-4 tokenizer：约 19 token
Qwen tokenizer（词表 151,936）：约 6 token
差距：约 3.2×

更激进的是 DeepSeek-V3：在某些中文文本类型上，其 token 成本可低至英语的 0.65×——也就是中文比英语省 35%。这正是 §1 论点的实证：溢价是词表分配问题，不是语言宿命。当一家中国团队把汉字、常见词组充分纳入词表，中文就从”被惩罚的语言”变成”被优待的语言”。

但别急着下”中文更省 token”的结论——这恰恰是需要砍掉的 confirmation bias（见对手框架回应）。

2.3 成本与质量的双重失血（已核实）

计费层面（来源：Lundin et al. 2025，“The Token Tax”，arXiv:2509.05486）：

GPT-4o API 英语标价约 $5–20 / 百万 token；2× fertility 语言的等效内容实际成本翻倍至 $10–40 / 百万 token。
训练侧放大更狠：token 数翻倍，因 Attention 的 O(n²) 缩放，训练成本约翻 4 倍。论文据此估算：训练一个 405B 级模型，英语约 $1.05 亿，2× fertility 语言达约 $4.20 亿。

质量层面（同源）：

16 种非洲语言上，每多 1 token/词，准确率下降 8–18 个百分点；非洲语言整体落后英语约 25 个准确率点。

容量层面：溢价直接吃掉有效上下文。同样 128k 窗口，用高溢价语言撰写的文档，实际能塞进去的”信息量”显著缩水——这对 RAG、长文档处理是隐形的容量税。

§3 判断主轴：90% 的多语言 PM 会在这四个点搞错

[!danger] 致命耦合点这一节是本节点的命门。token 溢价不是一个”知道了”的冷知识，它会在四个具体决策处咬人。

错位一：用英语 token 预算估算多语言成本

症状：产品在英语下跑通，预算按英语 token 量 × 单价拍板；上线巴西/中东后账单暴涨，毛利模型崩掉。
为什么会错：PM 默认”token 数和字符数线性相关”，忽略了 fertility 是语言相关的常数。
正确做法：成本模型按语言加权。葡语 ×1.5、阿拉伯语/印地语按各自 fertility 上浮、低资源语言单独建档。用字符数而非 token 数做跨语言预算锚点，再乘各语言 fertility 系数。
真实反例：Ahia et al.（EMNLP 2023，arXiv 见 §来源）实测 ChatGPT/BLOOMZ 的真实计费，发现高溢价语言与该地区 HDI（人类发展指数）呈负相关（相关系数约 -0.41 至 -0.60）——越穷的地区，语言越贵，用 AI 越贵。一个按英语预算定价的全球产品，等于让最付不起钱的用户付最多。

错位二：以为换个语言写 prompt 能省钱（“中文 prompt 省 40%“神话）

症状：工程团队/社媒流传”用中文写 prompt 比英语省 token”，团队照做，结果成本没降、任务成功率还掉了。
为什么会错：把”某个 tokenizer 上某类文本的局部优势”误当成”语言本身的普遍属性”。
正确做法：实测你用的那个模型、那类任务、那种文本。溢价是 (tokenizer × 文本类型) 的联合函数，不是语言的标量属性。
真实反例：Ren et al.（2026，“Chinese Language Is Not More Efficient Than English in Vibe Coding: A Preliminary Study on Token Cost and Problem-Solving Rate”，arXiv:2604.14210，基于 SWE-bench Lite）实测：MiniMax-2.7 上中文反而贵 1.28×，GLM-5 上中文确实消耗更少 token——证明语言效应是模型相关的、不可一概而论；且关键发现是用中文 prompt 在所有测试模型上任务成功率普遍低于英语，省 token 的算盘被成功率下降抵消。

错位三：用 token 数当 RAG 的 chunk 边界

症状：RAG 切块按”每块 N token”，在英语语料调好的 chunk 大小，搬到中文/阿拉伯语后，每块装的”语义内容”骤减，检索召回质量下降。
为什么会错：token 在高溢价语言里更碎，固定 token 预算 = 浮动的语义容量。
正确做法：高溢价语言下，chunk 边界用字符数或句子边界，而非 token 数；或按语言调整 chunk 的 token 预算。
真实反例：呼应 c02 - Tokenization 与词表工程 2.3 节”小语种被拆成字节级碎片”——拉美土著语言（瓦尤语、马雅语系）在主流 tokenizer 下几乎全是字节级碎片，固定 token chunk 在这些语言上等于把一个完整词拆进两块。

错位四：把模型选型只当质量/价格二维问题

症状：CJK 密集场景仍默认选 GPT/Claude，因为”英语 benchmark 高”，却没算上 CJK 的 token 经济性。
为什么会错：忽略了 tokenizer 是模型的一部分，而它对你的主力语言可能有结构性优劣。
正确做法：把”目标语言 fertility”列为选型第三维。CJK 密集场景下，Qwen/DeepSeek 的大词表带来结构性 token 成本优势，需在质量、价格、token 经济性三维综合权衡。
真实反例：Qwen 在中文上省 token，但在乌克兰语上 fertility 高达约 2.89（Maksymenko & Turuta 2025，Frontiers in AI）——它是区域优化，不是全语言公平。没有一个 tokenizer 在所有语言上都公平；优化永远是局部的、此消彼长的。

§4 产品 PM 视角补盲：工程之外的三个看走眼点

工程视角到”成本/质量”为止，但 token 溢价还有三个 PM 必须看见的非工程切面：

定价公平 → 合规与品牌风险：Ahia et al. 已把 tokenizer 溢价与社会经济不平等显式挂钩。当”AI 普惠”成为监管叙事，“按 token 统一定价 = 让弱势语言群体多付费”可能成为披露/反歧视的监管靶子。这对在全球南方（拉美、非洲、南亚）运营的产品尤其敏感——这正是 Rick 在 CPF实名验证、PAX-Premium实名徽章等 99 巴西项目里会直接撞上的政策面。
用户心理：感知不到的二等公民：非英语用户不会知道自己的每条消息更贵、更慢、上下文更挤。这是一种”看不见的产品体验差距”——用同样的钱，巴西用户得到的有效上下文容量比美国用户小。PM 若不主动度量，永远不会出现在任何 dashboard 上。
GTM 单位经济学：进入一个高溢价语言市场，CAC/LTV 模型里的可变推理成本要按该语言 fertility 重算。一个在英语市场跑通的 freemium 额度（“免费 100 条消息”），换算到掸语/阿姆哈拉语可能直接亏穿——同样 100 条消息，token 成本是英语的数倍。

§5 对手框架回应（接受 + 边界）

对手立场一：Arnett et al. / Churchill & Skiena——“这纯粹是词表分配问题，扩词表即可解决，不必上升到’语言不公’。” 接受：他们对的——溢价确实主要由词表与预分词决定，非语言宿命；Qwen/DeepSeek 已证明 CJK 溢价可工程消除。边界：但”可解决”不等于”已解决”。对掸语、瓦尤语这类没有商业团队为其建大词表的低资源语言，溢价在可预见的未来依然存在；而决定谁的词表被扩充的，是市场规模和资本，不是技术——这恰恰把工程问题还原成了权力问题。

对手立场二（Rick 未读对手框架引入 #1）：CJK 逻辑文字派——“无空格边界 + 表意文字系统天然增加分词难度，大词表只是缓解，不同书写系统需要不同分词哲学（字节 vs 字 vs 词粒度）。” 接受：CJK 缺乏显式词边界确实给”哪里算一个 token”带来了与字母语言不同的难题，Qwen 152k 与 GPT-4o 200k 词表在 CJK 上的效果差异至今有争议。边界：但这不改变 §2.2 的实证——同一句话 GPT-4 用 19 token、Qwen 用 6 token，说明现有差距的大头仍是分配问题而非书写系统的物理下限。书写系统设了一个地板，但当前主流模型离那个地板还远着。

对手立场三（Rick 未读对手框架引入 #2）：fertility 怀疑派（Nayeem et al. 2025，“Beyond Fertility: Analyzing STRR as a Metric for Multilingual Tokenization Evaluation”，NeurIPS 2025 Workshop，arXiv:2510.09947）——“fertility 这个指标本身有缺陷，它捕捉压缩效率却掩盖了词表在语言间的分配方式，用它度量不公平会误导。” 接受：他们提出的 STRR（Single Token Retention Rate，单 token 保留率，直接测量各语言中被保留为单个 token 的词的比例） 确实是更精细的词表分配公平性诊断；其分析也印证了本节论点——六个主流 tokenizer 系统性优待英语、强力支持中文、对印地语严重碎片化。边界：但 STRR 是 type-level 诊断、尚未被广泛采用，fertility 仍是实践中可操作、直接对应账单的主流指标，对 PM 是足够好的一阶近似。承认它的局限，不等于放弃它。

[!note] failure scenario / confirmation-bias 砍除 本节早期反复用”中文比英语省 token（DeepSeek 0.65×）“作为正面亮点，这是 bias。 补入反例：Ren et al. 2026 实测中文在多个模型上反而更贵（MiniMax 1.28×），且省 token 不等于省钱（成功率下降抵消节省）。本节”用 fertility 估算成本”的方法在以下场景失效：(a) 模型用了非标准分词（如字符级、Mamba 类无 tokenizer 架构）；(b) 任务质量对 token 碎片化高度敏感时，省 token 反而总成本更高；(c) 跨不同度量口径直接相减时（§2.1 表格各行不可横向比较）。

§6 跨域呼应：从”分词器中立”到技术嵌入的权力结构

这里调度一个 Rick 的不公平优势——STS（科技与社会研究）的”技术从不中立”框架 + 人类学的边缘语言视角。

工程师会把 tokenizer 当成一个中立的预处理步骤：“它只是把文本切片而已。“但 Ahia et al. 的 HDI 负相关数据击穿了这个中立性假设：一个看似纯技术的词表分配，把全球的社会经济不平等编码进了 AI 的基础设施定价。词表不是从语言的客观结构里”发现”出来的，而是从一份高度倾斜的语料里”统计”出来的——而那份语料的倾斜，本身就是殖民史、互联网接入不平等、出版资本分布的沉淀。这正是 0117社会学和人类学训练出的眼光能看到、而纯工程视角看不到的：技术决定论的反面——是社会结构决定了技术的”默认值”，再由技术把这个默认值固化、放大、自然化。

对 Rick 的 fieldwork 迁移尤其直接：在拉美做田野时（参见民族志、拉美知识图），会接触到瓦尤语、马雅语系这类使用者数百万但在数字基础设施里近乎隐形的语言。token 溢价就是这种”数字隐形”的一个精确的、可量化的切面——它把”哪些人的语言值得被高效编码”这个权力判断，变成了一个藏在 API 账单里的小数点。这与 0422 STS 专题的「AI 在中美拉美的 Imaginaries 差异」直接呼应。

[!note] 这个跨域呼应改变了什么判断不调度 STS/人类学框架时，PM 的结论是”等更好的多语言 tokenizer 出现就行”。调度之后，结论变成”别等——决定哪个语言的词表被优化的是市场规模和资本，低资源语言的使用者没有议价权，所以这是一个需要产品方主动承担的设计责任，而非等待技术自然解决的中性问题”。

§7 PM 决策启示

面试怎么用：“你怎么估算一个多语言 AI 产品的推理成本？“——标准答案是按用户量 × token 单价；升一层的答案是”先问目标语言的 fertility 分布，用字符数 × 各语言 fertility 系数加权，因为 token 溢价能让低资源语言成本差出数倍到 20 倍，而这与地区 HDI 负相关”。一句话把你和 90% 候选人区分开。
选型怎么用：把”主力语言 fertility”列为模型选型第三维（前两维：质量、价格）。CJK 密集场景实测 Qwen/DeepSeek 的 token 经济性；别用英语 benchmark 反推 CJK 性价比。
复现怎么用：上线任何多语言功能前，跑一次 fertility 审计——拿 FLORES 平行句对，过一遍你的目标模型 tokenizer，画出各语言 token 溢价表，钉进成本模型和上下文容量规划。这是个一下午能做完、却能挡住整个毛利模型崩盘的动作。

§8 与已有节点的关系

对 c02 - Tokenization 与词表工程：本节点做深化 + 纠偏。c02 在 2.3 节描述了”多语言陷阱”的机制（小语种被拆成字节碎片），本节点不复述其 BPE/词表机制，而是把它升高一层为”语言间不平等的定价分析”——补上 c02 缺的强接地数字（19× 掸语溢价、HDI 负相关、训练成本 4× 放大）和四个 PM 致命错位。c02 说”会发生”，本节点说”具体多大、咬在哪、怎么防”。
对 Tokenization 概念卡：本节点是其”AI PM 隐藏陷阱第 4 条（多语言成本核算）“的完整展开，回填了概念卡里点到未展开的葡语/西语/低资源语言实际数据。
对成本侧（0413 成本工程专题）：本节点提供”成本的语言维度”这一被 m209 - 推理成本控制手册之类通用成本节点忽略的切面——通用成本手册按总 token 量优化，本节点指出 token 量本身是语言相关的隐变量。
与本专题内：上承 A04 翻译≠本地化（语义层不公）、与 NLU/NLG 不对称节点（生成质量的语言差距）互补，共同构成”多语言 LLM 三重不公：分词层（本节）、语义层、能力层”。

§9 关联节点

核心（必读）

延伸（可选）

幻觉（Quality 准则违反与质量不公的关联）
民族志
拉美知识图
CPF实名验证
PAX-Premium实名徽章
Claude · Gemini · ChatGPT（各家 tokenizer 词表大小对照）

§10 修订日志

R0（2026-06-07）：首稿。建立「token 溢价 = 成本/质量隐性税」判断主轴；落地强接地数据表（Petrov NeurIPS 2023、Ahia EMNLP 2023、Lundin 2025、Churchill & Skiena 2025、Ren 2026）；四个 PM 致命错位四件套；STS + 人类学跨域呼应；c02/Tokenization/m209 升级对照；接入 Rick 巴西/拉美多语言 fieldwork 资产。已 WebSearch 核实 arXiv:2604.14210（Ren 2026，SWE-bench Lite）与 arXiv:2510.09947（Nayeem 2025，NeurIPS 2025 Workshop，STRR=Single Token Retention Rate），两处〔待核实〕已去除。
2026-06-11 P3.1 接地修复：WebFetch 核实 arXiv:2601.13328 正文 Table 2，确证数据表中掸语 19.09×（GPT-2/3）、孟加拉语 8.43×（Claude 2.1）、亚美尼亚语 10.02×、印地语 7.51× 精确值真实，保留；据论文提交日 2026-01-19 将四行表内引用标签由”Churchill & Skiena 2025”改为”2026”。来源：https://arxiv.org/abs/2601.13328 ，https://arxiv.org/html/2601.13328v1 。
2026-06-11 P3.4 校链：0413 成本工程专题、0422 STS 专题现均已入库，删除相关 staging 注解并恢复真链——§7 fieldwork 段「0422 STS…（待该专题入库后建立双链）」改为 0422 STS 专题、§8 成本侧对照「（待入库）」改为 0413 成本工程专题。
2026-06-12 内审修复：去掉 arXiv:2604.14210 库内自创的”Mythbuster:“前缀，补回真实副标题”Chinese Language Is Not More Efficient Than English in Vibe Coding: A Preliminary Study on Token Cost and Problem-Solving Rate”（来源：Rick 内审权威值）；修复 §7/§8 三处跨专题死链——0413 总览/0422 总览 实际不存在，改为真实 basename [_成本工程系统化专题·总览](/kb/专题-工程与成本/_成本工程系统化专题-总览/)/[_STS 系统化专题·总览](/kb/专题-人文社科透镜/_sts-系统化专题-总览/)（保留显示别名）。