R

A03 多语言 Tokenization 效率差异

创建 2026-06-07 更新 2026-06-12 1 条双链 计算语言学 专题 AI 整理

同一句话,用英语写要 10 个 token,用中文写要 19 个,用掸语写要 190 个——而你的 API 账单、上下文窗口、推理延迟,统统按 token 计价。本节要解决的问题是:为什么”语言公平”在 LLM 产品里从来不是一个伦理选项,而是一个被 tokenizer 在你看不见的地方提前替你做掉的工程决定。视角是「成本/质量的隐性税」框架——多语言产品的单位经济学和输出质量,被分词器的词表分配悄悄定价,而绝大多数 PM 在做选型、报价、上下文规划时,根本没把这一层算进去。

[!note] 判断主轴 多语言产品的成本与质量,被 tokenizer 隐性决定。 这不是”小语种支持得好不好”的产品功能问题,而是”同样的信息,非英语用户先天多付钱、少容量、低质量”的结构性不公——它发生在你的提示词进入模型之前,发生在产品经理的视野之外。

§0 为什么是「token 溢价」框架,而不是「翻译质量」框架

PM 谈多语言产品,默认框架几乎都是”翻译/本地化质量好不好”——这是 c02 - Tokenization 与词表工程 没有展开、而本专题 A04 翻译≠本地化 专门处理的维度。但”翻译质量”框架会让你彻底看不见本节要讲的问题,因为它假设语言之间的差异在”语义层”。

真正的不公在更底层、更机械的地方:分词层。在文本变成向量、变成”理解”之前,它先被切成 token。而切法是用一张以英语为绝对主力的语料统计出来的词表(vocabulary)。结果是同义内容在不同语言里的 token 数差异巨大——这个比值就是 token 溢价(token premium),以英语为基准 1.0×。

为什么必须用这个框架而不是翻译框架?因为 token 溢价同时驱动四条 PM 直接负责的指标,而翻译质量一条都管不到:

被 token 溢价驱动的指标翻译质量框架能解释吗
API 计费(按 token 计价)不能
上下文窗口有效容量(同样 128k,装的信息量不同)不能
推理延迟 / 吞吐(token 越多越慢)不能
输出质量(碎片化 token 损伤模型表现)部分相关,但归因错位

换句话说:你可以买到完美的翻译 API,仍然在为巴西用户、为掸语用户、为乌克兰用户系统性多付 1.3–19 倍的钱。翻译框架让你优化了语义,却对单位经济学的失血一无所知。这就是为什么本节点要从 c02 - Tokenization 与词表工程 的”机制描述”升高一层,做成”语言间不平等的定价分析”。

§1 溢价从哪来:词表是英语母语者写的

token 溢价的根因,不在语言”难”,而在词表”偏”。

主流 LLM 用 BPE / Byte-level BPE(BBPE)分词。词表通过在语料上反复合并高频字节对(merge)建成。问题是训练语料以英语为压倒性主力——据 Li et al.(AAAI 2025,arXiv:2404.11553)核实,GPT-3 训练 token 中约 92.65% 为英语,LLaMA 2 预训练数据中英语约占 89.70%。后果:

  • 英语:常见整词(“information”、“infrastructure”)在训练中高频出现,被合并成单个 token,1 token 可代表 4–5 个字符;
  • CJK:汉字在英语主导语料中低频、且无空格边界可供合并,往往退化到近乎 1 字符 = 1 token,甚至 1 汉字被拆成 2–3 个 UTF-8 字节级 token;
  • 低资源语言(掸语、阿姆哈拉语、泰卢固语):几乎没有进入词表的合并机会,被彻底打成字节级碎片。

这一点至关重要,因为它推翻了一个直觉错误:“CJK 多 token 是因为中文信息密度高/方块字复杂”。Arnett, Chang, Biderman & Bergen(NeurIPS 2025,arXiv:2510.21909)用约 7000 个单语 tokenizer 跨 97 种语言证明:跨语言不平等的主因是词表大小和预分词(pre-tokenization)策略,而非语言本身的内在属性——扩充该语言的词表分配,溢价就能大幅消除。Qwen、DeepSeek 已经用工程实践证明了这一点(见 §2)。

§2 强接地数据:溢价到底有多大

这是本节的硬资产。以下数字均来自已发表论文,基于平行语料(FLORES-200 或类似基准),控制了语义等价性。不同研究用的指标略有差异——主流是 fertility(每词 token 数),少数用片段长度比,下文标注来源时一并保留其口径。

2.1 语言级 token 溢价(vs 英语)

语言tokenizer溢价来源
葡萄牙语(巴西 99 业务相关)GPT-4~1.5×Petrov et al., NeurIPS 2023
泰卢固语 / 阿姆哈拉语GPT-3.5 (BBPE)~4–5×Ahia et al., EMNLP 2023
乌克兰语GPT-4~3×Petrov et al., NeurIPS 2023
印地语GPT-2/37.51×Churchill & Skiena 2026
孟加拉语Claude 2.18.43×Churchill & Skiena 2026
亚美尼亚语OLMo 210.02×Churchill & Skiena 2026
掸语(Shan)GPT-2/319.09×Churchill & Skiena 2026
跨语言最大差异17 种 tokenizer最高 15×Petrov et al., NeurIPS 2023

[!warning] 数据口径说明 上述为不同研究、不同模型、不同度量(fertility vs 片段长度比)下的数字,不能直接横向相减,只能各自在其来源口径内成立。共识是:非英语语言存在系统性 token 溢价,且越是低资源语言溢价越高,最高接近 20×。

2.2 CJK:一个被工程改写的案例

中文是观察”溢价可被词表设计逆转”的最佳样本。同一句”人工智能正在重塑全球的信息基础设施”(16 个汉字),实测(来源:TechFlow 2026 行业实测,arXiv 同行数据交叉):

  • GPT-4 tokenizer:约 19 token
  • Qwen tokenizer(词表 151,936):约 6 token
  • 差距:约 3.2×

更激进的是 DeepSeek-V3:在某些中文文本类型上,其 token 成本可低至英语的 0.65×——也就是中文比英语 35%。这正是 §1 论点的实证:溢价是词表分配问题,不是语言宿命。当一家中国团队把汉字、常见词组充分纳入词表,中文就从”被惩罚的语言”变成”被优待的语言”。

但别急着下”中文更省 token”的结论——这恰恰是需要砍掉的 confirmation bias(见对手框架回应)。

2.3 成本与质量的双重失血(已核实)

计费层面(来源:Lundin et al. 2025,“The Token Tax”,arXiv:2509.05486):

  • GPT-4o API 英语标价约 $5–20 / 百万 token;2× fertility 语言的等效内容实际成本翻倍至 $10–40 / 百万 token。
  • 训练侧放大更狠:token 数翻倍,因 Attention 的 O(n²) 缩放,训练成本约翻 4 倍。论文据此估算:训练一个 405B 级模型,英语约 $1.05 亿,2× fertility 语言达约 $4.20 亿。

质量层面(同源):

  • 16 种非洲语言上,每多 1 token/词,准确率下降 8–18 个百分点;非洲语言整体落后英语约 25 个准确率点

容量层面:溢价直接吃掉有效上下文。同样 128k 窗口,用高溢价语言撰写的文档,实际能塞进去的”信息量”显著缩水——这对 RAG、长文档处理是隐形的容量税。

§3 判断主轴:90% 的多语言 PM 会在这四个点搞错

[!danger] 致命耦合点 这一节是本节点的命门。token 溢价不是一个”知道了”的冷知识,它会在四个具体决策处咬人。

错位一:用英语 token 预算估算多语言成本

  • 症状:产品在英语下跑通,预算按英语 token 量 × 单价拍板;上线巴西/中东后账单暴涨,毛利模型崩掉。
  • 为什么会错:PM 默认”token 数和字符数线性相关”,忽略了 fertility 是语言相关的常数。
  • 正确做法:成本模型按语言加权。葡语 ×1.5、阿拉伯语/印地语按各自 fertility 上浮、低资源语言单独建档。用字符数而非 token 数做跨语言预算锚点,再乘各语言 fertility 系数。
  • 真实反例:Ahia et al.(EMNLP 2023,arXiv 见 §来源)实测 ChatGPT/BLOOMZ 的真实计费,发现高溢价语言与该地区 HDI(人类发展指数)呈负相关(相关系数约 -0.41 至 -0.60)——越穷的地区,语言越贵,用 AI 越贵。一个按英语预算定价的全球产品,等于让最付不起钱的用户付最多。

错位二:以为换个语言写 prompt 能省钱(“中文 prompt 省 40%“神话)

  • 症状:工程团队/社媒流传”用中文写 prompt 比英语省 token”,团队照做,结果成本没降、任务成功率还掉了。
  • 为什么会错:把”某个 tokenizer 上某类文本的局部优势”误当成”语言本身的普遍属性”。
  • 正确做法:实测你用的那个模型、那类任务、那种文本。溢价是 (tokenizer × 文本类型) 的联合函数,不是语言的标量属性。
  • 真实反例:Ren et al.(2026,“Chinese Language Is Not More Efficient Than English in Vibe Coding: A Preliminary Study on Token Cost and Problem-Solving Rate”,arXiv:2604.14210,基于 SWE-bench Lite)实测:MiniMax-2.7 上中文反而贵 1.28×,GLM-5 上中文确实消耗更少 token——证明语言效应是模型相关的、不可一概而论;且关键发现是用中文 prompt 在所有测试模型上任务成功率普遍低于英语,省 token 的算盘被成功率下降抵消。

错位三:用 token 数当 RAG 的 chunk 边界

  • 症状:RAG 切块按”每块 N token”,在英语语料调好的 chunk 大小,搬到中文/阿拉伯语后,每块装的”语义内容”骤减,检索召回质量下降。
  • 为什么会错:token 在高溢价语言里更碎,固定 token 预算 = 浮动的语义容量。
  • 正确做法:高溢价语言下,chunk 边界用字符数或句子边界,而非 token 数;或按语言调整 chunk 的 token 预算。
  • 真实反例:呼应 c02 - Tokenization 与词表工程 2.3 节”小语种被拆成字节级碎片”——拉美土著语言(瓦尤语、马雅语系)在主流 tokenizer 下几乎全是字节级碎片,固定 token chunk 在这些语言上等于把一个完整词拆进两块。

错位四:把模型选型只当质量/价格二维问题

  • 症状:CJK 密集场景仍默认选 GPT/Claude,因为”英语 benchmark 高”,却没算上 CJK 的 token 经济性。
  • 为什么会错:忽略了 tokenizer 是模型的一部分,而它对你的主力语言可能有结构性优劣。
  • 正确做法:把”目标语言 fertility”列为选型第三维。CJK 密集场景下,Qwen/DeepSeek 的大词表带来结构性 token 成本优势,需在质量、价格、token 经济性三维综合权衡。
  • 真实反例:Qwen 在中文上省 token,但在乌克兰语上 fertility 高达约 2.89(Maksymenko & Turuta 2025,Frontiers in AI)——它是区域优化,不是全语言公平。没有一个 tokenizer 在所有语言上都公平;优化永远是局部的、此消彼长的。

§4 产品 PM 视角补盲:工程之外的三个看走眼点

工程视角到”成本/质量”为止,但 token 溢价还有三个 PM 必须看见的非工程切面:

  1. 定价公平 → 合规与品牌风险:Ahia et al. 已把 tokenizer 溢价与社会经济不平等显式挂钩。当”AI 普惠”成为监管叙事,“按 token 统一定价 = 让弱势语言群体多付费”可能成为披露/反歧视的监管靶子。这对在全球南方(拉美、非洲、南亚)运营的产品尤其敏感——这正是 Rick 在 CPF实名验证、PAX-Premium实名徽章 等 99 巴西项目里会直接撞上的政策面。

  2. 用户心理:感知不到的二等公民:非英语用户不会知道自己的每条消息更贵、更慢、上下文更挤。这是一种”看不见的产品体验差距”——用同样的钱,巴西用户得到的有效上下文容量比美国用户小。PM 若不主动度量,永远不会出现在任何 dashboard 上。

  3. GTM 单位经济学:进入一个高溢价语言市场,CAC/LTV 模型里的可变推理成本要按该语言 fertility 重算。一个在英语市场跑通的 freemium 额度(“免费 100 条消息”),换算到掸语/阿姆哈拉语可能直接亏穿——同样 100 条消息,token 成本是英语的数倍。

§5 对手框架回应(接受 + 边界)

对手立场一:Arnett et al. / Churchill & Skiena——“这纯粹是词表分配问题,扩词表即可解决,不必上升到’语言不公’。” 接受:他们对的——溢价确实主要由词表与预分词决定,非语言宿命;Qwen/DeepSeek 已证明 CJK 溢价可工程消除。边界:但”可解决”不等于”已解决”。对掸语、瓦尤语这类没有商业团队为其建大词表的低资源语言,溢价在可预见的未来依然存在;而决定谁的词表被扩充的,是市场规模和资本,不是技术——这恰恰把工程问题还原成了权力问题。

对手立场二(Rick 未读对手框架引入 #1):CJK 逻辑文字派——“无空格边界 + 表意文字系统天然增加分词难度,大词表只是缓解,不同书写系统需要不同分词哲学(字节 vs 字 vs 词粒度)。” 接受:CJK 缺乏显式词边界确实给”哪里算一个 token”带来了与字母语言不同的难题,Qwen 152k 与 GPT-4o 200k 词表在 CJK 上的效果差异至今有争议。边界:但这不改变 §2.2 的实证——同一句话 GPT-4 用 19 token、Qwen 用 6 token,说明现有差距的大头仍是分配问题而非书写系统的物理下限。书写系统设了一个地板,但当前主流模型离那个地板还远着。

对手立场三(Rick 未读对手框架引入 #2):fertility 怀疑派(Nayeem et al. 2025,“Beyond Fertility: Analyzing STRR as a Metric for Multilingual Tokenization Evaluation”,NeurIPS 2025 Workshop,arXiv:2510.09947)——“fertility 这个指标本身有缺陷,它捕捉压缩效率却掩盖了词表在语言间的分配方式,用它度量不公平会误导。” 接受:他们提出的 STRR(Single Token Retention Rate,单 token 保留率,直接测量各语言中被保留为单个 token 的词的比例) 确实是更精细的词表分配公平性诊断;其分析也印证了本节论点——六个主流 tokenizer 系统性优待英语、强力支持中文、对印地语严重碎片化。边界:但 STRR 是 type-level 诊断、尚未被广泛采用,fertility 仍是实践中可操作、直接对应账单的主流指标,对 PM 是足够好的一阶近似。承认它的局限,不等于放弃它。

[!note] failure scenario / confirmation-bias 砍除 本节早期反复用”中文比英语省 token(DeepSeek 0.65×)“作为正面亮点,这是 bias。 补入反例:Ren et al. 2026 实测中文在多个模型上反而更贵(MiniMax 1.28×),且省 token 不等于省钱(成功率下降抵消节省)。本节”用 fertility 估算成本”的方法在以下场景失效:(a) 模型用了非标准分词(如字符级、Mamba 类无 tokenizer 架构);(b) 任务质量对 token 碎片化高度敏感时,省 token 反而总成本更高;(c) 跨不同度量口径直接相减时(§2.1 表格各行不可横向比较)。

§6 跨域呼应:从”分词器中立”到技术嵌入的权力结构

这里调度一个 Rick 的不公平优势——STS(科技与社会研究)的”技术从不中立”框架 + 人类学的边缘语言视角

工程师会把 tokenizer 当成一个中立的预处理步骤:“它只是把文本切片而已。“但 Ahia et al. 的 HDI 负相关数据击穿了这个中立性假设:一个看似纯技术的词表分配,把全球的社会经济不平等编码进了 AI 的基础设施定价。词表不是从语言的客观结构里”发现”出来的,而是从一份高度倾斜的语料里”统计”出来的——而那份语料的倾斜,本身就是殖民史、互联网接入不平等、出版资本分布的沉淀。这正是 0117社会学 和 人类学 训练出的眼光能看到、而纯工程视角看不到的:技术决定论的反面——是社会结构决定了技术的”默认值”,再由技术把这个默认值固化、放大、自然化。

对 Rick 的 fieldwork 迁移尤其直接:在拉美做田野时(参见 民族志、拉美知识图),会接触到瓦尤语、马雅语系这类使用者数百万但在数字基础设施里近乎隐形的语言。token 溢价就是这种”数字隐形”的一个精确的、可量化的切面——它把”哪些人的语言值得被高效编码”这个权力判断,变成了一个藏在 API 账单里的小数点。这与 0422 STS 专题的「AI 在中美拉美的 Imaginaries 差异」直接呼应。

[!note] 这个跨域呼应改变了什么判断 不调度 STS/人类学框架时,PM 的结论是”等更好的多语言 tokenizer 出现就行”。调度之后,结论变成”别等——决定哪个语言的词表被优化的是市场规模和资本,低资源语言的使用者没有议价权,所以这是一个需要产品方主动承担的设计责任,而非等待技术自然解决的中性问题”。

§7 PM 决策启示

  • 面试怎么用:“你怎么估算一个多语言 AI 产品的推理成本?“——标准答案是按用户量 × token 单价;升一层的答案是”先问目标语言的 fertility 分布,用字符数 × 各语言 fertility 系数加权,因为 token 溢价能让低资源语言成本差出数倍到 20 倍,而这与地区 HDI 负相关”。一句话把你和 90% 候选人区分开。
  • 选型怎么用:把”主力语言 fertility”列为模型选型第三维(前两维:质量、价格)。CJK 密集场景实测 Qwen/DeepSeek 的 token 经济性;别用英语 benchmark 反推 CJK 性价比。
  • 复现怎么用:上线任何多语言功能前,跑一次 fertility 审计——拿 FLORES 平行句对,过一遍你的目标模型 tokenizer,画出各语言 token 溢价表,钉进成本模型和上下文容量规划。这是个一下午能做完、却能挡住整个毛利模型崩盘的动作。

§8 与已有节点的关系

  • c02 - Tokenization 与词表工程:本节点做深化 + 纠偏。c02 在 2.3 节描述了”多语言陷阱”的机制(小语种被拆成字节碎片),本节点不复述其 BPE/词表机制,而是把它升高一层为”语言间不平等的定价分析”——补上 c02 缺的强接地数字(19× 掸语溢价、HDI 负相关、训练成本 4× 放大)和四个 PM 致命错位。c02 说”会发生”,本节点说”具体多大、咬在哪、怎么防”。
  • Tokenization 概念卡:本节点是其”AI PM 隐藏陷阱第 4 条(多语言成本核算)“的完整展开,回填了概念卡里点到未展开的葡语/西语/低资源语言实际数据。
  • 对成本侧(0413 成本工程专题):本节点提供”成本的语言维度”这一被 m209 - 推理成本控制手册 之类通用成本节点忽略的切面——通用成本手册按总 token 量优化,本节点指出 token 量本身是语言相关的隐变量。
  • 与本专题内:上承 A04 翻译≠本地化(语义层不公)、与 NLU/NLG 不对称节点(生成质量的语言差距)互补,共同构成”多语言 LLM 三重不公:分词层(本节)、语义层、能力层”。

§9 关联节点

核心(必读)

延伸(可选)

  • 幻觉(Quality 准则违反与质量不公的关联)
  • 民族志
  • 拉美知识图
  • CPF实名验证
  • PAX-Premium实名徽章
  • Claude · Gemini · ChatGPT(各家 tokenizer 词表大小对照)

§10 修订日志

  • R0(2026-06-07):首稿。建立「token 溢价 = 成本/质量隐性税」判断主轴;落地强接地数据表(Petrov NeurIPS 2023、Ahia EMNLP 2023、Lundin 2025、Churchill & Skiena 2025、Ren 2026);四个 PM 致命错位四件套;STS + 人类学跨域呼应;c02/Tokenization/m209 升级对照;接入 Rick 巴西/拉美多语言 fieldwork 资产。已 WebSearch 核实 arXiv:2604.14210(Ren 2026,SWE-bench Lite)与 arXiv:2510.09947(Nayeem 2025,NeurIPS 2025 Workshop,STRR=Single Token Retention Rate),两处〔待核实〕已去除。
  • 2026-06-11 P3.1 接地修复:WebFetch 核实 arXiv:2601.13328 正文 Table 2,确证数据表中掸语 19.09×(GPT-2/3)、孟加拉语 8.43×(Claude 2.1)、亚美尼亚语 10.02×、印地语 7.51× 精确值真实,保留;据论文提交日 2026-01-19 将四行表内引用标签由”Churchill & Skiena 2025”改为”2026”。来源:https://arxiv.org/abs/2601.13328https://arxiv.org/html/2601.13328v1
  • 2026-06-11 P3.4 校链:0413 成本工程专题、0422 STS 专题现均已入库,删除相关 staging 注解并恢复真链——§7 fieldwork 段「0422 STS…(待该专题入库后建立双链)」改为 0422 STS 专题、§8 成本侧对照「(待入库)」改为 0413 成本工程专题
  • 2026-06-12 内审修复:去掉 arXiv:2604.14210 库内自创的”Mythbuster:“前缀,补回真实副标题”Chinese Language Is Not More Efficient Than English in Vibe Coding: A Preliminary Study on Token Cost and Problem-Solving Rate”(来源:Rick 内审权威值);修复 §7/§8 三处跨专题死链——0413 总览/0422 总览 实际不存在,改为真实 basename [_成本工程系统化专题·总览](/kb/专题-工程与成本/_成本工程系统化专题-总览/)/[_STS 系统化专题·总览](/kb/专题-人文社科透镜/_sts-系统化专题-总览/)(保留显示别名)。