A06 语言相对性与 LLM 跨语言偏差

当一个巴西用户用葡语问你的 AI 产品”这单为什么被取消”，他拿到的回答，本质上是一段被英语认知翻译过来的判断——模型先在内部用接近英语的表示算出答案，再吐成葡语。这一节要解决的问题是：语言相对性（linguistic relativity）这个一百年前的语言学争论，如何精确地预言了今天多语言 LLM 的核心病理，以及一个做国际化产品的 PM 该如何把”模型的世界观是英语语料的”这件事，从一个哲学命题，翻译成成本、质量、合规三张可操作的表。视角框架：Sapir-Whorf 弱版（语言影响认知）＋多语言 LLM 内部表示研究的交叉读法。

[!warning] 本节的反共识立场业界默认”多语言模型 = 中立的多语言翻译器”。本节坚持一个更尖锐的判断：多语言 LLM 不是中立的，它有一个以英语为中轴的”认知母语”。非英语用户得到的不是”本族语的智能”，而是”英语智能的译制片”——而且这个译制过程在颜色、空间、时间、道德这些被语言学证明会受语言影响的维度上，会系统性地丢失或扭曲信息。这不是 bug，是当前架构的结构性特征。

§0 为什么是”语言相对性”这个框架，而不是”训练数据不均衡”

读到”非英语 LLM 更差”，大多数工程师脑中会立刻跳出一个默认框架：数据量问题——英语语料多，所以英语好；多喂点低资源语言数据就能补齐。这个框架对，但不够深，且会误导产品决策。

数据量框架预测的是”量变可解”：加数据 → 差距收敛。但语言相对性框架预测的是一件更麻烦的事：即使数据量补齐，语言结构本身嵌入的认知偏好也会被模型内化。Wang et al.（2025，arXiv:2506.16151，“Under the Shadow of Babel”）的因果推理实验给了这个判断硬证据：LLM 的注意力模式呈现语言类型学对齐——处理中文输入时更关注句首的因果连词（符合中文的语序习惯），处理英语时注意力更均衡；当语言特有的因果词序偏好被刚性应用到非典型输入上时，性能反而下降。这说明模型学到的不只是”英语词更多”，而是”英语世界看待因果关系的方式”。

所以本节采用语言相对性 × LLM 内部表示的双框架，而不是单一的数据量框架。前者解释”为什么差”是认知层面的、可能不随数据量线性收敛；后者（logit lens、activation steering）给出可观测的内部证据。两个框架合起来，才能让 PM 区分”哪些差距能靠加数据解决”（量）和”哪些是结构性的、要靠架构或产品设计绕过”（质）。这是本节相对于 c02 - Tokenization 与词表工程升高的抽象层：c02 讲的是”切词层”的语言不平等（一个机械的、可量化的成本问题），本节讲的是”认知层”的语言不平等（一个语义的、可能不可量化的世界观问题）。

§1 Sapir-Whorf：被否定的强版，与被证实的弱版

语言相对性假说在公众认知里几乎全是误读。必须先做版本辨析，否则后面所有论证都站不住。

版本	命题	当代地位
强版（语言决定论）	语言严格限定思维；不同语言者无法共享同一概念	已被学界否定（确证）
弱版（语言相对论）	语言影响（非决定）认知，形成习惯性倾向	有正向实证支持（确证）

谱系上要纠正一个流行错误：Edward Sapir 本人明确反对强决定论；把它推向极端的是 Benjamin Lee Whorf（1940 年代，霍皮语研究），而 Whorf 的原始主张至今有争议——Malotki（1980 年代）曾驳斥其”霍皮语无时态”论，但相对论学者认为 Malotki 误读了 Whorf 的真实立场（争议点 A，未解决）。真正把假说操作化为可检验命题的是 Brown & Lenneberg（1954），系统实证则始于 Levinson 与 Lucy（Max Planck Institute，1996 年起）。

弱版有多硬的证据？三个被反复复制的支柱：

颜色感知：Winawer et al.（2007，PNAS）——俄语区分深蓝 sinij 与浅蓝 goluboy，英语只有 blue；俄语母语者在跨类别颜色辨别任务上反应更快。关键控制：加入语言干扰任务后这一优势消失，加入空间干扰任务则保留——证明语言是通过在线实时认知处理起作用，不是静态标签。Thierry et al.（系列研究，综述见 2016 Language Learning）用 EEG 进一步证明希腊语母语者的颜色辨别差异出现在前注意（preattentive）早期感知阶段。
空间认知：Levinson（1997，Journal of Linguistic Anthropology 7:1）——澳洲原住民语 Guugu Yimithirr 只用绝对方位（东南西北），无”左/右/前/后”；其母语者以绝对框架编码非语言记忆，荷兰母语者用相对框架。语言习惯渗入了非语言的空间记忆。
时间概念：Boroditsky（2001）声称中文母语者因垂直时间隐喻多而对垂直排列反应更快——但 January & Kako（2007，Cognition）报告六次复制失败（争议点 B），语法性别感知实验（Boroditsky 2003）也被独立实验室复制失败（争议点 C）。

[!note] 边界：弱版也不是铁板一块必须诚实标注：语言相对性的证据强弱分布极不均匀。颜色、空间域证据扎实；时间、语法性别、“无将来时语言储蓄率更高”（Chen 2013，争议点 D）这些是复制争议或有强力替代解释的。本节后面用 Sapir-Whorf 类比 LLM 时，赌的是弱版中证据最硬的部分（语言影响认知处理的”在线”机制），而不是被复制失败拖累的部分。这是本节的一个赌注：如果未来更多颜色/空间研究也被推翻，本节的类比力度要相应下调。

§2 从人脑到模型：LLM 是否”用英语思考”

这是本节的核心迁移。如果说人类大脑里语言影响认知是”弱版、有边界”的，那么在 LLM 里，这件事的证据反而更直接、更强——因为我们能打开模型看内部表示，这是神经科学对人脑做不到的。

Schut, Gal & Farquhar（2025，arXiv:2502.15603，“Do Multilingual LLMs Think in English?”） 用 logit lens（逐层解码内部表示）和 activation steering 测试法、德、荷、中四种语言，发现：多语言 LLM 在处理语义实词时，先生成接近英语的内部表示，再翻译到目标语言；而且用英语做 activation steering（向量干预）比用输入语言本身更有效。换句话说：英语是模型的”内部工作语言”，目标语言是输出层的译制。这正是 §0 开头那个巴西用户场景的机制证据——他拿到的葡语回答，确实是一段”英语认知的译制片”。

这件事的认知后果，与 Sapir-Whorf 弱版结构同构：

维度	人类（Sapir-Whorf 弱版）	多语言 LLM
机制	母语习惯影响在线认知处理	英语内部表示影响所有语言的推理（Schut 2025）
证据层	行为实验 + EEG（间接）	logit lens + steering（直接可观测）
道德判断	文化语境塑造道德直觉	模型倾向施加英语主导的道德规范（Aksoy 2024）
因果推理	语序习惯影响因果编码	注意力呈语言类型学对齐（Wang 2025）

道德维度的证据尤其值得 PM 警惕。Ramezani & Xu（2023，arXiv:2402.02135）测多语言道德推理，能力排序为：英语 > 西班牙语 > 俄语 > 中文 > 印地语 > 斯瓦希里语（GPT-4 跨语言差距最小但仍存在）。Aksoy（2024，arXiv:2412.18863）用更新版道德基础问卷（MFQ-2）测八种语言，发现多语言 LLM 倾向施加英语主导的道德规范，而非反映各文化的真实价值观。Liang & Mahmoud（2025，arXiv:2512.16029）用 BBQ 基准发现阿拉伯语、西班牙语呈现更高的刻板印象偏差，且各语言的”显性偏差最低、内隐偏差最高”——标准基准存在评估盲区。

§3 判断主轴：做国际化产品时，90% 的人在这五处会搞错

这是本节的命门。每条带”症状 → 为什么会错 → 正确做法 → 真实反例”四件套。

错位一：把”支持 N 种语言”当成”在 N 种语言上一样聪明”。

症状：产品 spec 写”模型支持 100+ 语言”，PM 据此假设各语言体验等价，不做分语言 QA。
为什么会错：能输出 ≠ 能推理。GPT-3 训练 token 约 92.65% 为英语（Li et al. 2024，arXiv:2404.11553，AAAI 2025），LLaMA 2 约 89.70%；性能与该语言在预训练语料中的占比强相关。“支持”只是输出层能生成合法字符串，推理质量是另一回事。
正确做法：把语言当成独立的质量维度，对每个上线语言跑独立 benchmark；用 Language Ranker（Li et al.）类指标量化”这门语言离英语有多远”。
真实反例：印度次大陆低资源语言 zero-shot 准确率常低于 23.6%（确证，Indic benchmark 综述）；非洲语言整体落后英语约 25 个准确率点（Lundin et al. 2025）。“支持”但准确率 23.6%，等于不支持。

错位二：以为”加数据”能解决一切语言差距。

症状：把所有跨语言差距归因于数据量，规划”多采集低资源语言语料”作为唯一解。
为什么会错：数据量解决”量”的差距，但 Wang et al.（2025）证明语言结构嵌入的推理偏好会被内化——这是”质”的差距，未必随数据量线性收敛。
正确做法：区分两类差距。能力差距（知识、流利度）可靠数据补；认知偏置（因果语序、道德框架）要靠架构（如多语言对齐微调）或产品设计绕过。Chua et al.（2024/2025，arXiv:2406.16135）发现在混合语言数据上微调能有效缩小深层知识迁移差距，即使用 WikiText 这类域外数据也有效——说明解法不只是”更多目标语言数据”。
真实反例：Dhaliwal et al.（2026，arXiv:2604.13286，220 组实验）发现加入单一非英语语言即可改善英语性能和跨语言泛化，纯英语后训练”总体次优”——证明机制不是简单的”哪门语言数据多哪门强”。

错位三：把”翻译”当成”本地化”。

症状：产品文案、客服话术先写英语，再机翻成各语言上线，认为这就是国际化。
为什么会错：语言相对性意味着不同语言的用户在颜色、空间、时间、道德框架上的认知默认值不同。机翻搬运的是词，不是认知框架。模型的道德判断本身就带英语偏置（Aksoy 2024），叠加机翻，等于”英语道德观 × 机翻损耗”双重失真。
正确做法：本地化是认知框架的适配，不是字符串替换。安全/合规/道德相关的输出，必须由目标语言/文化的人审，不能信任模型的跨语言一致性。
真实反例：详见 A04 翻译≠本地化（本专题同级节点）；Rick 在 99（巴西）的纠纷治理实践中，“裁判 vs 管家”的话术框架（纠纷治理从裁判到管家）在中文语境和巴西葡语语境下的用户接受度差异，正是认知框架而非翻译问题。

错位四：忽视低资源语言的安全对齐更脆弱。

症状：安全测试只在英语做，假设对齐机制对所有语言一致生效。
为什么会错：低资源语言的安全防护系统性更弱。把英语有害输入翻译成低资源语言即可绕过 GPT-4 护栏，AdvBench 上攻击成功率约 79%（来源：Yong, Menghini & Bach, “Low-Resource Languages Jailbreak GPT-4,” arXiv:2310.02446，已核实 2026-06-12）——攻击者只要切换到低资源语言就能越狱；防御侧补强仅需极少数据（Chen et al., “Unlocking LLM Safeguards for Low-Resource Languages,” arXiv:2510.10677, 2025，已核实 2026-06-12）。
正确做法：把多语言红队（red-teaming）作为合规硬约束，尤其覆盖产品实际投放的低资源语言市场。
真实反例：这是国际化产品的真实合规风险——一个在英语下安全的产品，在斯瓦希里语下可能完全裸奔。

错位五：成本估算用英语 token 基准。

症状：用英语 token 数估 API 成本和上下文窗口，直接套用到所有语言。
为什么会错：tokenization 不公平——同一文本翻成不同语言，token 长度差异最高 15 倍（Petrov et al. 2023，NeurIPS，arXiv:2305.15425）。这是切词层的成本爆炸，详见 c02 - Tokenization 与词表工程与 m209 - 推理成本控制手册。
正确做法：成本估算必须语言敏感；上下文窗口规划用字符数而非 token 数做 chunk 边界。
真实反例：见本专题成本相关节点；本节不复述 c02 的 tokenization 数字基础。

§4 产品 PM 视角补盲：工程视角看不到的三个洞察

跳出”模型能力”视角，补三个用户心理 / 商业 / 合规的看走眼点：

用户感知不到”译制”，但会感知到”不对劲”。 非英语用户拿到的回答语法流利、词汇正确，所以投诉不会是”翻译错了”，而是模糊的”这个 AI 不懂我们这边的情况”。这是最危险的失败模式——它不报错，只是悄悄地不本地。PM 要主动测的不是”翻译准不准”，而是”道德/常识/文化默认值对不对”。
“英语中轴”是一种隐性的认知殖民，有品牌与合规风险。 当你的产品在拉美市场系统性地输出英语主导的道德规范（Aksoy 2024），这不只是质量问题，在某些市场是文化敏感性 / 监管风险。Ahia et al.（2023，EMNLP，“Do All Languages Cost the Same?”）已把 tokenizer 溢价与社会经济不平等（HDI 负相关）挂钩——未来可能面临要求披露或均等化定价的监管压力。这与 0117社会学、人类学的”技术嵌入社会语境”框架直接相关。
逆向机会：贴近本地认知框架是差异化壁垒。 如果通用模型的世界观是英语的，那么一个真正做了本地认知适配的产品（不是机翻，而是道德框架、常识默认值、客服话术的本地重写）在非英语市场就有结构性优势。对 Rick 这样有拉美 fieldwork 的 PM，这是把人类学田野洞察（民族志）转成产品壁垒的切口。

§5 对手框架回应：接受 + 边界

对手一：纯数据量派（“差距全是数据，加数据即可”）。 接受：数据量确实是主因，预训练语料比例与性能强相关（Li et al. 2024）确凿无疑；很多差距确实随数据增加而收敛。边界：但本节坚持，结构性认知偏置（因果语序、道德框架）不保证随数据量线性消失——Wang et al.（2025）的注意力类型学对齐证据是反例。PM 决策不能等”数据补齐”这个可能永远到不了的终点，必须现在就做分语言 QA 和本地化设计。

对手二：涌现乐观派（“模型够大就会自发学会跨语言对齐”）。 接受：GPT-4 的跨语言差距确实比小模型小（Ramezani & Xu 2023），规模带来收敛。边界：但 Chua et al.（2024/2025）证明深层知识迁移（MMLU、TOFU 等）在大模型上依然薄弱，推理时的简单修复（prompt 切换语言）改善有限。涌现没有抹平质的差距，只是缩小了量的差距。

对手三：Rick 未读对手框架 ——「普遍语法 / 心智语言」(破 echo chamber)。 引入 Chomsky 的普遍语法（Universal Grammar）与 Fodor 的”心智语言”（Language of Thought / Mentalese）传统——这是 Sapir-Whorf 的直接对手框架。其立场：思维有一套独立于自然语言的、普遍的底层表征，自然语言只是这套表征的”输出格式”。 它如何逼问本节：如果心智语言派是对的，那么 LLM 的”英语内部表示”或许根本不是英语的认知霸权，而只是模型恰好用英语 token 作为那套语言中立的内部表征的”标签”——Schut et al.（2025）观察到的”接近英语的表示”可能只是探针（probe）的解码偏差，不是真的”用英语思考”。 本节的回应（接受 + 边界）：接受这是一个严肃的解释竞争——“模型先生成英语表示”确实可能部分是 logit lens 探针本身偏向英语 token 的伪影（这是本节的一个 failure scenario）。但本节的产品结论不依赖于这场哲学之争的胜负：无论内部是不是真的”英语思考”，可观测的输出层事实——非英语道德判断更差（Ramezani & Xu 2023）、低资源语言准确率更低（23.6%）、安全对齐更脆弱——都成立，且都要求 PM 做分语言治理。哲学上谁对都不改变产品该做什么。

§6 跨域呼应：Sapir-Whorf 作为”技术批判”的认识论工具

本节的跨域调度不是装饰——语言相对性假说本身就是一个跨域思想资源，它来自语言人类学（人类学、民族志），而本节做的事，是把这个人类学框架迁移到机器认知的批判上。

具体作用有三层：

它提供了一个”反工程直觉”的视角。 工程师默认语言是可无损翻译的符号系统（信息论传统）；语言相对性则坚持语言携带不可完全翻译的认知框架。把这个张力套到 LLM 上，就解释了为什么”多语言模型”在工程指标（BLEU、流利度）上很好，却在认知指标（道德、因果、文化常识）上系统性失真——工程指标测的是形式，认知指标测的是世界观。这呼应幻觉的更深层来源：跨语言场景下，模型不只是事实编造，更是”世界观错位”。
它把”低资源语言劣势”从技术问题升格为权力问题。 借 0117社会学的视角，tokenizer 溢价与 HDI 负相关（Ahia et al. 2023）意味着越不发达地区的语言用 AI 越贵、越差——这是技术放大既有不平等的典型案例。Sapir-Whorf 的人类学血统（Boas 的语言平等主义）恰恰是反对这种语言等级制的——而 LLM 正在用工程的方式悄悄重建语言等级制。
Rick 的 fieldwork 显式迁移：在拉美多语言市场（拉美知识图、巴西 99 业务）做安全与国际化产品时，“模型的英语认知母语”不是抽象命题，而是每天发生的事——一个用葡语描述的纠纷场景，模型用英语的”公平直觉”去判，可能与巴西本地的公平观不一致。这正是 E03 拉美多语言 AI 产品剖解（本专题，跨文化迁移节点）要展开的真实案例。

§7 PM 决策启示

面试怎么用：被问”如何评估多语言模型”，不要只说”测各语言准确率”。说：“我会区分三层——形式层（流利度，模型普遍好）、能力层（知识/推理，随数据量收敛）、认知层（道德/因果/文化默认值，可能结构性失真，不随数据量自动收敛）。第三层是工程指标看不到的，要靠分文化的人审。” 这一句就把你和只懂 benchmark 的候选人区分开。
选型怎么用：在 CJK / 拉美密集场景下，把”分语言的道德对齐质量”和”低资源语言安全对齐脆弱度”列入选型矩阵，不只比 tokenizer 经济性（那是 c02 的事）。问供应商：“你们在斯瓦希里语 / 葡语上做过红队吗？”
复现怎么用：用 logit lens（Schut et al. 2025 方法）或简单的”切换 prompt 语言看答案是否变”的实验，亲手验证你选的模型有多”英语中轴”。这是可在一个下午跑完的最小实验。

§8 与已有节点的关系

对照 c02 - Tokenization 与词表工程：c02 处理切词层的语言不平等（机械、可量化的成本问题），本节深化到认知层的语言不平等（语义、可能不可量化的世界观问题）。两者是同一不平等的两个层面，本节不复述 c02 的 tokenization 数字基础。
对照幻觉：幻觉通常被理解为”事实编造”；本节补缺了一个被忽视的来源——跨语言场景下的”世界观错位”是一种更隐蔽的幻觉（输出流利、事实无误，但文化默认值错了）。
对照 0422 STS 专题相关节点：本节为 STS 的”技术嵌入社会语境”框架提供了一个语言学的具体机制（升级对照）。
与本专题节点的关系：本节是 A04 翻译≠本地化的认知基础（为什么翻译≠本地化的深层原因），是 E03 拉美多语言 AI 产品剖解跨文化实例剖解的理论支点。

§9 关联节点

核心（必读）

c02 - Tokenization 与词表工程 —— 切词层的语言不平等，本节的成本基础
幻觉 —— 跨语言”世界观错位”是被忽视的幻觉来源
m209 - 推理成本控制手册 —— 多语言 token 溢价的成本治理
人类学 —— Sapir-Whorf 的学科母体，本节跨域迁移的源头
民族志 —— Rick fieldwork 方法论，本地认知框架的获取方式
AI PM 知识图谱·总索引 —— 全局入口

延伸（可选）

0117社会学 —— 语言等级制作为权力问题的分析框架
拉美知识图 —— Rick 国际化 fieldwork 的地理锚点
巴西 —— 99 业务的葡语认知框架场景
纠纷治理从裁判到管家 —— 认知框架本地化的产品实例
Tokenization —— 概念卡，切词机制细节
Claude / Gemini / ChatGPT —— 主流模型的多语言表现对照

修订日志

2026-06-07 R0：首稿。建立 Sapir-Whorf 弱版（颜色/空间证据硬、时间/性别复制争议）与 LLM 内部表示（Schut 2025 英语中轴、Wang 2025 注意力类型学对齐、Aksoy 2024 道德偏置）的结构同构论证；判断主轴五错位四件套；引入 Chomsky/Fodor 心智语言作为 Rick 未读对手框架并标注 logit lens 探针伪影为 failure scenario；显式迁移 Rick 拉美/巴西 fieldwork。所有 arXiv ID 与论文年份据接地简报（WebSearch/WebFetch 已核实）。
2026-06-11 P3.4 校链：0422 STS 专题现已入库，删除相关 staging 注解并恢复真链——§8 跨域调度段「对照本专题 0422STS跨文化…待该专题入库后建链」改为 0422 STS 专题；「待核实项」第 1 条降级（A04/E03 本专题节点名已确认、0422 已入库，占位双链注解恢复为 STS 跨文化，A04/E03 链本就正确）；第 2、3 条（arXiv:2510.10677 复核、巴西节点改链）仍为真待办，保留。
2026-06-12 内审修复：①§9/§修订日志/§待核实项三处 0422 总览 死链改为真实 basename [_STS 系统化专题·总览](/kb/专题-人文社科透镜/_sts-系统化专题-总览/)（保留显示别名）——0422 总览 在全 vault 不存在（此前 P3.4 自称”经全 vault find 核验”实为误判）。②WebFetch 核实 arXiv:2510.10677，实为防御工作（Chen et al., “Unlocking LLM Safeguards for Low-Resource Languages…”），原”错位四”误把它当越狱攻击证据——攻击侧改引已核实的 Yong et al. arXiv:2310.02446（AdvBench ASR ~79%），2510.10677 改述为防御侧；待核实项第 2 条据此关闭。

[!note] 待核实项

本专题/邻专题同级节点双链均已校验落库：A04 翻译≠本地化、E03 拉美多语言 AI 产品剖解为本专题真实节点，STS 跨文化已入库（2026-06-12 修复链名：原指向 0422 总览 不存在，已改为真实 basename）。

~~arXiv:2510.10677（低资源语言越狱）来自接地简报转引，建议入库前 WebFetch 复核具体作者与标题。~~ → 已核实（2026-06-12）：该篇实为防御工作（Chen et al., “Unlocking LLM Safeguards for Low-Resource Languages via Reasoning and Alignment with Minimal Training Data”），并非越狱攻击源；越狱/攻击证据已改引 Yong et al. arXiv:2310.02446。

巴西双链——据 vault 集成包，巴西无独立地理节点，可能需改链至拉美知识图或 99 工作节点（CPF实名验证等），入库时校正。