R

A06 语言相对性与 LLM 跨语言偏差

创建 2026-06-07 更新 2026-06-12 2 条双链 计算语言学 专题 AI 整理

A06 语言相对性与 LLM 跨语言偏差

当一个巴西用户用葡语问你的 AI 产品”这单为什么被取消”,他拿到的回答,本质上是一段被英语认知翻译过来的判断——模型先在内部用接近英语的表示算出答案,再吐成葡语。这一节要解决的问题是:语言相对性(linguistic relativity)这个一百年前的语言学争论,如何精确地预言了今天多语言 LLM 的核心病理,以及一个做国际化产品的 PM 该如何把”模型的世界观是英语语料的”这件事,从一个哲学命题,翻译成成本、质量、合规三张可操作的表。视角框架:Sapir-Whorf 弱版(语言影响认知)+ 多语言 LLM 内部表示研究的交叉读法。

[!warning] 本节的反共识立场 业界默认”多语言模型 = 中立的多语言翻译器”。本节坚持一个更尖锐的判断:多语言 LLM 不是中立的,它有一个以英语为中轴的”认知母语”。非英语用户得到的不是”本族语的智能”,而是”英语智能的译制片”——而且这个译制过程在颜色、空间、时间、道德这些被语言学证明会受语言影响的维度上,会系统性地丢失或扭曲信息。这不是 bug,是当前架构的结构性特征。


§0 为什么是”语言相对性”这个框架,而不是”训练数据不均衡”

读到”非英语 LLM 更差”,大多数工程师脑中会立刻跳出一个默认框架:数据量问题——英语语料多,所以英语好;多喂点低资源语言数据就能补齐。这个框架对,但不够深,且会误导产品决策

数据量框架预测的是”量变可解”:加数据 → 差距收敛。但语言相对性框架预测的是一件更麻烦的事:即使数据量补齐,语言结构本身嵌入的认知偏好也会被模型内化。Wang et al.(2025,arXiv:2506.16151,“Under the Shadow of Babel”)的因果推理实验给了这个判断硬证据:LLM 的注意力模式呈现语言类型学对齐——处理中文输入时更关注句首的因果连词(符合中文的语序习惯),处理英语时注意力更均衡;当语言特有的因果词序偏好被刚性应用到非典型输入上时,性能反而下降。这说明模型学到的不只是”英语词更多”,而是”英语世界看待因果关系的方式”。

所以本节采用语言相对性 × LLM 内部表示的双框架,而不是单一的数据量框架。前者解释”为什么差”是认知层面的、可能不随数据量线性收敛;后者(logit lens、activation steering)给出可观测的内部证据。两个框架合起来,才能让 PM 区分”哪些差距能靠加数据解决”(量)和”哪些是结构性的、要靠架构或产品设计绕过”(质)。这是本节相对于 c02 - Tokenization 与词表工程 升高的抽象层:c02 讲的是”切词层”的语言不平等(一个机械的、可量化的成本问题),本节讲的是”认知层”的语言不平等(一个语义的、可能不可量化的世界观问题)。


§1 Sapir-Whorf:被否定的强版,与被证实的弱版

语言相对性假说在公众认知里几乎全是误读。必须先做版本辨析,否则后面所有论证都站不住。

版本命题当代地位
强版(语言决定论)语言严格限定思维;不同语言者无法共享同一概念已被学界否定(确证)
弱版(语言相对论)语言影响(非决定)认知,形成习惯性倾向有正向实证支持(确证)

谱系上要纠正一个流行错误:Edward Sapir 本人明确反对强决定论;把它推向极端的是 Benjamin Lee Whorf(1940 年代,霍皮语研究),而 Whorf 的原始主张至今有争议——Malotki(1980 年代)曾驳斥其”霍皮语无时态”论,但相对论学者认为 Malotki 误读了 Whorf 的真实立场(争议点 A,未解决)。真正把假说操作化为可检验命题的是 Brown & Lenneberg(1954),系统实证则始于 Levinson 与 Lucy(Max Planck Institute,1996 年起)。

弱版有多硬的证据?三个被反复复制的支柱:

  • 颜色感知:Winawer et al.(2007,PNAS)——俄语区分深蓝 sinij 与浅蓝 goluboy,英语只有 blue;俄语母语者在跨类别颜色辨别任务上反应更快。关键控制:加入语言干扰任务后这一优势消失,加入空间干扰任务则保留——证明语言是通过在线实时认知处理起作用,不是静态标签。Thierry et al.(系列研究,综述见 2016 Language Learning)用 EEG 进一步证明希腊语母语者的颜色辨别差异出现在前注意(preattentive)早期感知阶段
  • 空间认知:Levinson(1997,Journal of Linguistic Anthropology 7:1)——澳洲原住民语 Guugu Yimithirr 只用绝对方位(东南西北),无”左/右/前/后”;其母语者以绝对框架编码非语言记忆,荷兰母语者用相对框架。语言习惯渗入了非语言的空间记忆。
  • 时间概念:Boroditsky(2001)声称中文母语者因垂直时间隐喻多而对垂直排列反应更快——但 January & Kako(2007,Cognition)报告六次复制失败争议点 B),语法性别感知实验(Boroditsky 2003)也被独立实验室复制失败(争议点 C)。

[!note] 边界:弱版也不是铁板一块 必须诚实标注:语言相对性的证据强弱分布极不均匀。颜色、空间域证据扎实;时间、语法性别、“无将来时语言储蓄率更高”(Chen 2013,争议点 D)这些是复制争议或有强力替代解释的。本节后面用 Sapir-Whorf 类比 LLM 时,赌的是弱版中证据最硬的部分(语言影响认知处理的”在线”机制),而不是被复制失败拖累的部分。这是本节的一个赌注:如果未来更多颜色/空间研究也被推翻,本节的类比力度要相应下调。


§2 从人脑到模型:LLM 是否”用英语思考”

这是本节的核心迁移。如果说人类大脑里语言影响认知是”弱版、有边界”的,那么在 LLM 里,这件事的证据反而更直接、更强——因为我们能打开模型看内部表示,这是神经科学对人脑做不到的。

Schut, Gal & Farquhar(2025,arXiv:2502.15603,“Do Multilingual LLMs Think in English?”) 用 logit lens(逐层解码内部表示)和 activation steering 测试法、德、荷、中四种语言,发现:多语言 LLM 在处理语义实词时,先生成接近英语的内部表示,再翻译到目标语言;而且用英语做 activation steering(向量干预)比用输入语言本身更有效。换句话说:英语是模型的”内部工作语言”,目标语言是输出层的译制。这正是 §0 开头那个巴西用户场景的机制证据——他拿到的葡语回答,确实是一段”英语认知的译制片”。

这件事的认知后果,与 Sapir-Whorf 弱版结构同构

维度人类(Sapir-Whorf 弱版)多语言 LLM
机制母语习惯影响在线认知处理英语内部表示影响所有语言的推理(Schut 2025)
证据层行为实验 + EEG(间接)logit lens + steering(直接可观测
道德判断文化语境塑造道德直觉模型倾向施加英语主导的道德规范(Aksoy 2024)
因果推理语序习惯影响因果编码注意力呈语言类型学对齐(Wang 2025)

道德维度的证据尤其值得 PM 警惕。Ramezani & Xu(2023,arXiv:2402.02135)测多语言道德推理,能力排序为:英语 > 西班牙语 > 俄语 > 中文 > 印地语 > 斯瓦希里语(GPT-4 跨语言差距最小但仍存在)。Aksoy(2024,arXiv:2412.18863)用更新版道德基础问卷(MFQ-2)测八种语言,发现多语言 LLM 倾向施加英语主导的道德规范,而非反映各文化的真实价值观。Liang & Mahmoud(2025,arXiv:2512.16029)用 BBQ 基准发现阿拉伯语、西班牙语呈现更高的刻板印象偏差,且各语言的”显性偏差最低、内隐偏差最高”——标准基准存在评估盲区。


§3 判断主轴:做国际化产品时,90% 的人在这五处会搞错

这是本节的命门。每条带”症状 → 为什么会错 → 正确做法 → 真实反例”四件套。

错位一:把”支持 N 种语言”当成”在 N 种语言上一样聪明”。

  • 症状:产品 spec 写”模型支持 100+ 语言”,PM 据此假设各语言体验等价,不做分语言 QA。
  • 为什么会错:能输出 ≠ 能推理。GPT-3 训练 token 约 92.65% 为英语(Li et al. 2024,arXiv:2404.11553,AAAI 2025),LLaMA 2 约 89.70%;性能与该语言在预训练语料中的占比强相关。“支持”只是输出层能生成合法字符串,推理质量是另一回事。
  • 正确做法:把语言当成独立的质量维度,对每个上线语言跑独立 benchmark;用 Language Ranker(Li et al.)类指标量化”这门语言离英语有多远”。
  • 真实反例:印度次大陆低资源语言 zero-shot 准确率常低于 23.6%(确证,Indic benchmark 综述);非洲语言整体落后英语约 25 个准确率点(Lundin et al. 2025)。“支持”但准确率 23.6%,等于不支持。

错位二:以为”加数据”能解决一切语言差距。

  • 症状:把所有跨语言差距归因于数据量,规划”多采集低资源语言语料”作为唯一解。
  • 为什么会错:数据量解决”量”的差距,但 Wang et al.(2025)证明语言结构嵌入的推理偏好会被内化——这是”质”的差距,未必随数据量线性收敛。
  • 正确做法:区分两类差距。能力差距(知识、流利度)可靠数据补;认知偏置(因果语序、道德框架)要靠架构(如多语言对齐微调)或产品设计绕过。Chua et al.(2024/2025,arXiv:2406.16135)发现在混合语言数据上微调能有效缩小深层知识迁移差距,即使用 WikiText 这类域外数据也有效——说明解法不只是”更多目标语言数据”。
  • 真实反例:Dhaliwal et al.(2026,arXiv:2604.13286,220 组实验)发现加入单一非英语语言即可改善英语性能和跨语言泛化,纯英语后训练”总体次优”——证明机制不是简单的”哪门语言数据多哪门强”。

错位三:把”翻译”当成”本地化”。

  • 症状:产品文案、客服话术先写英语,再机翻成各语言上线,认为这就是国际化。
  • 为什么会错:语言相对性意味着不同语言的用户在颜色、空间、时间、道德框架上的认知默认值不同。机翻搬运的是词,不是认知框架。模型的道德判断本身就带英语偏置(Aksoy 2024),叠加机翻,等于”英语道德观 × 机翻损耗”双重失真。
  • 正确做法:本地化是认知框架的适配,不是字符串替换。安全/合规/道德相关的输出,必须由目标语言/文化的人审,不能信任模型的跨语言一致性。
  • 真实反例:详见 A04 翻译≠本地化(本专题同级节点);Rick 在 99(巴西)的纠纷治理实践中,“裁判 vs 管家”的话术框架(纠纷治理从裁判到管家)在中文语境和巴西葡语语境下的用户接受度差异,正是认知框架而非翻译问题。

错位四:忽视低资源语言的安全对齐更脆弱。

  • 症状:安全测试只在英语做,假设对齐机制对所有语言一致生效。
  • 为什么会错:低资源语言的安全防护系统性更弱。把英语有害输入翻译成低资源语言即可绕过 GPT-4 护栏,AdvBench 上攻击成功率约 79%(来源:Yong, Menghini & Bach, “Low-Resource Languages Jailbreak GPT-4,” arXiv:2310.02446,已核实 2026-06-12)——攻击者只要切换到低资源语言就能越狱;防御侧补强仅需极少数据(Chen et al., “Unlocking LLM Safeguards for Low-Resource Languages,” arXiv:2510.10677, 2025,已核实 2026-06-12)。
  • 正确做法:把多语言红队(red-teaming)作为合规硬约束,尤其覆盖产品实际投放的低资源语言市场。
  • 真实反例:这是国际化产品的真实合规风险——一个在英语下安全的产品,在斯瓦希里语下可能完全裸奔。

错位五:成本估算用英语 token 基准。

  • 症状:用英语 token 数估 API 成本和上下文窗口,直接套用到所有语言。
  • 为什么会错:tokenization 不公平——同一文本翻成不同语言,token 长度差异最高 15 倍(Petrov et al. 2023,NeurIPS,arXiv:2305.15425)。这是切词层的成本爆炸,详见 c02 - Tokenization 与词表工程m209 - 推理成本控制手册
  • 正确做法:成本估算必须语言敏感;上下文窗口规划用字符数而非 token 数做 chunk 边界。
  • 真实反例:见本专题成本相关节点;本节不复述 c02 的 tokenization 数字基础。

§4 产品 PM 视角补盲:工程视角看不到的三个洞察

跳出”模型能力”视角,补三个用户心理 / 商业 / 合规的看走眼点:

  1. 用户感知不到”译制”,但会感知到”不对劲”。 非英语用户拿到的回答语法流利、词汇正确,所以投诉不会是”翻译错了”,而是模糊的”这个 AI 不懂我们这边的情况”。这是最危险的失败模式——它不报错,只是悄悄地不本地。PM 要主动测的不是”翻译准不准”,而是”道德/常识/文化默认值对不对”。

  2. “英语中轴”是一种隐性的认知殖民,有品牌与合规风险。 当你的产品在拉美市场系统性地输出英语主导的道德规范(Aksoy 2024),这不只是质量问题,在某些市场是文化敏感性 / 监管风险。Ahia et al.(2023,EMNLP,“Do All Languages Cost the Same?”)已把 tokenizer 溢价与社会经济不平等(HDI 负相关)挂钩——未来可能面临要求披露或均等化定价的监管压力。这与 0117社会学、人类学 的”技术嵌入社会语境”框架直接相关。

  3. 逆向机会:贴近本地认知框架是差异化壁垒。 如果通用模型的世界观是英语的,那么一个真正做了本地认知适配的产品(不是机翻,而是道德框架、常识默认值、客服话术的本地重写)在非英语市场就有结构性优势。对 Rick 这样有拉美 fieldwork 的 PM,这是把人类学田野洞察(民族志)转成产品壁垒的切口。


§5 对手框架回应:接受 + 边界

对手一:纯数据量派(“差距全是数据,加数据即可”)。 接受:数据量确实是主因,预训练语料比例与性能强相关(Li et al. 2024)确凿无疑;很多差距确实随数据增加而收敛。 边界:但本节坚持,结构性认知偏置(因果语序、道德框架)不保证随数据量线性消失——Wang et al.(2025)的注意力类型学对齐证据是反例。PM 决策不能等”数据补齐”这个可能永远到不了的终点,必须现在就做分语言 QA 和本地化设计。

对手二:涌现乐观派(“模型够大就会自发学会跨语言对齐”)。 接受:GPT-4 的跨语言差距确实比小模型小(Ramezani & Xu 2023),规模带来收敛。 边界:但 Chua et al.(2024/2025)证明深层知识迁移(MMLU、TOFU 等)在大模型上依然薄弱,推理时的简单修复(prompt 切换语言)改善有限。涌现没有抹平质的差距,只是缩小了量的差距。

对手三:Rick 未读对手框架 ——「普遍语法 / 心智语言」(破 echo chamber)。 引入 Chomsky 的普遍语法(Universal Grammar)与 Fodor 的”心智语言”(Language of Thought / Mentalese)传统——这是 Sapir-Whorf 的直接对手框架。其立场:思维有一套独立于自然语言的、普遍的底层表征,自然语言只是这套表征的”输出格式”。 它如何逼问本节:如果心智语言派是对的,那么 LLM 的”英语内部表示”或许根本不是英语的认知霸权,而只是模型恰好用英语 token 作为那套语言中立的内部表征的”标签”——Schut et al.(2025)观察到的”接近英语的表示”可能只是探针(probe)的解码偏差,不是真的”用英语思考”。 本节的回应(接受 + 边界):接受这是一个严肃的解释竞争——“模型先生成英语表示”确实可能部分是 logit lens 探针本身偏向英语 token 的伪影(这是本节的一个 failure scenario)。但本节的产品结论不依赖于这场哲学之争的胜负:无论内部是不是真的”英语思考”,可观测的输出层事实——非英语道德判断更差(Ramezani & Xu 2023)、低资源语言准确率更低(23.6%)、安全对齐更脆弱——都成立,且都要求 PM 做分语言治理。哲学上谁对都不改变产品该做什么


§6 跨域呼应:Sapir-Whorf 作为”技术批判”的认识论工具

本节的跨域调度不是装饰——语言相对性假说本身就是一个跨域思想资源,它来自语言人类学(人类学、民族志),而本节做的事,是把这个人类学框架迁移到机器认知的批判上。

具体作用有三层:

  • 它提供了一个”反工程直觉”的视角。 工程师默认语言是可无损翻译的符号系统(信息论传统);语言相对性则坚持语言携带不可完全翻译的认知框架。把这个张力套到 LLM 上,就解释了为什么”多语言模型”在工程指标(BLEU、流利度)上很好,却在认知指标(道德、因果、文化常识)上系统性失真——工程指标测的是形式,认知指标测的是世界观。这呼应 幻觉 的更深层来源:跨语言场景下,模型不只是事实编造,更是”世界观错位”。
  • 它把”低资源语言劣势”从技术问题升格为权力问题。 借 0117社会学 的视角,tokenizer 溢价与 HDI 负相关(Ahia et al. 2023)意味着越不发达地区的语言用 AI 越贵、越差——这是技术放大既有不平等的典型案例。Sapir-Whorf 的人类学血统(Boas 的语言平等主义)恰恰是反对这种语言等级制的——而 LLM 正在用工程的方式悄悄重建语言等级制。
  • Rick 的 fieldwork 显式迁移:在拉美多语言市场(拉美知识图、巴西 99 业务)做安全与国际化产品时,“模型的英语认知母语”不是抽象命题,而是每天发生的事——一个用葡语描述的纠纷场景,模型用英语的”公平直觉”去判,可能与巴西本地的公平观不一致。这正是 E03 拉美多语言 AI 产品剖解(本专题,跨文化迁移节点)要展开的真实案例。

§7 PM 决策启示

  • 面试怎么用:被问”如何评估多语言模型”,不要只说”测各语言准确率”。说:“我会区分三层——形式层(流利度,模型普遍好)、能力层(知识/推理,随数据量收敛)、认知层(道德/因果/文化默认值,可能结构性失真,不随数据量自动收敛)。第三层是工程指标看不到的,要靠分文化的人审。” 这一句就把你和只懂 benchmark 的候选人区分开。
  • 选型怎么用:在 CJK / 拉美密集场景下,把”分语言的道德对齐质量”和”低资源语言安全对齐脆弱度”列入选型矩阵,不只比 tokenizer 经济性(那是 c02 的事)。问供应商:“你们在斯瓦希里语 / 葡语上做过红队吗?”
  • 复现怎么用:用 logit lens(Schut et al. 2025 方法)或简单的”切换 prompt 语言看答案是否变”的实验,亲手验证你选的模型有多”英语中轴”。这是可在一个下午跑完的最小实验。

§8 与已有节点的关系

  • 对照 c02 - Tokenization 与词表工程:c02 处理切词层的语言不平等(机械、可量化的成本问题),本节深化认知层的语言不平等(语义、可能不可量化的世界观问题)。两者是同一不平等的两个层面,本节不复述 c02 的 tokenization 数字基础。
  • 对照 幻觉:幻觉通常被理解为”事实编造”;本节补缺了一个被忽视的来源——跨语言场景下的”世界观错位”是一种更隐蔽的幻觉(输出流利、事实无误,但文化默认值错了)。
  • 对照 0422 STS 专题 相关节点:本节为 STS 的”技术嵌入社会语境”框架提供了一个语言学的具体机制(升级对照)。
  • 与本专题节点的关系:本节是 A04 翻译≠本地化 的认知基础(为什么翻译≠本地化的深层原因),是 E03 拉美多语言 AI 产品剖解 跨文化实例剖解的理论支点。

§9 关联节点

核心(必读)

延伸(可选)

  • 0117社会学 —— 语言等级制作为权力问题的分析框架
  • 拉美知识图 —— Rick 国际化 fieldwork 的地理锚点
  • 巴西 —— 99 业务的葡语认知框架场景
  • 纠纷治理从裁判到管家 —— 认知框架本地化的产品实例
  • Tokenization —— 概念卡,切词机制细节
  • Claude / Gemini / ChatGPT —— 主流模型的多语言表现对照

修订日志

  • 2026-06-07 R0:首稿。建立 Sapir-Whorf 弱版(颜色/空间证据硬、时间/性别复制争议)与 LLM 内部表示(Schut 2025 英语中轴、Wang 2025 注意力类型学对齐、Aksoy 2024 道德偏置)的结构同构论证;判断主轴五错位四件套;引入 Chomsky/Fodor 心智语言作为 Rick 未读对手框架并标注 logit lens 探针伪影为 failure scenario;显式迁移 Rick 拉美/巴西 fieldwork。所有 arXiv ID 与论文年份据接地简报(WebSearch/WebFetch 已核实)。
  • 2026-06-11 P3.4 校链:0422 STS 专题现已入库,删除相关 staging 注解并恢复真链——§8 跨域调度段「对照本专题 0422STS跨文化…待该专题入库后建链」改为 0422 STS 专题;「待核实项」第 1 条降级(A04/E03 本专题节点名已确认、0422 已入库,占位双链注解恢复为 STS 跨文化,A04/E03 链本就正确);第 2、3 条(arXiv:2510.10677 复核、巴西节点改链)仍为真待办,保留。
  • 2026-06-12 内审修复:①§9/§修订日志/§待核实项三处 0422 总览 死链改为真实 basename [_STS 系统化专题·总览](/kb/专题-人文社科透镜/_sts-系统化专题-总览/)(保留显示别名)——0422 总览 在全 vault 不存在(此前 P3.4 自称”经全 vault find 核验”实为误判)。②WebFetch 核实 arXiv:2510.10677,实为防御工作(Chen et al., “Unlocking LLM Safeguards for Low-Resource Languages…”),原”错位四”误把它当越狱攻击证据——攻击侧改引已核实的 Yong et al. arXiv:2310.02446(AdvBench ASR ~79%),2510.10677 改述为防御侧;待核实项第 2 条据此关闭。

[!note] 待核实项

  1. 本专题/邻专题同级节点双链均已校验落库:A04 翻译≠本地化E03 拉美多语言 AI 产品剖解 为本专题真实节点,STS 跨文化 已入库(2026-06-12 修复链名:原指向 0422 总览 不存在,已改为真实 basename)。
  2. arXiv:2510.10677(低资源语言越狱)来自接地简报转引,建议入库前 WebFetch 复核具体作者与标题。 → 已核实(2026-06-12):该篇实为防御工作(Chen et al., “Unlocking LLM Safeguards for Low-Resource Languages via Reasoning and Alignment with Minimal Training Data”),并非越狱攻击源;越狱/攻击证据已改引 Yong et al. arXiv:2310.02446。
  3. 巴西 双链——据 vault 集成包,巴西无独立地理节点,可能需改链至 拉美知识图 或 99 工作节点(CPF实名验证 等),入库时校正。