计算语言学系统化专题 · 总览（MOC）

一个从「计算语言学视角」重读 LLM 产品的知识立方：横向（是什么）＋纵向（从哪来）＋解剖（由什么组成）＋病理（现实怎么走样）＋操作（自己怎么动手）＋编织（怎么读）。17 个原子节点，靠双链织成一张网，读完能在面试桌 / 选型会 / 复现台 30 秒说清「为什么多语言不是『翻译一下』」。

§0 序：撞过的那堵墙

工程视角进 AI 的人，脑子里的「语言」是一串被切碎的整数（token、loss、attention）。所以当产品要做多语言，第一反应几乎总是同一句：“翻译一下不就行了”——接个翻译 API，把界面字符串过一遍机翻，onboarding 加个语言切换。

Rick 在滴滴/99 拉美国际化的工作台上，反复撞见这堵墙的另一面：巴西 99 业务的 AI 功能单位成本”莫名”比国内高 1.5–2 倍，葡语客服文案”译得对、用户却不信任”，安全话术在西语上读着流畅却接不上当地人对”安全”的真实想象。三个看似无关的故障，源头是同一个被工程视角压扁的东西——语言不是一层皮，它有形态、句法、语义、语用四层结构，外加一根英语中轴的认知偏置，而 LLM 在每一层各踩了不同的坑。

本专题的反共识立场：“把多语言当翻译”是国际化最体面、也最贵的一类幻觉。 token 溢价（最高 19×）发生在你的 prompt 进模型之前；理解-生成不对称让流利的错误最难被发现；文化适配的失败不在”译错了什么”，而在”假设了什么是普世的”。读完这套 9 节，你能 30 秒说清：多语言产品到底坏在哪一层、谁负责、怎么测——并把它从一个 roadmap 的 milestone，重新定义成一条贯穿成本/质量/合规的系统约束。

§1 专题定位：为什么单独建这个专题号

按《系统化专题·出版级写作宪章（SHARED_CONTEXT v1）》§2 的四条选题判据，逐条论证：

判据	本专题是否满足	证据
① 中心性（影响 ≥3 个 PM 决策链）	✅	同时影响成本（token 溢价进 unit economics）、选型（fertility 成第三维）、质量评估（NLU/NLG 分层）、合规（多语言安全洼地）四个决策节点
② 误解深度（业界定义互相矛盾）	✅	“多语言 = 翻译”是行业默认；“中文 prompt 省 40% token”是流传神话（Ren et al. 2026 实测反而更贵）；“支持 100+ 语言”≠“100+ 语言都划算/都安全”
③ 速变性（24 个月内格式塔切换）	⚠️ 部分	词表从 32K（Llama-2）跳到 151,936（Qwen 2.5）/200K（GPT-4o），CJK 从”被惩罚”翻转为”被优待”（DeepSeek-V3 中文 0.65×）；但语言学根问题（形式≠意义）跨代未变
④ 学了就能用	✅	R01/R02/R03 给出当天可跑的脚本与模板，直接产出选型/预算/评估三类落地物

满足①②④（≥2 条达标），第④条为真。升高的抽象层：单维节点 c02 - Tokenization 与词表工程 / Tokenization 讲的是”tokenization 这个零件是什么、怎么影响成本”；本专题升一层，把它放回语言四层结构（A 模块）、代际谱系（G 模块）、六层产品栈（S 模块），论证它如何向上穿透全栈、又如何是一个跨代未解的认识论裂缝的当代切片。它回答的不是”零件是什么”，而是”语言学坐标系如何成为诊断 LLM 产品的工具”。

§2 模块全景

flowchart TD
    subgraph A["01 概念辨析（横向·是什么）"]
      A01[A01 概念谱系] --> A02[A02 语用×Prompt]
      A01 --> A03[A03 Token 溢价]
      A01 --> A04[A04 翻译≠本地化]
      A01 --> A05[A05 理解-生成不对称]
      A01 --> A06[A06 语言相对性]
    end
    subgraph G["02 代际演化（纵向·从哪来 · 横切）"]
      G01[G01 代际谱系总图] --> G02[G02 代际详解]
    end
    subgraph S["03 架构剖面（解剖·由什么组成）"]
      S01[S01 六层产品分层剖面 ★旗舰] 
      S02[S02 透镜×现象矩阵]
      S03[S03 多语言全栈全景]
    end
    subgraph E["04 实例剖解（病理·怎么走样）"]
      E01[E01 Token 成本剖解]
      E02[E02 跨文化 Prompt 剖解]
      E03[E03 拉美产品剖解 ★独家]
    end
    subgraph R["05 复现指南（操作·怎么动手）"]
      R01[R01 测 Token 效率]
      R02[R02 语用增强 Prompt]
      R03[R03 多语言质量评估]
    end
    A -->|概念→架构| S
    S -->|架构→实例| E
    E -->|实例→复现| R
    A -->|概念→复现| R
    G -.横切·时间维度.-> A
    G -.横切.-> S
    MOC[（本总览·反向编织）] -.编织成多条阅读路径.-> A & G & S & E & R

矩阵含义：依赖链是 概念（A）→ 架构（S）→ 实例（E）→ 复现（R）；代际演化（G）横切所有模块，提供”这不是线性进步史”的时间维度；本总览反向编织成 §5 的三条阅读路径。S 模块内部三剖面是同一架构的三视图——S01 是分层剖面（六层失效面 + 耦合拓扑，旗舰最厚）、S02 是查表矩阵（五透镜 × 四现象）、S03 是全栈全景（六层税如何相互放大 + owner 缺口）。

§3 六模块逐一介绍

01 概念辨析（A01–A06）｜横向：语言有哪些层、LLM 在每层踩什么坑

收录语言四层结构与 LLM 产品的真实耦合。何时读：建立坐标系，想知道”这类问题归到哪一层”时。

A01 计算语言学与 LLM 概念谱系 — 四层诊断坐标系 vs 工程技术栈；“翻译一下”思维的五个结构性陷阱。入口节点。
A02 语用学与 Prompt 设计 — prompt 是言语行为不是命令；Grice 合作原则 + Austin-Searle 言语行为重构 prompt。
A03 多语言 Tokenization 效率差异 — token 溢价 = 成本/质量隐性税；强接地数据（掸语 19×、HDI 负相关）。
A04 翻译≠本地化 — i18n/l10n 正交分解；翻译只是 l10n 最不重要的子任务。
A05 理解与生成的不对称 — 形式能力 vs 功能能力；流利的生成≠深刻的理解，多语言上撕裂成产品风险。
A06 语言相对性与 LLM 跨语言偏差 — Sapir-Whorf 弱版 × 英语中轴；非英语得到的是”英语智能的译制片”。

02 代际演化（G01–G02）｜纵向：从哪来、为何不是线性进步

何时读：被问”你怎么看 NLP 发展”，或要判断”当前范式哪些问题根本不在视野里”时。

G01 计算语言学与 NLP 代际谱系总图 — 四代范式（规则→统计→词向量→Transformer）的 Kuhn 不可通约 + 反线性回归主轴。
G02 NLP 代际演化详解 — 五代六栏病历卡，每代钉一个”皇帝新衣”反例（ELIZA 效应→BERT spurious cues→ELIZA 工业级重演）。

03 架构剖面（S01–S03）｜解剖：多语言产品由什么层组成、坏在层间耦合

何时读：要诊断”非英语体验差坏在哪一层”、做系统级选型时。

S01 多语言 LLM 产品分层剖面 ★旗舰最厚 — 六层剖面（tokenization→语言检测→NLU→NLG→l10n→文化适配）+ 四个致命耦合。
S02 语言学视角 × LLM 现象对照矩阵 — 五透镜 × 四现象查表，每格”重新描述 + 解锁动作”。
S03 多语言 AI 产品全景 — 六层税如何相互放大（三条放大链）+ “没人端到端负责”的 owner 缺口。

04 实例剖解（E01–E03）｜病理：真实产品具体死在哪

何时读：想看抽象判断被压到可被拷问的真实病例上。

E01 多语言 Tokenization 成本剖解 — token 溢价怎么穿透到账单/窗口/训练/质量；CJK 逆溢价的反直觉案例。
E02 跨文化 Prompt 与本地化剖解 — 本地化是语用工程；敬语/语域/文化预设/token 溢价四道暗门。
E03 拉美多语言 AI 产品剖解 ★独家 — 以 Rick 拉美 fieldwork 为锚，剖英语中心设计在五层上误判真实复杂度。

05 复现指南（R01–R03）｜操作：当天就能跑

何时读：要把判断变成可证伪的脚本/模板，产出选型/预算/评估落地物时。

R01 测多语言 Tokenization 效率 — 三层脚本骨架（单句→平行批量+计费→双指标诊断），产出能进 BP 的 premium 矩阵。
R02 语用学增强 Prompt 设计 — Grice 四准则→四杠杆 + PRAGMA 六槽模板 + 改写实验（巴西 99 现金纠纷场景）。
R03 多语言质量评估 — 不靠英语 benchmark 翻译的五层失效评估（tokenization/理解/生成/文化/安全）。

06 阅读指南（本总览 + README）｜编织：怎么读

本 _总览 给 MOC 全景与三清单自评；README 给三路径细表 + ≥10 题自测 + 反方对话训练。

§4 与现有节点关系（升级对照表）

本专题与既有 c/m/p/概念卡节点的关系是升级对照，不复述事实基础。

旧节点	本专题哪些节点做了升级	升级类型
c02 - Tokenization 与词表工程	A01（从形态学侧解释”为什么非英语被切碎”）、A03（升为”语言间不平等定价分析”，补 19× 掸语/HDI 负相关）、S01（放回六层栈论证向上穿透）、E01（放进真实计费做病理切片）、R01（操作化为可跑脚本）、G01/G02（定位为”代际偷偷保留的语言学先验”）	深化 / 升维 / 操作化 / 纠偏
Tokenization（概念卡）	A03/E01/R01 把”AI PM 隐藏陷阱第 4 条·多语言成本核算”回填为葡语/西语/低资源语言实测数据	补缺
幻觉	A02（重定位为 Grice Quality 准则违反）、A05（重归因为”功能能力赤字被流利度掩盖”）、G01/G02（重诊断为第四/五代结构性反常，接回 ELIZA 效应六十年谱系）	纠偏 / 重定位
m209 - 推理成本控制手册	A03/E01/S01/S03 补入”成本的语言维度”——总 token 量本身是语言相关的隐变量；R01 补语言敏感系数	对话 / 补缺
Embedding	G01/G02 定位为”第三代分布语义学的几何化产物”，给代际史坐标	深化
范式	G01 以 Kuhn 范式更替为方法论根基	应用

[!note] 跨专题升级对照接口本专题多处预留了升级对照接口：A03/A04/E03/S01/S03 的 token 溢价 ↔ STS 与 AI 社会嵌入的「AI 在中美拉美 Imaginaries 差异」、A02/R02 的语用 ↔ 上下文工程的上下文衰减、E01/A03 的多语言成本 ↔ 成本工程的 token 计费优化。三专题均已入库，可由总览直接进入对照阅读。

§5 三条阅读起点

按身份模式给三条路径（详表见 README）：

求职速通（面试桌，~40 分钟）：A01 计算语言学与 LLM 概念谱系 → S01 多语言 LLM 产品分层剖面 → E03 拉美多语言 AI 产品剖解。拿到”四层坐标系 + 六层剖面 + 一手拉美案例”，足够在面试里把”翻译一下”派候选人甩开一个抽象层。
决策链（选型/复现，~90 分钟）：A03 多语言 Tokenization 效率差异 → E01 多语言 Tokenization 成本剖解 → R01 测多语言 Tokenization 效率 → R03 多语言质量评估。从机制到病例到可跑脚本，产出 premium 矩阵 + 五层评估清单。
紧迫度（上线前止血，~30 分钟）：S03 多语言 AI 产品全景（六层税 + owner 缺口）→ R03 多语言质量评估 §4 安全洼地 → E03 拉美多语言 AI 产品剖解 §5 合规/支付。先堵”安全 gap >10pp 阻断上线”和”文化事故”两个最大风险。

§6 跨域思想资源调度

宪章 §6 硬约束：不留空 invocation——每个资源都在对应节点的”跨域呼应”段具体展开，改变了一个技术判断。

跨域资源	调度位置	在该节点的具体作用（非装饰）
Grice 合作原则（会话含义）	A02 / R02 / S02 / E02 / R03	把幻觉/啰嗦/跑题统一为”会话准则违规”；落成 PRAGMA 四杠杆 checklist；Kim et al. 2023 证明注入 CoT 可超人类均值
Austin–Searle 言语行为	A02 / R02 / E03	prompt = Directive/Representative，错配类型→质量断崖；E03 用 illocutionary force 解释拉美语域错位的取效失败
Sapir-Whorf 弱版（语言相对性）	A06 / S01 / S02	预言英语中轴是认知层（非数据量）问题；颜色/空间证据硬、时间/性别复制争议——本专题只赌证据最硬的部分
翻译学（Venuti 归化/异化、Vermeer Skopos）	A04	LLM 默认极致归化抹平品牌棱角；Skopos 理论 = “翻译≠本地化”的理论根基（目的达成 > 忠实原文）
Kuhn 范式 / 不可通约	G01	把”该不该懂语言学”从”复古 vs 进步”站队，变成”用什么坐标系定位失效”的工具问题
维特根斯坦”意义即用法”	G01 / R02	解释 LLM 能流利谈论从未”经验”过的东西；论证”不存在脱离语境的最优 prompt 模板”
Polanyi 默会知识	E03	语域选择是默会知识，无法穷举进 prompt——故拉美本地化关键投入是把在地母语者引入验收环路
STS / 技术不中立（Winner “artifacts have politics”）	A03 / E01 / S03 / R01	tokenizer 把语言不平等编码进基础设施定价；测量本身升格为”算法公平性审计”
人类学 / 民族志（emic/etic、Geertz 深描）	A01 / E03 / R03 多处	文化适配判分不能远程外包，必须在地母语者——和田野不能靠二手转述是同一认识论

破 echo chamber·Rick 未读的对手框架（宪章要求 ≥2 个，本专题覆盖多个）：

Sperber & Wilson 关联理论（A02/E02/R02/S02/R03）— 逼问”四准则工程化”是否模仿了错误的认知模型。
Chomsky 普遍语法 / Fodor 心智语言（A06）— 逼问”英语内部表示”是否只是 logit lens 探针的解码偏差。
Phillipson 语言帝国主义 / Pennycook 全球英语批判（E03）— 逼问”优化拉美体验”是否默认了英语世界定义的”好产品”。
Peyrichou 形式语言生成-识别不对称（A05/S01）— 从计算复杂度而非语用学解释 NLU/NLG 不对称。
Gary Marcus 神经-符号 / LeCun JEPA（G01）、多语言诅咒派 / 英语枢纽乐观派（S03）、Phil Agre 批判性技术实践（R01）。

§7 验收档案

评议流程

本专题走宪章 §10 工程化流水线：并行起草（17 节点分模块）→ 批判性同行评议（六维 + 事实接地，逐节点 issue 单）→ 修订（每节追加修订日志）→ 独立 grounding 校验 pass → 综合（本总览 + README + 跨节点编织 + SABCD 自评）。所有节点修订日志显示已完成 R0/R1 起草 + grounding pass，多个近知识边界的 2026 预印本（arXiv:2604.14210 Ren et al.、arXiv:2601.13328 Churchill & Skiena、arXiv:2603.10139 Peyrichou）经 WebSearch/WebFetch 复核确证。

SABCD 六维自评（宪章 §1 验收线）

维度	含义	出版线	本专题自评	依据
S 结构	六模块互补、依赖清晰、入口可导航	≥8	8.2	17 节点严格落 6 模块；§2 矩阵 + §5 三路径 + 三剖面三视图；扣分项：S01/S02/S03 六层划分在不同节点略有出入（S01 含”语言检测层”，S03 含”嵌入层”），分辨率统一度可更高
A 判断密度	反共识、可证伪、带数字	≥8	8.0	每节有判断主轴 + 四件套；硬数字密集（19×掸语、92.65%英语、0.65×中文逆溢价、ASR gap）；扣分项：部分单源数据（TechFlow 2026 中文实测、DeepSeek 0.65×）依赖单一来源
B 边界含量	显式标注失效场景与赌注	≥7.5	8.0	每节均有 failure scenario + 显式赌注（如”关联理论解释更优但 Gricean 更可施工”）；多处标〔示意〕〔待核实〕
C 认识论自觉	区分事实/推测/赌注、引用可追溯	≥8	8.0	区分”行为表现”vs”真理解”（R03）；arXiv ID 普遍可追溯；2026-06-12 修复一处转引误植：arXiv:2510.10677 经 WebFetch 核实实为防御工作（非越狱攻击），攻击证据已统一改引 Yong et al. arXiv:2310.02446；残留扣分项：Phillipson/Pennycook 具体著作年份仍标〔待核实〕
D 可演进性	双链密度、修订日志、改稿档案	≥8.5	7.8	双链密度高、修订日志齐全；扣分项：节点内部分前向引用用了变体名（如 A04 引”A05 理解 vs 生成”、A05 引”A06 翻译≠本地化”、G01 自称”G01 NLP 代际谱系总图”），与真实 filename 不一致，入库前需统一校正为本总览所用 basename，否则部分专题内链会断
E 对手拷问能力	对业界反方给出带证据的回应	≥7	8.2	每节 2–3 个对手框架”接受+边界”；≥4 个 Rick 未读框架破 echo chamber；进步主义叙事在 G01/G02 每代加反例修正

综合自评 ≈ 8.0 / 10（诚实综合分 ≥7.8 达标）。一票否决项自查：①编造引用——0 处（grounding pass 已过，疑似项均降级标注）；②空跨域 invocation——0 处（§6 每个资源均在对应节点具体展开）；③无边界承担——不成立（每节有 failure scenario + 赌注）；④孤岛节点——不成立（与 c02/Tokenization/幻觉/m209 均有显式升级对照）。

对手立场接入清单（业界反方，点名真实立场，≥8 处）

Arnett et al.（NeurIPS 2025）“不公平来自词表设计非语言本身”（A03/E01/R01/S02）
Bender & Koller（ACL 2020）“纯形式训练原则上无法习得意义”（A01/A05/G02/S02）
LeCun “自回归 LLM 是死路，需世界模型 JEPA”（G01）
Gary Marcus “神经-符号混合才是出路”（G01）
Sperber & Wilson 关联理论”四准则冗余”（A02/E02/R02/S02/R03）
涌现/scaling 派”理解就是足够好的预测”（A01/A05/G02/S03）
增长团队”英语优先 MVP、快速复制”（E03/A04/S01/S03）
技术乐观派”基础模型变好，溢价/语域问题自然消失”（E03/S03）
翻译 benchmark 务实派”翻译+自动指标是务实工程权衡”（R03）
CJK 逻辑文字派”无空格边界天然增加分词难度”（A03/E01）

Failure scenario 清单（≥5 处）

六层剖面在端到端纯生成式架构下退化为思维工具而非架构组件（S01）
“全栈系统约束”论在纯工具型/超早期 PMF 前/单一高资源语言市场失效（S03/E03/A04）
token premium↔质量因果链有争议——省 token ≠ 省钱、≠ 质量好（A03/E01/R01）
语言相对性若颜色/空间研究也被推翻，A06 类比力度需下调（A06）
“英语内部表示”可能是 logit lens 探针的解码伪影（A06）
语用工程在纯代码/数学 prompt、高资源近邻语言对上收益趋零（E02/R02）

Confirmation-bias 砍除清单（≥5 处）

“中文比英语省 token（DeepSeek 0.65×）“砍除——Ren et al. 2026 实测多模型反而更贵（A03/E01/R01/S03）
“统计范式是过渡期笨办法”砍除——next-token prediction 是 LLM 直系祖先（G01）
“LLM 直译一律翻车”砍除——高资源信息型文本上 WMT24/Lokalise 显示鸿沟已小（A04）
“用 Grice 就能解决语用”砍除——补入跨文化语用学反例（A01）
“拉美问题都归因于语言学复杂度”砍除——定价/网络效应/监管才是更多真因（E03）
“非英语全面吃亏”砍除——分词层是”语言相关”非”非英语必输”（S03）

§8 关联节点（双链密度 ≥20）

本专题 17 节点（按模块）

01 概念辨析：A01 计算语言学与 LLM 概念谱系 · A02 语用学与 Prompt 设计 · A03 多语言 Tokenization 效率差异 · A04 翻译≠本地化 · A05 理解与生成的不对称 · A06 语言相对性与 LLM 跨语言偏差 02 代际演化：G01 计算语言学与 NLP 代际谱系总图 · G02 NLP 代际演化详解 03 架构剖面：S01 多语言 LLM 产品分层剖面 · S02 语言学视角 × LLM 现象对照矩阵 · S03 多语言 AI 产品全景 04 实例剖解：E01 多语言 Tokenization 成本剖解 · E02 跨文化 Prompt 与本地化剖解 · E03 拉美多语言 AI 产品剖解 05 复现指南：R01 测多语言 Tokenization 效率 · R02 语用学增强 Prompt 设计 · R03 多语言质量评估

升级对照的既有 AI 节点

c02 - Tokenization 与词表工程 · Tokenization · 幻觉 · m209 - 推理成本控制手册 · Embedding · 范式 · Constitutional AI · Claude · Gemini · ChatGPT

跨域 / Rick 不公平资产节点

人类学 · 民族志 · 0117社会学 · 拉美知识图 · CPF实名验证 · PAX-Premium实名徽章 · PDP现金支付纠纷治理 · 纠纷治理从裁判到管家 · 乘客信息透明化 · 墨西哥 · 阿根廷 · 哥伦比亚 · 秘鲁 · 新自由主义如何摧毁全球南方 · 中等收入陷阱 · 如何做田野笔记

回链总图

AI PM 知识图谱·总索引