A01 计算语言学与 LLM 概念谱系

问题陈述：今天绝大多数 AI 工程师和 PM，是从「机器学习」一侧进入语言模型的——token、loss、attention、scaling law。他们脑中的”语言”是一串被切碎的整数序列（参见 c02 - Tokenization 与词表工程），而不是一个有形态、句法、语义、语用四层结构的系统。本节点要解决的问题是：计算语言学（Computational Linguistics, CL）的哪些分支与 LLM 产品真实相关，为什么从纯工程视角进入的人会系统性地看不见它们，以及看不见的代价是什么。本节采用的框架不是”语言学知识科普”，而是一张诊断地图——它的判断主轴是：不懂语言学的 PM，会把所有多语言/跨文化问题降维成”翻译一下”，从而漏掉一整类结构性陷阱。

§0 为什么是”语言学谱系”这个框架，而不是”NLP 技术栈”

读者脑中默认的框架大概率是这样一条线：规则系统 → 统计 NLP → 神经网络 → Transformer → LLM。这是一部”方法进步史”，它讲的是”我们用什么算法处理语言”。这条线是对的，但它回答错了问题——它回答的是”工程手段怎么演化”，而本专题要问的是”语言本身有哪些结构层次，LLM 在每一层各踩了什么坑”。

这两个框架的差别是致命的。“技术栈”框架下，语言是被处理的对象，处理得越来越好，问题就越来越少——这是一部线性进步叙事（恰是写作宪章 §7 警告的反模式）。“语言学谱系”框架下，语言有四个相对独立的结构层（形态 morphology / 句法 syntax / 语义 semantics / 语用 pragmatics），LLM 在不同层上的能力严重不均衡：它在形态和句法上强得惊人（Mahowald 等人 2024 称之为”形式语言能力”（formal linguistic competence）），但在语义接地和语用推断上摇摆不定（“功能语言能力”，functional competence）。

[!note] 框架级辨析选”谱系”而非”技术栈”，是因为只有分层视角能解释”为什么模型流利却不可靠”。一个把语言看成单一序列的人，会把幻觉、跨文化失误、多语言成本溢价当成”还没训够”的暂时问题；而一个有分层视角的人，会立刻定位：幻觉是语义/语用层的真值与合作原则违反（见幻觉），多语言成本是形态层在 tokenization 上的不公平（见下文 §3），翻译失败是语用/文化层的不可压缩性。框架决定了你把问题归到”再等等”还是”这是结构性的，要单独设计”。

§1 计算语言学是什么——以及它和 NLP、自然语言理解的三层辨析

先挡掉三个最常被混用的术语：

术语	学科定位	核心问题	与 LLM 的关系
计算语言学（CL）	语言学的子学科，关注语言的计算建模	人类语言的结构能否、如何被形式化与计算	提供”语言有哪些层”的理论坐标系
自然语言处理（NLP）	计算机科学的子领域，关注工程任务	怎么让机器完成翻译/摘要/问答等任务	LLM 是 NLP 的当前主导范式
自然语言理解（NLU）	NLP 内部的目标态，关注意义习得	机器能否从形式习得意义	Bender & Koller（2020, ACL）的”章鱼思想实验”指出：仅在形式上训练原则上无法习得意义

历史上 CL 与 NLP 几乎同义（都源自 1950 年代机器翻译的冷战投资）；但近二十年分化了：NLP 被工程任务和 benchmark 驱动，越来越像应用机器学习；CL 守住”语言作为研究对象”的学科身份。这个分化恰恰是工程视角盲区的根源——从 NLP/ML 进入的人，继承的是任务清单（翻译、摘要、分类），而不是语言结构清单（形态、句法、语义、语用）。任务清单告诉你”做什么”，结构清单告诉你”在哪会错”。

判断：CL 不是 NLP 的”前史”或”被取代的老方法”，而是一套正交的诊断坐标系。 把它当历史，是 §0 那个”技术栈”框架的延伸误判。

§2 四个分支与 LLM 产品的真实耦合

下面这张表是本节点的骨架。每一行是一个语言学层次，列出它”是什么”、“LLM 在这层的真实状态”、以及”PM 在哪个决策上会因为不懂它而踩坑”。

层次	研究什么	LLM 在此层的状态	PM 决策踩坑点
形态学 Morphology	词如何由词素构成（前缀/词根/屈折）	完全被 tokenizer 掩盖——BPE 不懂词素边界，把屈折丰富的语言切碎	多语言成本估算：土耳其语/芬兰语/CJK 的 token 溢价（见 0413 成本工程专题、Tokenization）
句法学 Syntax	词如何组合成合法结构（短语/从句/依存）	最强项；模型几乎完美掌握英语句法，跨语言句法迁移亦不错	容易误以为句法强 = 理解强（形式≠功能陷阱）
语义学 Semantics	表达式如何指向意义/真值/指称	不稳定；指称消解、真值维护是幻觉重灾区	可靠性设计：把流利当准确，省掉事实核查（见幻觉）
语用学 Pragmatics	语境如何决定言外之意（含义/言语行为）	最摇摆；间接请求、会话含义需专门 prompt 才能稳	Prompt 设计 / 本地化：把”翻译”当”本地化”，漏掉文化语用差异

这四层里，工程视角最容易看见的是句法（因为它最接近”规则”，最像代码），最容易看不见的是形态和语用——而恰恰是这两层埋着最贵的产品陷阱。

形态层的隐形：工程师看到的是 token id，看不到 token 背后是一个被腰斩的词素。土耳其语 evlerinizden（“从你们的房子们”）是一个词，承载了英语需要五个词表达的信息（house+plural+your+from）。BPE 不知道这是一个词，会按字节频率切碎它——结果是屈折语/黏着语的 token 溢价系统性偏高（这正是 c02 - Tokenization 与词表工程 §2.3 “小语种被拆成字节级碎片”讲的现象，本节点从形态学侧给出为什么：不是语言”难”，而是 tokenizer 的词表是按以英语为主的语料统计出来的，对非英语形态结构盲视）。
语用层的隐形：工程师把对话当成”输入 → 输出”的函数，看不到 Grice（1975）所说的会话含义——“能把盐递给我吗”字面是能力问句，实际是请求。LLM 处理这类间接言语行为需要专门的链式推理（Kim, Taylor & Kang 2023, arXiv:2305.13826 证明 Chain-of-Thought + Grice 四准则可让模型在会话含义理解上超过人类均值）。一个不懂语用的 PM，会以为”把英文 prompt 翻成中文”就完成了本地化，而漏掉中文语境下的礼貌策略、间接程度、面子机制完全不同。

§3 判断主轴——“翻译一下”思维埋的五个结构性陷阱

⭐ 这是本节点的命门：90% 从工程侧进入的人，会把”多语言”理解为”在英语 pipeline 外面套一层翻译”。下面五个陷阱，每个都源于漏掉了某一个语言学层次。每条按 症状 → 为什么会错 → 正确做法 → 真实反例 拆。

陷阱一：把 token 成本当成语言无关的常数（漏掉形态层）

症状：用英语场景的 token 预算去估算葡语/西语/中文功能的成本，上线后账单超支。
为什么会错：以为 1 个概念 ≈ 固定 token 数。实际上 tokenizer 词表的英语偏向导致非英语 token 溢价。Ahia 等（EMNLP 2023, “Do All Languages Cost the Same?”）测出泰卢固语、阿姆哈拉语等低资源语言的 token 溢价高达英语的 4–5 倍；Petrov 等（NeurIPS 2023, arXiv:2305.15425）在 17 种 tokenizer 上测出跨语言长度差最高 15 倍。
正确做法：成本估算语言敏感化——CJK 在 GPT/Claude 上按英语 1.2–1.6× 规划，低资源语言可能数倍；RAG 的 chunk 边界用字符数而非 token 数（见 m209 - 推理成本控制手册）。
真实反例：Rick 在 99（滴滴巴西）做国际化产品，巴西葡语（pt-BR）在 Llama-2（32K 词表）上的 fertility 约为英语的 1.8–2.5 倍；切到 Llama-3（128K）或 Qwen 2.5（151,936 词表）后显著改善。把这个差异当常数，巴西场景的 LLM 成本会被系统性低估。

陷阱二：把句法流利当语义可靠（漏掉语义层）

症状：模型输出语法完美、读起来权威，于是省掉事实核查，结果上线幻觉。
为什么会错：混淆了形式能力（强）与功能能力（弱）。句法是形式层，真值维护是功能层，二者在模型内部可能是分离的神经机制。
正确做法：把幻觉当成语用 Quality 准则 + 语义真值维护的双重失效来设计——硬编码”不确定就说不确定”的约束，关键事实强制 RAG 接地（见幻觉）。
真实反例：Bender & Koller 的章鱼思想实验——一只只看过两个人电报往来（纯形式）的章鱼，能模仿对话却在真实求救（“被熊攻击了，怎么办”）时崩溃，因为它从未把符号接地到世界。注意：这个立场不是主流共识，是论证幻觉本质的有力工具，但反方（见 §5）认为它低估了大规模训练能逼近的功能能力。

陷阱三：把翻译等同于本地化（漏掉语用/文化层）

症状：产品文案、客服话术、安全提示直接机翻到目标市场，转化率/信任度莫名偏低。
为什么会错：翻译解决的是语义层的等价，本地化要解决的是语用层（礼貌策略、间接程度、言语行为的文化规约）和语言相对性层（颜色、空间、时间的认知框架差异）。Searle（1969）的五类言语行为在不同文化里的直接/间接表达偏好差异巨大；同一个 Directive（请求），中文倾向间接、英语可直接。
正确做法：本地化按言语行为类型重写而非逐句翻译；高风险话术（安全、支付、纠纷）由母语者按当地语用规约重构。
真实反例：Rick 在 99 做的纠纷治理从裁判到管家、乘客信息透明化，巴西现金支付纠纷（PDP现金支付纠纷治理）场景里，“提示乘客确认”这句话的措辞，直译会显得机械甚至冒犯——这是语用层而非语义层的问题，机翻看不见。

陷阱四：把多语言能力当成均匀分布（漏掉训练数据的语言偏斜）

症状：假设模型在所有支持语言上能力一致，给低资源市场上同样的安全/质量承诺。
为什么会错：训练数据极度英语偏斜。Li 等（AAAI 2025, arXiv:2404.11553）核出 GPT-3 训练 token 约 92.65% 为英语、LLaMA 2 约 89.70%；性能与语料占比强相关。更隐蔽的是 Schut 等（2025, arXiv:2502.15603）用 logit lens 证明：多语言 LLM 处理语义实词时先生成接近英语的内部表示再翻译——它不是中立的多语言系统，而是有隐性英语中轴。
正确做法：低资源语言市场的质量/安全承诺要打折并单独评测；安全对齐在非英语上更脆弱（已有研究显示极少数据即可绕过非英语对齐）。
真实反例：拉美土著语言（瓜拉尼语、瓦尤语、马雅语系）在主流 tokenizer 上是字节级碎片，在训练数据里近乎不存在——对它们做产品承诺等于裸奔（呼应人类学、民族志视角：技术的”通用性”承诺往往以主导语言为隐性默认）。

陷阱五：把理解与生成当成对称能力（漏掉 NLU/NLG 不对称）

症状：因为模型”能生成”某语言的流利文本，就假设它”能理解”该语言的用户输入意图。
为什么会错：生成（NLG）与理解（NLU）在 LLM 里不对称。无约束生成计算上平凡，但约束下理解用户真实意图需要语用推断，是更难的问题。Kim 等（2025, CHI’25 LBW, arXiv:2503.00858）指出关键差异：LLM 难以推断上下文细微差异和用户意图，需在 prompt 中显式补偿。
正确做法：意图识别不能依赖”模型自己懂”，要按 Searle 五类言语行为显式分类（Directive / Representative / Commissive…）路由不同处理链；模糊 prompt 用 CoT + Gricean 推断意图后再执行。
真实反例：客服 bot 能生成流利的退款话术（NLG 强），却把”我朋友说你们这能退款是真的吗”（间接确认 + 转述）误判为直接退款请求（NLU 弱），错误触发流程。

§4 产品 PM 视角补盲——工程之外的三个看走眼点

跳出工程视角，语言学谱系还揭示三个非技术的盲区：

用户心理模型：用户对”会说我的语言”的 AI 会自动赋予更高的信任与能力预期（流利 = 可信的认知偏误）。这放大了陷阱二的风险——非英语用户更可能信任一个其实在该语言上更不可靠的系统。产品要在 UI 上对低资源语言显式标注置信度，而非让流利度替模型背书。
商业模式的语言税：Ahia 等发现 token 溢价与人类发展指数（HDI）负相关——越不发达地区的语言，用 AI 越贵。这意味着同一个按 token 计费的产品，对全球南方用户实质上更贵。对做拉美/非洲市场的 PM，这是定价公平性与单位经济模型的真问题（呼应新自由主义如何摧毁全球南方、中等收入陷阱）。
合规边界：语用层的失误可能踩监管线。安全提示、风险告知、知情同意在不同司法辖区有法定话术要求，机翻可能导致法律意义上的”未充分告知”。这是语用/法律语用学的交叉地带，纯工程视角完全看不见。

§5 对手框架回应——接受 + 边界

本节点的核心论点是”语言学分层视角能看见工程视角的盲区”。但要诚实接入三个反方立场：

反方一：Emily Bender 派（强语言学立场）——“LLM 根本不理解语言”

接受：Bender & Koller、Bender 等的”随机鹦鹉”论文对”流利 ≠ 理解”的提醒是对的，本节点陷阱二正建立在此之上。
边界：但本专题不采纳其”原则上不可能”的强结论。Mahowald 等（2024, Trends in Cognitive Sciences）提供了更可操作的折中——形式/功能分离，功能能力可通过专项训练改善而非永久不可达。PM 决策需要”在哪条件下可靠”的分层判断，而不是”永远不行”的哲学终判。本节点赌的是：语言学分层能预测失效位置，但不预设失效不可修复。

反方二：纯 scaling 派——“语言学知识是过时的先验，规模会抹平一切”

接受：句法、部分形态规律确实在 scaling 中被模型自发习得，不需要显式注入语法规则——这是 1990 年代统计 NLP 战胜规则系统、又被神经网络深化的真实历史，硬编码语言学规则的老路确实失败了。
边界：但 scaling 没有抹平语用和多语言不公平。Ma 等（ACL 2025, arXiv:2502.12378）综述确认：LLM 对含义、指称等语用现象的处理仍是重大挑战，专项数据集严重不足。tokenization 不公平更是结构性的，不会因为模型变大而消失（Arnett 等 NeurIPS 2025证明它来自词表设计而非规模）。本节点赌的是：语言学不是要回到规则系统，而是要当诊断坐标系——告诉你 scaling 在哪条层上还没赢。

反方三：Sperber & Wilson 关联理论（Rick 未读的对手框架，破 echo chamber）

本节点大量用 Grice 框架解释语用陷阱。但关联理论（Relevance Theory, 1986/1995）认为 Grice 的四准则冗余，可归约为一条关联原则：话语值得处理当且仅当认知效益超过处理成本。
若关联理论更接近人类实际机制，则 prompt 优化应聚焦”降低模型推断成本 + 提高信息显著性”，而非按四准则逐条核查。本节点采用 Grice 是因为它对 PM 更可操作（四条准则可直接映射成约束），但承认这是工程便利的选择，不是理论上的胜出——这正是本节点的一处 failure scenario：如果未来证据偏向关联理论，§3 陷阱五的”按准则补偿”策略需要重构为”按显著性优化”。

[!warning] confirmation-bias 砍除本节点早期叙述里，反复用 Grice/Searle 作为”语言学有用”的正面案例。这有 bias——它们都是西方分析哲学传统，对非西方语言的语用规约（如东亚的面子机制、拉美的关系本位）解释力有限。补入反例：跨文化语用学（cross-cultural pragmatics）显示直接/间接言语行为偏好高度文化依赖，不能用单一 Grice 框架统摄。这恰恰强化了陷阱三”翻译≠本地化”，但削弱了”用 Grice 就能解决语用”的乐观。

§6 跨域呼应——计算语言学史作为一面镜子

调度的跨域资源是 Kuhn 的范式（范式）+ 计算语言学学科史本身。

计算语言学史不是一部线性进步史，而是至少经历了一次”格式塔切换”：1950–80 年代的规则/符号范式（乔姆斯基生成语法的影响、机器翻译的规则系统、专家系统）相信语言可以被显式形式化为规则；1990 年代统计 NLP 兴起，到 2017 年后神经/Transformer 范式，转向”从数据中习得”。这是 Kuhn 意义上不可通约的范式转移——两代人对”语言知识从哪来”的根本假设互斥。

这面镜子照出本节点要避开的两个对称错误：

复古派的错误：以为既然 LLM 有语用盲区，就该回到规则系统、把语言学规则硬编码进去。历史已经证明这条路在覆盖度上失败了。语言学的价值不是提供规则去注入，而是提供坐标系去诊断。
scaling 派的错误：以为范式转移是”语言学被淘汰”。但 Kuhn 提醒：范式转移改变的是方法，不是研究对象。语言依然有四层结构；变的只是我们用统计而非规则去逼近它。淘汰的是规则方法，不是语言结构本身。

这个跨域呼应直接改变了一个技术判断：它让”该不该懂语言学”从一个”复古 vs 进步”的站队问题，变成一个”用什么坐标系定位失效”的工具问题。懂语言学不是怀旧，是拿到一张工程视角没有的诊断地图。（呼应 0117社会学对技术知识社会建构的视角：什么算”语言知识”本身是范式决定的。）

§7 PM 决策启示——面试 / 选型 / 复现三类落地

面试桌：被问”怎么把产品做到拉美/东南亚多语言市场”，30 秒答法——“先分语言学四层定位风险：形态层看 token 成本（哪些语言溢价高、要不要换 tokenizer 友好的模型），语义层看可靠性（低资源语言幻觉率单独评测），语用层看本地化（高风险话术按言语行为重写而非机翻），再叠加训练数据偏斜（别给低资源语言同样的质量承诺）。‘翻译一下’是最贵的错。“这比”我们会做 i18n”高一个抽象层。
选型会：模型选型在 CJK/多语言密集场景，把 tokenizer 词表大小与目标语言 fertility 列为硬指标（Qwen/DeepSeek 在中文上有结构性 token 经济优势，见 Tokenization）；不要只比英语 benchmark。
复现台：做多语言 prompt engineering 时，对模糊/间接输入显式加 Gricean CoT 推断意图（Kim et al. 2023 方法可直接复用）；意图识别按 Searle 五类路由。

§8 与已有节点的关系

旧节点	本节点做的事	类型
c02 - Tokenization 与词表工程	c02 从工程侧讲 BPE 机制与产品影响；本节点从形态学侧解释”为什么”非英语会被切碎——不是语言难，是词表对形态结构盲视。不复述 BPE 机制	深化 / 对话
Tokenization	概念卡给出词表演化数据；本节点提供其上层的语言学坐标系（形态层）	升高抽象层
幻觉	幻觉节点讲机制；本节点把幻觉重新定位为语义真值 + 语用 Quality 准则的双重失效	纠偏 / 重定位
m209 - 推理成本控制手册	成本手册给方法；本节点给”成本为何语言敏感”的语言学根因	补缺

不复述这些节点已有的事实基础（BPE 算法、词表数字、幻觉成因），只做坐标系级的对话。

§9 关联节点

核心（必读）

延伸（可选）

人类学
民族志
0117社会学
范式
Claude
Gemini
ChatGPT
新自由主义如何摧毁全球南方
中等收入陷阱
纠纷治理从裁判到管家
乘客信息透明化
PDP现金支付纠纷治理

注：本节点引用的多个语言学/LLM 研究双链（如 Bender & Koller 2020 形式与意义、Grice、Searle 言语行为、Mahowald et al. 2024 形式与功能能力分离 等）为本专题计划新建节点，入库时统一补 frontmatter aliases 并登记概念词典；本节点落盘时这些为前向引用（forward link），由后续节点建设 resolve。

修订日志

R0（2026-06-07）：首稿。建立”语言学四层诊断坐标系 vs 工程技术栈”的框架级辨析；判断主轴落在”翻译一下”思维的五个结构性陷阱（形态/语义/语用/数据偏斜/NLU-NLG 不对称各一）；接入三个对手框架（Bender 强语言学立场、纯 scaling 派、Sperber-Wilson 关联理论作为 Rick 未读框架）；跨域呼应用 Kuhn 范式 + 计算语言学史；显式迁移 Rick 的 99 巴西/拉美 fieldwork（CPF、纠纷治理、葡语 fertility）。事实接地：Grice 1975、Austin 1962、Searle 1969、Bender & Koller 2020、Mahowald 2024、Petrov NeurIPS 2023、Ahia EMNLP 2023、Li AAAI 2025、Schut 2025、Kim 2023/2025、Ma ACL 2025、Arnett NeurIPS 2025 均经简报 WebSearch/WebFetch 核实。葡语 fertility 1.8–2.5× 为简报集成包数据，标范围。
2026-06-11 P3.4 校链：§1 形态学行的纯文本”见 0413 专题”恢复为真链 0413 成本工程专题（该专题已入库）。本节点对 Bender/Grice/Searle/Mahowald 等研究的引用仍为前向引用（真·待建概念节点，保留不动）。
2026-06-12 内审修复：§1 形态学行的 0413 总览 死链改为真实 basename [_成本工程系统化专题·总览](/kb/专题-工程与成本/_成本工程系统化专题-总览/)（保留显示别名）——0413 总览 在全 vault 不存在。