A01 计算语言学与 LLM 概念谱系
A01 计算语言学与 LLM 概念谱系
问题陈述:今天绝大多数 AI 工程师和 PM,是从「机器学习」一侧进入语言模型的——token、loss、attention、scaling law。他们脑中的”语言”是一串被切碎的整数序列(参见 c02 - Tokenization 与词表工程),而不是一个有形态、句法、语义、语用四层结构的系统。本节点要解决的问题是:计算语言学(Computational Linguistics, CL)的哪些分支与 LLM 产品真实相关,为什么从纯工程视角进入的人会系统性地看不见它们,以及看不见的代价是什么。 本节采用的框架不是”语言学知识科普”,而是一张诊断地图——它的判断主轴是:不懂语言学的 PM,会把所有多语言/跨文化问题降维成”翻译一下”,从而漏掉一整类结构性陷阱。
§0 为什么是”语言学谱系”这个框架,而不是”NLP 技术栈”
读者脑中默认的框架大概率是这样一条线:规则系统 → 统计 NLP → 神经网络 → Transformer → LLM。这是一部”方法进步史”,它讲的是”我们用什么算法处理语言”。这条线是对的,但它回答错了问题——它回答的是”工程手段怎么演化”,而本专题要问的是”语言本身有哪些结构层次,LLM 在每一层各踩了什么坑”。
这两个框架的差别是致命的。“技术栈”框架下,语言是被处理的对象,处理得越来越好,问题就越来越少——这是一部线性进步叙事(恰是写作宪章 §7 警告的反模式)。“语言学谱系”框架下,语言有四个相对独立的结构层(形态 morphology / 句法 syntax / 语义 semantics / 语用 pragmatics),LLM 在不同层上的能力严重不均衡:它在形态和句法上强得惊人(Mahowald 等人 2024 称之为”形式语言能力”(formal linguistic competence)),但在语义接地和语用推断上摇摆不定(“功能语言能力”,functional competence)。
[!note] 框架级辨析 选”谱系”而非”技术栈”,是因为只有分层视角能解释”为什么模型流利却不可靠”。一个把语言看成单一序列的人,会把幻觉、跨文化失误、多语言成本溢价当成”还没训够”的暂时问题;而一个有分层视角的人,会立刻定位:幻觉是语义/语用层的真值与合作原则违反(见 幻觉),多语言成本是形态层在 tokenization 上的不公平(见下文 §3),翻译失败是语用/文化层的不可压缩性。框架决定了你把问题归到”再等等”还是”这是结构性的,要单独设计”。
§1 计算语言学是什么——以及它和 NLP、自然语言理解的三层辨析
先挡掉三个最常被混用的术语:
| 术语 | 学科定位 | 核心问题 | 与 LLM 的关系 |
|---|---|---|---|
| 计算语言学(CL) | 语言学的子学科,关注语言的计算建模 | 人类语言的结构能否、如何被形式化与计算 | 提供”语言有哪些层”的理论坐标系 |
| 自然语言处理(NLP) | 计算机科学的子领域,关注工程任务 | 怎么让机器完成翻译/摘要/问答等任务 | LLM 是 NLP 的当前主导范式 |
| 自然语言理解(NLU) | NLP 内部的目标态,关注意义习得 | 机器能否从形式习得意义 | Bender & Koller(2020, ACL)的”章鱼思想实验”指出:仅在形式上训练原则上无法习得意义 |
历史上 CL 与 NLP 几乎同义(都源自 1950 年代机器翻译的冷战投资);但近二十年分化了:NLP 被工程任务和 benchmark 驱动,越来越像应用机器学习;CL 守住”语言作为研究对象”的学科身份。这个分化恰恰是工程视角盲区的根源——从 NLP/ML 进入的人,继承的是任务清单(翻译、摘要、分类),而不是语言结构清单(形态、句法、语义、语用)。任务清单告诉你”做什么”,结构清单告诉你”在哪会错”。
判断:CL 不是 NLP 的”前史”或”被取代的老方法”,而是一套正交的诊断坐标系。 把它当历史,是 §0 那个”技术栈”框架的延伸误判。
§2 四个分支与 LLM 产品的真实耦合
下面这张表是本节点的骨架。每一行是一个语言学层次,列出它”是什么”、“LLM 在这层的真实状态”、以及”PM 在哪个决策上会因为不懂它而踩坑”。
| 层次 | 研究什么 | LLM 在此层的状态 | PM 决策踩坑点 |
|---|---|---|---|
| 形态学 Morphology | 词如何由词素构成(前缀/词根/屈折) | 完全被 tokenizer 掩盖——BPE 不懂词素边界,把屈折丰富的语言切碎 | 多语言成本估算:土耳其语/芬兰语/CJK 的 token 溢价(见 0413 成本工程专题、Tokenization) |
| 句法学 Syntax | 词如何组合成合法结构(短语/从句/依存) | 最强项;模型几乎完美掌握英语句法,跨语言句法迁移亦不错 | 容易误以为句法强 = 理解强(形式≠功能陷阱) |
| 语义学 Semantics | 表达式如何指向意义/真值/指称 | 不稳定;指称消解、真值维护是幻觉重灾区 | 可靠性设计:把流利当准确,省掉事实核查(见 幻觉) |
| 语用学 Pragmatics | 语境如何决定言外之意(含义/言语行为) | 最摇摆;间接请求、会话含义需专门 prompt 才能稳 | Prompt 设计 / 本地化:把”翻译”当”本地化”,漏掉文化语用差异 |
这四层里,工程视角最容易看见的是句法(因为它最接近”规则”,最像代码),最容易看不见的是形态和语用——而恰恰是这两层埋着最贵的产品陷阱。
- 形态层的隐形:工程师看到的是 token id,看不到 token 背后是一个被腰斩的词素。土耳其语
evlerinizden(“从你们的房子们”)是一个词,承载了英语需要五个词表达的信息(house+plural+your+from)。BPE 不知道这是一个词,会按字节频率切碎它——结果是屈折语/黏着语的 token 溢价系统性偏高(这正是 c02 - Tokenization 与词表工程 §2.3 “小语种被拆成字节级碎片”讲的现象,本节点从形态学侧给出为什么:不是语言”难”,而是 tokenizer 的词表是按以英语为主的语料统计出来的,对非英语形态结构盲视)。 - 语用层的隐形:工程师把对话当成”输入 → 输出”的函数,看不到 Grice(1975)所说的会话含义——“能把盐递给我吗”字面是能力问句,实际是请求。LLM 处理这类间接言语行为需要专门的链式推理(Kim, Taylor & Kang 2023, arXiv:2305.13826 证明 Chain-of-Thought + Grice 四准则可让模型在会话含义理解上超过人类均值)。一个不懂语用的 PM,会以为”把英文 prompt 翻成中文”就完成了本地化,而漏掉中文语境下的礼貌策略、间接程度、面子机制完全不同。
§3 判断主轴——“翻译一下”思维埋的五个结构性陷阱
⭐ 这是本节点的命门:90% 从工程侧进入的人,会把”多语言”理解为”在英语 pipeline 外面套一层翻译”。下面五个陷阱,每个都源于漏掉了某一个语言学层次。每条按 症状 → 为什么会错 → 正确做法 → 真实反例 拆。
陷阱一:把 token 成本当成语言无关的常数(漏掉形态层)
- 症状:用英语场景的 token 预算去估算葡语/西语/中文功能的成本,上线后账单超支。
- 为什么会错:以为 1 个概念 ≈ 固定 token 数。实际上 tokenizer 词表的英语偏向导致非英语 token 溢价。Ahia 等(EMNLP 2023, “Do All Languages Cost the Same?”) 测出泰卢固语、阿姆哈拉语等低资源语言的 token 溢价高达英语的 4–5 倍;Petrov 等(NeurIPS 2023, arXiv:2305.15425) 在 17 种 tokenizer 上测出跨语言长度差最高 15 倍。
- 正确做法:成本估算语言敏感化——CJK 在 GPT/Claude 上按英语 1.2–1.6× 规划,低资源语言可能数倍;RAG 的 chunk 边界用字符数而非 token 数(见 m209 - 推理成本控制手册)。
- 真实反例:Rick 在 99(滴滴巴西)做国际化产品,巴西葡语(pt-BR)在 Llama-2(32K 词表)上的 fertility 约为英语的 1.8–2.5 倍;切到 Llama-3(128K)或 Qwen 2.5(151,936 词表)后显著改善。把这个差异当常数,巴西场景的 LLM 成本会被系统性低估。
陷阱二:把句法流利当语义可靠(漏掉语义层)
- 症状:模型输出语法完美、读起来权威,于是省掉事实核查,结果上线幻觉。
- 为什么会错:混淆了 形式能力(强)与功能能力(弱)。句法是形式层,真值维护是功能层,二者在模型内部可能是分离的神经机制。
- 正确做法:把幻觉当成语用 Quality 准则 + 语义真值维护的双重失效来设计——硬编码”不确定就说不确定”的约束,关键事实强制 RAG 接地(见 幻觉)。
- 真实反例:Bender & Koller 的章鱼思想实验——一只只看过两个人电报往来(纯形式)的章鱼,能模仿对话却在真实求救(“被熊攻击了,怎么办”)时崩溃,因为它从未把符号接地到世界。注意:这个立场不是主流共识,是论证幻觉本质的有力工具,但反方(见 §5)认为它低估了大规模训练能逼近的功能能力。
陷阱三:把翻译等同于本地化(漏掉语用/文化层)
- 症状:产品文案、客服话术、安全提示直接机翻到目标市场,转化率/信任度莫名偏低。
- 为什么会错:翻译解决的是语义层的等价,本地化要解决的是语用层(礼貌策略、间接程度、言语行为的文化规约)和语言相对性层(颜色、空间、时间的认知框架差异)。Searle(1969)的五类言语行为在不同文化里的直接/间接表达偏好差异巨大;同一个 Directive(请求),中文倾向间接、英语可直接。
- 正确做法:本地化按言语行为类型重写而非逐句翻译;高风险话术(安全、支付、纠纷)由母语者按当地语用规约重构。
- 真实反例:Rick 在 99 做的 纠纷治理从裁判到管家、乘客信息透明化,巴西现金支付纠纷(PDP现金支付纠纷治理)场景里,“提示乘客确认”这句话的措辞,直译会显得机械甚至冒犯——这是语用层而非语义层的问题,机翻看不见。
陷阱四:把多语言能力当成均匀分布(漏掉训练数据的语言偏斜)
- 症状:假设模型在所有支持语言上能力一致,给低资源市场上同样的安全/质量承诺。
- 为什么会错:训练数据极度英语偏斜。Li 等(AAAI 2025, arXiv:2404.11553)核出 GPT-3 训练 token 约 92.65% 为英语、LLaMA 2 约 89.70%;性能与语料占比强相关。更隐蔽的是 Schut 等(2025, arXiv:2502.15603)用 logit lens 证明:多语言 LLM 处理语义实词时先生成接近英语的内部表示再翻译——它不是中立的多语言系统,而是有隐性英语中轴。
- 正确做法:低资源语言市场的质量/安全承诺要打折并单独评测;安全对齐在非英语上更脆弱(已有研究显示极少数据即可绕过非英语对齐)。
- 真实反例:拉美土著语言(瓜拉尼语、瓦尤语、马雅语系)在主流 tokenizer 上是字节级碎片,在训练数据里近乎不存在——对它们做产品承诺等于裸奔(呼应 人类学、民族志 视角:技术的”通用性”承诺往往以主导语言为隐性默认)。
陷阱五:把理解与生成当成对称能力(漏掉 NLU/NLG 不对称)
- 症状:因为模型”能生成”某语言的流利文本,就假设它”能理解”该语言的用户输入意图。
- 为什么会错:生成(NLG)与理解(NLU)在 LLM 里不对称。无约束生成计算上平凡,但约束下理解用户真实意图需要语用推断,是更难的问题。Kim 等(2025, CHI’25 LBW, arXiv:2503.00858)指出关键差异:LLM 难以推断上下文细微差异和用户意图,需在 prompt 中显式补偿。
- 正确做法:意图识别不能依赖”模型自己懂”,要按 Searle 五类言语行为显式分类(Directive / Representative / Commissive…)路由不同处理链;模糊 prompt 用 CoT + Gricean 推断意图后再执行。
- 真实反例:客服 bot 能生成流利的退款话术(NLG 强),却把”我朋友说你们这能退款是真的吗”(间接确认 + 转述)误判为直接退款请求(NLU 弱),错误触发流程。
§4 产品 PM 视角补盲——工程之外的三个看走眼点
跳出工程视角,语言学谱系还揭示三个非技术的盲区:
-
用户心理模型:用户对”会说我的语言”的 AI 会自动赋予更高的信任与能力预期(流利 = 可信的认知偏误)。这放大了陷阱二的风险——非英语用户更可能信任一个其实在该语言上更不可靠的系统。产品要在 UI 上对低资源语言显式标注置信度,而非让流利度替模型背书。
-
商业模式的语言税:Ahia 等发现 token 溢价与人类发展指数(HDI)负相关——越不发达地区的语言,用 AI 越贵。这意味着同一个按 token 计费的产品,对全球南方用户实质上更贵。对做拉美/非洲市场的 PM,这是定价公平性与单位经济模型的真问题(呼应 新自由主义如何摧毁全球南方、中等收入陷阱)。
-
合规边界:语用层的失误可能踩监管线。安全提示、风险告知、知情同意在不同司法辖区有法定话术要求,机翻可能导致法律意义上的”未充分告知”。这是语用/法律语用学的交叉地带,纯工程视角完全看不见。
§5 对手框架回应——接受 + 边界
本节点的核心论点是”语言学分层视角能看见工程视角的盲区”。但要诚实接入三个反方立场:
反方一:Emily Bender 派(强语言学立场)——“LLM 根本不理解语言”
- 接受:Bender & Koller、Bender 等的”随机鹦鹉”论文对”流利 ≠ 理解”的提醒是对的,本节点陷阱二正建立在此之上。
- 边界:但本专题不采纳其”原则上不可能”的强结论。Mahowald 等(2024, Trends in Cognitive Sciences)提供了更可操作的折中——形式/功能分离,功能能力可通过专项训练改善而非永久不可达。PM 决策需要”在哪条件下可靠”的分层判断,而不是”永远不行”的哲学终判。本节点赌的是:语言学分层能预测失效位置,但不预设失效不可修复。
反方二:纯 scaling 派——“语言学知识是过时的先验,规模会抹平一切”
- 接受:句法、部分形态规律确实在 scaling 中被模型自发习得,不需要显式注入语法规则——这是 1990 年代统计 NLP 战胜规则系统、又被神经网络深化的真实历史,硬编码语言学规则的老路确实失败了。
- 边界:但 scaling 没有抹平语用和多语言不公平。Ma 等(ACL 2025, arXiv:2502.12378)综述确认:LLM 对含义、指称等语用现象的处理仍是重大挑战,专项数据集严重不足。tokenization 不公平更是结构性的,不会因为模型变大而消失(Arnett 等 NeurIPS 2025证明它来自词表设计而非规模)。本节点赌的是:语言学不是要回到规则系统,而是要当诊断坐标系——告诉你 scaling 在哪条层上还没赢。
反方三:Sperber & Wilson 关联理论(Rick 未读的对手框架,破 echo chamber)
- 本节点大量用 Grice 框架解释语用陷阱。但关联理论(Relevance Theory, 1986/1995)认为 Grice 的四准则冗余,可归约为一条关联原则:话语值得处理当且仅当认知效益超过处理成本。
- 若关联理论更接近人类实际机制,则 prompt 优化应聚焦”降低模型推断成本 + 提高信息显著性”,而非按四准则逐条核查。本节点采用 Grice 是因为它对 PM 更可操作(四条准则可直接映射成约束),但承认这是工程便利的选择,不是理论上的胜出——这正是本节点的一处 failure scenario:如果未来证据偏向关联理论,§3 陷阱五的”按准则补偿”策略需要重构为”按显著性优化”。
[!warning] confirmation-bias 砍除 本节点早期叙述里,反复用 Grice/Searle 作为”语言学有用”的正面案例。这有 bias——它们都是西方分析哲学传统,对非西方语言的语用规约(如东亚的面子机制、拉美的关系本位)解释力有限。补入反例:跨文化语用学(cross-cultural pragmatics)显示直接/间接言语行为偏好高度文化依赖,不能用单一 Grice 框架统摄。这恰恰强化了陷阱三”翻译≠本地化”,但削弱了”用 Grice 就能解决语用”的乐观。
§6 跨域呼应——计算语言学史作为一面镜子
调度的跨域资源是 Kuhn 的范式(范式)+ 计算语言学学科史本身。
计算语言学史不是一部线性进步史,而是至少经历了一次”格式塔切换”:1950–80 年代的规则/符号范式(乔姆斯基生成语法的影响、机器翻译的规则系统、专家系统)相信语言可以被显式形式化为规则;1990 年代统计 NLP 兴起,到 2017 年后神经/Transformer 范式,转向”从数据中习得”。这是 Kuhn 意义上不可通约的范式转移——两代人对”语言知识从哪来”的根本假设互斥。
这面镜子照出本节点要避开的两个对称错误:
- 复古派的错误:以为既然 LLM 有语用盲区,就该回到规则系统、把语言学规则硬编码进去。历史已经证明这条路在覆盖度上失败了。语言学的价值不是提供规则去注入,而是提供坐标系去诊断。
- scaling 派的错误:以为范式转移是”语言学被淘汰”。但 Kuhn 提醒:范式转移改变的是方法,不是研究对象。语言依然有四层结构;变的只是我们用统计而非规则去逼近它。淘汰的是规则方法,不是语言结构本身。
这个跨域呼应直接改变了一个技术判断:它让”该不该懂语言学”从一个”复古 vs 进步”的站队问题,变成一个”用什么坐标系定位失效”的工具问题。懂语言学不是怀旧,是拿到一张工程视角没有的诊断地图。(呼应 0117社会学 对技术知识社会建构的视角:什么算”语言知识”本身是范式决定的。)
§7 PM 决策启示——面试 / 选型 / 复现三类落地
-
面试桌:被问”怎么把产品做到拉美/东南亚多语言市场”,30 秒答法——“先分语言学四层定位风险:形态层看 token 成本(哪些语言溢价高、要不要换 tokenizer 友好的模型),语义层看可靠性(低资源语言幻觉率单独评测),语用层看本地化(高风险话术按言语行为重写而非机翻),再叠加训练数据偏斜(别给低资源语言同样的质量承诺)。‘翻译一下’是最贵的错。“这比”我们会做 i18n”高一个抽象层。
-
选型会:模型选型在 CJK/多语言密集场景,把 tokenizer 词表大小与目标语言 fertility 列为硬指标(Qwen/DeepSeek 在中文上有结构性 token 经济优势,见 Tokenization);不要只比英语 benchmark。
-
复现台:做多语言 prompt engineering 时,对模糊/间接输入显式加 Gricean CoT 推断意图(Kim et al. 2023 方法可直接复用);意图识别按 Searle 五类路由。
§8 与已有节点的关系
| 旧节点 | 本节点做的事 | 类型 |
|---|---|---|
| c02 - Tokenization 与词表工程 | c02 从工程侧讲 BPE 机制与产品影响;本节点从形态学侧解释”为什么”非英语会被切碎——不是语言难,是词表对形态结构盲视。不复述 BPE 机制 | 深化 / 对话 |
| Tokenization | 概念卡给出词表演化数据;本节点提供其上层的语言学坐标系(形态层) | 升高抽象层 |
| 幻觉 | 幻觉节点讲机制;本节点把幻觉重新定位为语义真值 + 语用 Quality 准则的双重失效 | 纠偏 / 重定位 |
| m209 - 推理成本控制手册 | 成本手册给方法;本节点给”成本为何语言敏感”的语言学根因 | 补缺 |
不复述这些节点已有的事实基础(BPE 算法、词表数字、幻觉成因),只做坐标系级的对话。
§9 关联节点
核心(必读)
延伸(可选)
注:本节点引用的多个语言学/LLM 研究双链(如
Bender & Koller 2020 形式与意义、Grice、Searle 言语行为、Mahowald et al. 2024 形式与功能能力分离等)为本专题计划新建节点,入库时统一补 frontmatter aliases 并登记概念词典;本节点落盘时这些为前向引用(forward link),由后续节点建设 resolve。
修订日志
- R0(2026-06-07):首稿。建立”语言学四层诊断坐标系 vs 工程技术栈”的框架级辨析;判断主轴落在”翻译一下”思维的五个结构性陷阱(形态/语义/语用/数据偏斜/NLU-NLG 不对称各一);接入三个对手框架(Bender 强语言学立场、纯 scaling 派、Sperber-Wilson 关联理论作为 Rick 未读框架);跨域呼应用 Kuhn 范式 + 计算语言学史;显式迁移 Rick 的 99 巴西/拉美 fieldwork(CPF、纠纷治理、葡语 fertility)。事实接地:Grice 1975、Austin 1962、Searle 1969、Bender & Koller 2020、Mahowald 2024、Petrov NeurIPS 2023、Ahia EMNLP 2023、Li AAAI 2025、Schut 2025、Kim 2023/2025、Ma ACL 2025、Arnett NeurIPS 2025 均经简报 WebSearch/WebFetch 核实。葡语 fertility 1.8–2.5× 为简报集成包数据,标范围。
- 2026-06-11 P3.4 校链:§1 形态学行的纯文本”见 0413 专题”恢复为真链 0413 成本工程专题(该专题已入库)。本节点对 Bender/Grice/Searle/Mahowald 等研究的引用仍为前向引用(真·待建概念节点,保留不动)。
- 2026-06-12 内审修复:§1 形态学行的
0413 总览死链改为真实 basename[_成本工程系统化专题·总览](/kb/专题-工程与成本/_成本工程系统化专题-总览/)(保留显示别名)——0413 总览在全 vault 不存在。