G02 NLP 代际演化详解

G01 计算语言学与 NLP 代际谱系总图给了一张总图——把 NLP 从「规则」到「LLM」的代际更替放进一条主轴：每一代都在「语言学知识要不要显式编码进系统」这个问题上选边站，而每一次代际革命，都是从语言学家手里把一块阵地交给数据与统计。本节点不复述那张总图的框架，而是做总图压不下去的那件事——逐代展开：每一代取一张统一的「病历卡」，写清楚它的代表方法／系统（带核证年份）、语言学立场、推动力、瓶颈、被下一代如何超越、LLM 时代它的语言学位置，并在每代末尾钉一个反例，专门戳破「这一代终于让机器懂语言了」的幻觉。

[!warning] 本节点与 G01 的分工 G01 回答「这几代是不是一部『机器越来越懂语言』的进步史」（总判断）。G02 回答「每一代具体长什么样、在哪一年、语言学家站在什么立场、被什么超越、那次超越算不算真懂了语言」（逐代证据）。读 G01 拿框架，读 G02 拿弹药。两者共用同一条主轴：没有任何一代真正解决了「形式 vs 意义」的根问题（幻觉即其当代症状），代际更替只是不断把『理解』偷换成一个新的、当时还没暴露破绽的代理任务——从字符串匹配到下一个 token 的概率。

[!note] 病历卡六栏（每代统一格式） ① 代表方法／系统（年份核证） ② 语言学立场（把语言学家放在系统的什么位置） ③ 推动力（为何此刻出现） ④ 瓶颈（为何被迫换代） ⑤ 被下一代如何超越（继承了什么、新增了什么） ⑥ ⛔ 反例（这一代的「皇帝新衣时刻」）

§0 为什么用「语言学立场」当代际主轴，而不是「模型架构」

工程史习惯按架构切代：n-gram → RNN → LSTM → Transformer。这条线是对的，但它对 PM 没用——它回答「机器怎么算的」，不回答「机器到底懂不懂、错会错在哪、该怎么用」。

本节点换一根轴：每一代相对上一代，把多少语言学知识从『人手写的规则』挪到了『数据里学的统计』。这根轴能解释架构史解释不了的事——为什么 LLM 流利却会一本正经地胡说（幻觉）、为什么非英语吃 token 溢价（c02 - Tokenization 与词表工程）、为什么「翻译对了」不等于「本地化对了」。这些都是语言学立场的后果，不是架构参数的后果。一句话：架构史看见 FLOPs，语言学立场史看见意义被让渡给统计的代价。

§1 第 1 代 · 符号规则系统：手写语法 + 符号 AI（约 1950s–1980s）

① 代表方法／系统（年份核证）

机器翻译的乔治城-IBM 实验：1954 年，6 条规则、250 词词表，把俄语句子译成英语——史上第一次公开演示，也点燃了「翻译几年内解决」的乐观。
ELIZA：Weizenbaum, 1966——模式匹配「心理治疗师」，靠把用户的话改写成反问制造对话幻觉。
SHRDLU：Winograd, 1971（MIT 博士论文）——积木世界里的自然语言指令系统，能解析「把红色方块放到绿色之上」并执行，符号 AI 理解语言的巅峰演示。
乔姆斯基的转换生成语法：Syntactic Structures, 1957——为「语言是一套可由有限规则生成无限句子的形式系统」提供理论纲领，是整个第 1 代的语言学信仰来源。

② 语言学立场：语言学家就是系统本身。 语言能力 = 一套人能写下来的显式规则（句法树、格框架、语义网络）。乔姆斯基范式认定语言有底层的形式结构，工程师的任务就是把语言学家发现的规则编码进机器。意义是被设计进去的，不是被学出来的。

③ 推动力：算力极弱、数据极少的年代，唯一可行路线就是把人类专家的知识直接写死。规则系统可解释、可调试、在窄域内可控——SHRDLU 在积木世界里近乎完美。

④ 瓶颈：知识获取瓶颈（knowledge acquisition bottleneck）+ 组合爆炸。 真实语言的歧义、长尾、隐喻、世界知识无法穷举成规则。SHRDLU 一出积木世界就崩溃；机器翻译撞上 ALPAC 报告（1966）的冷水，结论是「机翻又贵又差」，直接掐断美国十年机翻经费。规则越写越多，相互冲突越来越难维护——这是符号 AI 的结构性死穴。

⑤ 被第 2 代如何超越：第 2 代（统计 NLP）用从语料里数频率替换人手写规则，绕开知识获取瓶颈——不再问「语言学家说这句该怎么分析」，而问「语料里这个词后面最常跟什么」。这是 NLP 史上第一次范式断裂：意义的来源从『人的设计』转向『数据的分布』。

⑥ ⛔ 反例（第 1 代的皇帝新衣）：ELIZA 效应——Weizenbaum 本人被吓到了。他发现用户（包括他的秘书）明知 ELIZA 是程序，仍对它倾诉私密、坚信它「理解」自己。ELIZA 没有任何语义表征，只有模式匹配；它「懂语言」纯属用户脑补。这是 NLP 史上第一记警钟：流利的语言行为 ≠ 理解——而这记警钟在六十年后的 LLM 时代以幻觉的形式精确重演。第 1 代的教训不是「规则不够多」，而是「我们高估了规则能逼近意义的程度」。

§2 第 2 代 · 统计 NLP：n-gram + HMM + 噪声信道（约 1990s–2000s）

① 代表方法／系统（年份核证）

IBM 统计机器翻译模型（IBM Models 1–5）：Brown et al., 1990 / 1993——用加拿大议会双语会议记录（Hansard）训练对齐概率，提出噪声信道模型，奠定现代统计机翻。
隐马尔可夫模型（HMM）做词性标注 / 语音识别：1980s 末–1990s 成为主流。
n-gram 语言模型 + 平滑技术：Kneser-Ney 平滑（1995）是工业级 n-gram 的标配。
Penn Treebank：Marcus et al., 1993——大规模人工句法标注语料，让「用监督数据训练 parser」成为可能。

② 语言学立场：语言学家从『写规则者』降级为『标注者』。 系统不再需要语言学理论，只需要语言学家标好的数据（Treebank 的句法树、对齐的双语语料）。著名的反语言学宣言来自 Frederick Jelinek（IBM 语音组）：「每次我开除一个语言学家，语音识别的准确率就上升一点。」〔此话广为流传、版本不一，常被引为统计派对规则派的态度，确切措辞〔待核实〕〕。意义在这里被彻底操作化为概率：一个句子「对不对」= 它在语料分布下的似然高不高。

③ 推动力：1990s 算力与数字语料（尤其双语对照的政府文件）开始充足，而规则系统已被证明撞墙。统计方法可扩展、可量化评测（BLEU 这类自动指标在此代后期诞生），且鲁棒——对没见过的输入会给概率而非崩溃。

④ 瓶颈：稀疏性 + 短视。 n-gram 只能看前 n−1 个词（实践中 n≤5），无法捕捉长距离依赖（「The keys that the man … are/is on the table」里主谓一致跨了十几个词）。维度灾难下，没见过的词组合概率为零，靠平滑硬撑。它建模的是表层共现，不是结构，更不是意义。

⑤ 被第 3 代如何超越：第 3 代（神经网络 + 词向量）用稠密向量替换离散计数，一举解决稀疏性——语义相近的词在向量空间里靠近，「见过『猫坐在垫子上』就能泛化到『狗躺在地毯上』」。这是从「数字符串」到「数语义」的关键一跳。

⑥ ⛔ 反例（第 2 代的皇帝新衣）：统计机翻在「字面对、意义错」上系统性翻车——BLEU 高的译文可能语序通顺却指代错乱、否定丢失。更深的反例是：n-gram 模型可以在 perplexity 上持续刷低，却对「这句话是不是真的」「说话人想干什么」一无所知。第 2 代证明了：把意义压缩成概率分布，可以走得很远，但永远到不了意义本身。 Jelinek 的玩笑话被工程进展坐实了，但它掩盖了一个反例——开除语言学家提升的是「分布拟合精度」，不是「理解」；而到了 LLM 时代，语言学家又被请回来了（见 §5）。

§3 第 3 代 · 神经网络 + 词嵌入：word2vec → RNN/LSTM → seq2seq + 注意力（约 2013–2017）

① 代表方法／系统（年份核证）

word2vec：Mikolov et al., Google, 2013——CBOW / Skip-gram，把词映射成稠密向量，“king − man + woman ≈ queen” 的类比成为标志性演示（Embedding 的工业起点）。
GloVe：Pennington, Socher & Manning, Stanford, 2014——基于全局共现矩阵的词向量。
LSTM：Hochreiter & Schmidhuber 早在 1997 提出，但在 2014–2016 随算力普及成为序列建模主力。
seq2seq：Sutskever, Vinyals & Le, Google, 2014——编码器-解码器架构，端到端神经机翻奠基。
注意力机制：Bahdanau, Cho & Bengio, 2014/2015（ICLR 2015）——让解码器在生成每个词时「回看」源句不同位置，解决长句翻译退化，是通往 Transformer 的关键伏笔。

② 语言学立场：语言学知识被『分布式表征』隐式吸收，语言学家进一步边缘化。 词义不再由词典定义，而由「上下文分布」决定——这其实是语言学自己的老思想（Firth, 1957：「You shall know a word by the company it keeps」，分布语义学假说）被神经网络工业化了。意义第一次以可计算的几何形式存在：向量间的距离和方向编码语义关系。但语法、指代、语用仍是模型「顺带」学到的副产品，没人显式建模。

③ 推动力：GPU 普及 + 大规模无标注文本。词向量可在海量生语料上无监督预训练，再迁移到下游任务——「预训练 + 微调」范式的雏形在此萌芽。神经网络自动学特征，省掉了第 2 代繁琐的人工特征工程。

④ 瓶颈：RNN 的顺序计算无法并行 + 长程依赖仍衰减。 LSTM 缓解但未根治梯度问题，超长句仍丢信息；逐词串行处理使训练无法充分利用 GPU 并行，规模上不去。词向量本身还有「一词一向量」的硬伤——「bank（银行／河岸）」只有一个向量，无法随上下文变义。

⑤ 被第 4 代如何超越：第 4 代（Transformer + 预训练 LM）用自注意力替换循环，彻底并行化并让任意两词直接交互；用上下文相关的动态表征替换静态词向量，解决一词多义。这是规模化的总开关——没有这一跳，就没有后来的 LLM。

⑥ ⛔ 反例（第 3 代的皇帝新衣）：word2vec 的类比演示被过度神化。 “king−man+woman≈queen” 惊艳，但后续研究（如 Levy & Goldberg, 2014；Linzen, 2016）发现这类类比对很多关系根本不成立，且演示常因排除了输入词本身才「凑出」正确答案——是精心挑选的 cherry-picking。更重要的反例：词向量编码了人类的偏见（Bolukbasi et al., 2016：“man:computer programmer :: woman:homemaker”），证明「学分布」会把语料里的社会偏见一并学进几何空间。第 3 代让意义变得可计算，但也让歧视变得可计算——这是后来幻觉与对齐问题的语言学前传。

§4 第 4 代 · Transformer + 预训练语言模型：BERT / GPT（约 2017–2020）

① 代表方法／系统（年份核证）

Transformer：Vaswani et al., Google, 2017——“Attention Is All You Need”，纯注意力架构，砍掉循环与卷积，可并行、可堆深，是 NLP 的「相对论时刻」。
ELMo：Peters et al., 2018——双向 LSTM 的上下文相关词表征，「一词多向量」的过渡形态。
BERT：Devlin et al., Google, 2018——掩码语言模型 + 双向编码，刷爆 GLUE 等理解类基准，开启「预训练-微调」统治。
GPT / GPT-2：Radford et al., OpenAI, 2018 / 2019——自回归解码器，押注「生成式预训练 + 规模」。

② 语言学立场：语言学被『自监督目标』取代——系统从『预测被遮住的词』里自己长出语法。 不再需要 Treebank 标注，模型靠「填空」（BERT 的掩码）或「续写」（GPT 的下一词预测）从生文本中自学。语言学知识从『输入』变成了『涌现的内部表征』——探针研究（probing，如 Hewitt & Manning, 2019）发现 BERT 内部确实隐式编码了句法树结构。语言学家这下连标注者都不当了，转而成为模型行为的考古学家：研究模型「碰巧学到了什么语言学」。

③ 推动力：Transformer 的并行性 + 自监督目标 = 可吃下整个互联网的文本，无需人工标注。规模定律（scaling）开始显形：模型越大、数据越多，下游性能越好，且能力会「涌现」。

④ 瓶颈：理解（NLU）与生成（NLG）的不对称暴露，且自注意力 O(n²) 成本压住上下文长度。 BERT 强于理解、弱于生成；GPT 反之。两者都被「上下文窗口」死死框住（BERT 512 token）。更根本的瓶颈是：模型流利但不可控、不对齐——GPT-2 能写通顺段落，却无法稳定听从指令、会胡编。

⑤ 被第 5 代如何超越：第 5 代（指令对齐的 LLM）用规模 + 指令微调 + RLHF把「会续写」变成「会听话」，用「下一词预测」这一个目标统一了理解与生成（生成式统一了 NLU/NLG，尽管不对称并未消失，只是被掩盖，见 §5⑥）。

⑥ ⛔ 反例（第 4 代的皇帝新衣）：BERT 刷爆基准≠真理解——它学会了走捷径。 Niven & Kao（ACL 2019）发现 BERT 在论证推理理解任务上的高分，靠的是抓住「not」这类**统计线索（spurious cues）而非推理；打乱这些线索后性能跌回随机。同期一系列「BERTology」研究证实：模型在自然语言推断（NLI）上靠数据集标注伪影（annotation artifacts）**得分。第 4 代把『刷榜』误当成『理解』——这正是幻觉的认识论根源：一个在分布内表现完美的系统，在分布外、在需要真正语义的地方会突然失效，因为它学的从来是相关性，不是意义。这也直接呼应了 Bender & Koller（ACL 2020）的著名论断：只在形式（form）上训练，原则上无法习得意义（meaning）。

§5 第 5 代 · 指令对齐的大语言模型：GPT-3 → InstructGPT/ChatGPT → Claude/Gemini（约 2020–至今）

① 代表方法／系统（年份核证）

GPT-3：Brown et al., OpenAI, 2020——175B 参数，提出 in-context learning（少样本不微调即可完成任务），规模质变。
InstructGPT：Ouyang et al., OpenAI, 2022——RLHF（人类反馈强化学习）把基座模型对齐到「听指令、有帮助」。
ChatGPT：OpenAI, 2022-11 发布，把对齐后的 LLM 推成消费级产品。
Claude：Anthropic，以 Constitutional AI（2022）做对齐，主打可控与安全。
Gemini（Google）、ChatGPT（OpenAI 产品线）构成当前前沿三家格局。

② 语言学立场：语言学家被请回来了——但身份变了，从『建造者』变成『诊断者与对齐者』。 这一代有个反直觉的转折：在「机器终于会说话」之后，语用学（pragmatics）突然变得至关重要。模型能生成合语法的句子，但要它「在该简短时简短、在不确定时承认、在被请求时执行而非空谈」——这些是 Grice 合作原则（合作原则 + 质量/数量/关联/方式四准则，Grice, 1975，Syntax and Semantics vol.3）与 Austin–Searle 言语行为理论（Searle 五类言语行为，Speech Acts, 1969）的领地。实证已跟上：Kim, Taylor & Kang（arXiv:2305.13826, 2023）把 Grice 四准则注入思维链提示，模型在会话含义理解上超过人类平均水平；Miehling et al.（arXiv:2403.15115, 2024）为人机对话补了两条 AI 专属准则——善意（Benevolence）与透明（Transparency）。语言学从『怎么让机器产生语言』转向『怎么让机器的语言行为符合人的语用预期』——这正是本专题（从语言学侧理解语言模型）的立身之本，也是 prompt 设计的理论底座。

③ 推动力：规模定律兑现 + RLHF 解决了「会说」到「听话」的最后一公里。in-context learning 让一个模型通吃几乎所有 NLP 任务，第 1–4 代「一个任务一个模型」的格局被终结。

④ 瓶颈：流利掩盖了三个未解的语言学根问题。

形式 ≠ 意义：模型生成无懈可击的句子，却会自信地编造（幻觉），因为它优化的是 token 概率而非真值——Bender & Koller（2020）的预言成真。
理解／生成仍不对称：生成式架构表面统一了 NLU 与 NLG，但 Mahowald et al.（Trends in Cognitive Sciences, 2024，arXiv:2301.06627）证明「形式语言能力」（语法流利）与「功能语言能力」（真实运用、推理）在模型内部仍是分离的——流利不代表会用。
多语言不平等被结构性固化：tokenizer 词表以英语为中心，CJK 与低资源语言吃 token 溢价（Petrov et al., NeurIPS 2023，跨语言 token 长度差最高 15×；Ahia et al., EMNLP 2023，溢价与一国 HDI 负相关），直接转化为 API 成本、上下文有效容量与质量的系统性劣势——详见 c02 - Tokenization 与词表工程与 m209 - 推理成本控制手册。

⑤ 被下一代如何超越（前瞻，警惕又一次换靶）：尚无稳定「第 6 代」。可见方向：多模态统一表征、推理时计算（test-time compute）把「续写」升级为「思考」、检索增强补真值。但要警惕——这些大多在堵第 5 代的漏洞（幻觉、上下文、多语言），尚不构成「真正解决意义问题」的范式更替。别把『把 form 玩到极致』误读成『终于够到了 meaning』。

⑥ ⛔ 反例（第 5 代的皇帝新衣）：「ChatGPT 通过图灵测试式的对话」被当作『机器理解语言』的证据，但这是六十年前 ELIZA 效应的工业级放大。 三条硬反例：(1) 模型在最简单的语用推断上仍会栽——Ma et al.（ACL 2025 综述，arXiv:2502.12378）确认含义（implicature）与指称仍是重大挑战；(2) 多语言 LLM 内部「先用英语想、再翻译」（Schut et al., arXiv:2502.15603, 2025，logit lens 实证），所谓「中立多语言」是幻觉，非英语推理质量系统性偏低；(3) 翻译 ≠ 本地化——模型把英语主导的道德规范施加到其他语言（Aksoy, arXiv:2412.18863, 2024），「译对了字」不等于「对了那个文化里的人」。第 5 代把『说得像人』做到了极致，却没有跨过 ELIZA 当年那道坎：流利依旧不是理解。

§6 逐代对照速查表（与 G01 总图互补：G01 给「谱系图＋总判断」，本表给「语言学立场迁移＋超越机制」）

代	代表方法（核证年份）	语言学家的位置	意义来自哪里	被下一代超越的机制	⛔ 反例
1 符号规则	乔治城-IBM(1954)/ELIZA(1966)/SHRDLU(1971)/乔姆斯基(1957)	就是系统（写规则）	人的设计	第2代用数频率换写规则	ELIZA 效应：流利≠理解
2 统计 NLP	IBM SMT(1990/93)/HMM/n-gram/Penn Treebank(1993)	降为标注者	语料的概率分布	第3代用稠密向量换离散计数	字面对意义错；开除语言学家≠会理解
3 神经+词向量	word2vec(2013)/GloVe(2014)/seq2seq(2014)/注意力(2015)	进一步边缘化（隐式吸收）	分布的几何（向量距离）	第4代用自注意力+动态表征	类比被神化+偏见被几何化
4 Transformer+预训练	Transformer(2017)/BERT(2018)/GPT-2(2019)	转为考古学家（探针研究）	自监督涌现的内部表征	第5代用规模+RLHF换可控	BERT 靠 spurious cues 刷榜
5 对齐 LLM	GPT-3(2020)/InstructGPT(2022)/ChatGPT(2022)/Claude	请回来当诊断者+对齐者（语用学回归）	token 概率（仍非真值）	尚无稳定第6代；多模态/推理时计算萌芽	ELIZA 效应工业级重演；译≠本地化

读这张表的方法：从上往下，「语言学家的位置」那一列描述的是一条先退场、再以新身份回归的弧线——从「建造系统」一路退到「研究模型碰巧学到了什么」，再到第 5 代因为语用对齐的需求被重新请回桌前。而「意义来自哪里」那一列，从『人的设计』一路滑到『token 概率』，从未真正抵达『意义本身』。这就是 G01 核心赌注的逐代实证：NLP 的代际更替不是『机器越来越懂语言』的进步史，而是『把理解不断换成更强的代理任务』的换靶史——只不过这次的代理任务（下一个 token 的概率）强到足以骗过大多数人，正如 ELIZA 当年骗过 Weizenbaum 的秘书。

§7 判断主轴：90% 的人在 NLP 代际史上会搞错的四个点

① 「一代更比一代懂语言」

症状：把代际史叙述成「规则不行→统计更好→神经更强→LLM 终于懂了」的线性进步。
为什么会错：每一代解决的是上一代的工程瓶颈（知识获取、稀疏性、长程依赖、可控性），不是语言学根问题（形式 vs 意义）。
正确做法：每看到「新一代」，问一句——它测到了语言的新维度，还是只是把上一代的代理任务换了个更强的版本？
真实反例：ChatGPT 的流利让公众以为「AI 懂语言了」，但它在会话含义、指称、跨文化语用上仍系统性出错（Ma et al. 2025）——这是 ELIZA 效应的重演，不是质变。

② 「开除语言学家是对的」

症状：拿 Jelinek 那句名言当统计派完胜的证据，认定语言学知识对 NLP 无用。
为什么会错：第 2–4 代确实可以不要语言学理论，但第 5 代因为语用对齐把语言学请了回来——Grice/Searle 成了 prompt 设计的理论底座。
正确做法：区分「建模语言形式」（统计赢）与「对齐语言行为」（语用学不可替代）两件事。
真实反例：Miehling et al.（2024）直接把 Grice 准则改写成 AI 对话设计准则；这是语言学理论在 LLM 时代的硬复活。

③ 「生成式架构统一了理解和生成」

症状：因为 GPT 用一个「下一词预测」目标通吃 NLU 和 NLG，就认为不对称消失了。
为什么会错：统一的是架构，不是能力——形式能力与功能能力在模型内部仍分离（Mahowald et al. 2024）。
正确做法：评估时分开测「会不会说」（流利）和「会不会用」（推理、语用）；前者强不代表后者强。
真实反例：模型能写完美的法律段落，却在「这句话隐含的请求是什么」上出错——生成强、理解弱的经典裂缝。

④ 「LLM 是语言中立的」

症状：把多语言 LLM 当成「中立翻译器」，假设各语言体验对等。
为什么会错：tokenizer 以英语为中心（token 溢价最高 15×，Petrov 2023），且模型「先用英语想再翻译」（Schut 2025）。
正确做法：非英语产品做成本与质量评估时，按语言系数（CJK 约 1.2–1.6×，低资源更高）规划预算，并警惕「翻译对≠本地化对」。
真实反例：同一安全对齐在低资源语言上更脆弱；同一道德判断被英语规范主导（Aksoy 2024）——这是 Rick 在拉美多语言场景会直接撞上的坑。

§8 产品 PM 视角补盲（跳出工程史，看用户/商业/合规）

用户心理模型：ELIZA 效应不是历史趣闻，是今天每个对话产品的默认风险。用户会把流利等同于可信，把「说得笃定」等同于「说得对」。PM 的责任是对抗这种自动信任——显式标注不确定性、引用来源、给出「我可能错」的信号（这正是 Miehling 的 Transparency 准则）。
商业模式：第 5 代「一个模型通吃所有任务」终结了第 1–4 代「一个任务一个模型」的 SaaS 格局——但也意味着护城河从模型转移到了对齐质量、语用细腻度、多语言公平性。能把 Grice/Searle 落进 system prompt 的团队，做出的产品体感会明显更「懂人」。
合规与公平边界：Ahia et al.（2023）已把 token 溢价与社会经济不平等（HDI 负相关）挂钩——多语言定价的公平性是潜在监管风险。一个面向全球南方的产品，若对葡语/西语/土著语言用户收同样的「每 token」价格，实际是让最弱势的用户为 tokenizer 的英语偏向买单。

§9 对手框架回应（接受 + 边界）

对手立场一：Emily Bender & Alexander Koller（ACL 2020，「章鱼思想实验」/ 随机鹦鹉）——纯形式训练原则上无法习得意义，LLM 只是「随机鹦鹉」。

接受：他们对第 5 代的诊断在「形式 ≠ 意义」这一点上是对的，幻觉就是铁证；本节点 §5⑥ 整段建立在这一洞察上。
边界：但「原则上无法」是一个过强的认识论主张。功能上，Kim et al.（2023）已证明注入 Grice 准则后模型语用表现可超人类均值；对 PM 而言，「它到底懂不懂」是哲学问题，「它在我的场景里够不够用」才是决策问题——后者的答案在很多任务上是「够用」。我赌的是：意义之争短期内无解，但产品决策不能等哲学结论。

对手立场二：分布语义学的极端派 / 「规模即一切」——Firth「观其伴知其义」+ scaling law，认为足够大的模型加足够多的数据，意义会自然涌现，语言学理论纯属多余。

接受：第 2–4 代的历史确实站在他们这边——分布假说被神经网络兑现得极漂亮，Embedding 就是分布语义学的几何化胜利。
边界：但第 5 代打了这个叙事一个回马枪——语用对齐这件事，规模本身解决不了，需要把 Grice/Searle 显式注入（RLHF、Constitutional AI、CoT+准则）。规模让模型「会说」，但「会得体地说、在该承认无知时承认」靠的是把语言学理论编码进对齐目标。我赌的是：纯靠规模的边际收益在语用维度上递减，语言学理论会持续回流。

§10 与 G01 / 已有节点的关系（升级对照，不复述事实基础）

对照 G01 计算语言学与 NLP 代际谱系总图——做「分辨率升高」：G01 是总图（一张谱系图给五代各一格 + 「换靶史 vs 进步史」总判断）；G02 是详解（每代一张六栏病历卡 + 显式「语言学立场迁移」+ 「被下一代超越的机制」+ 每代独立反例）。G01 说「这不是进步史」，G02 钉出「第 1 代 ELIZA 效应、第 4 代 BERT spurious cues、第 5 代 ELIZA 重演」的具体证据。
对照 c02 - Tokenization 与词表工程：c02 是 tokenizer 与多语言成本的工程专论；G02 §5④ 只取「token 溢价固化多语言不平等」这一结论作为第 5 代瓶颈，深扒回 c02。
对照 Embedding：Embedding 是词/句向量的概念卡；G02 §3 把它定位为「第 3 代分布语义学的几何化产物」，给它一个代际史坐标，是概念卡所缺的纵向维度。
对照幻觉：幻觉是「形式≠意义」的当代症状专论；G02 把它接回 ELIZA 效应（第 1 代）与 Bender-Koller（第 4/5 代），提供六十年跨度的语言学谱系，是幻觉节点缺的历史纵深。
对照 m209 - 推理成本控制手册：m209 是成本工程手册；G02 §5/§8 把「token 溢价 → 多语言成本」接进它的成本视角。

§11 关联节点

核心（必读）

G01 计算语言学与 NLP 代际谱系总图 — 本节点的总图版前身，提供谱系框架与「换靶史」总判断
c02 - Tokenization 与词表工程 — 第 5 代多语言不平等的工程专论
幻觉 — 「形式≠意义」的当代症状，ELIZA 效应的六十年后重演
Embedding — 第 3 代分布语义学的几何化产物
Tokenization — token 溢价与多语言成本的概念底座

延伸（可选）

m209 - 推理成本控制手册 — token 溢价接入成本工程视角
Claude — 第 5 代以 Constitutional AI 做对齐的代表
Gemini — 第 5 代前沿三家之一（Google）
ChatGPT — 第 5 代消费级 LLM 的引爆点（OpenAI）
0117社会学 — token 溢价与社会经济不平等（HDI 负相关）的社会学接口
人类学 — 「翻译≠本地化」的田野视角，呼应 Rick 拉美 fieldwork
AI PM 知识图谱·总索引 — 全库入口

修订日志

R1（2026-06-07，首稿）：本节点为 0429 计算语言学专题「02 代际演化」的 G02，作为 G01 计算语言学与 NLP 代际谱系总图的逐代详解版。设计分工：G01 给谱系图 + 「换靶史 vs 进步史」总判断，G02 给五代六栏病历卡（代表方法/语言学立场/推动力/瓶颈/被下一代如何超越/反例）+ §6「语言学立场迁移 × 超越机制」速查表，与 G01 总图互补而不重复。
- 代际主轴：用「语言学知识从人手让渡给统计」而非「架构史」切代（§0 显式辨析），服务 PM 决策而非工程史。
- 年份核证（接地证据简报 + WebSearch）：乔治城-IBM(1954)、ELIZA(Weizenbaum 1966)、SHRDLU(Winograd 1971)、乔姆斯基 Syntactic Structures(1957)、ALPAC(1966)、IBM SMT(Brown 1990/1993)、Penn Treebank(Marcus 1993)、Kneser-Ney(1995)、word2vec(Mikolov 2013)、GloVe(2014)、seq2seq(Sutskever 2014)、Bahdanau 注意力(2014/ICLR 2015)、LSTM(1997)、Firth(1957)、Transformer(Vaswani 2017)、ELMo(2018)、BERT(Devlin 2018)、GPT-2(2019)、GPT-3(Brown 2020)、InstructGPT(Ouyang 2022)、ChatGPT(2022-11)、Grice(1975)、Searle(1969)、Bender & Koller(ACL 2020)、Niven & Kao(ACL 2019)、Bolukbasi(2016)、Mahowald(TiCS 2024, arXiv:2301.06627)、Petrov(NeurIPS 2023)、Ahia(EMNLP 2023)、Kim/Taylor/Kang(arXiv:2305.13826, 2023)、Miehling(arXiv:2403.15115, 2024)、Ma(ACL 2025, arXiv:2502.12378)、Schut(arXiv:2502.15603, 2025)、Aksoy(arXiv:2412.18863, 2024) 均来自已核实的接地证据简报。
- 〔待核实〕降级：Jelinek「开除语言学家」名言的确切措辞标注〔待核实〕（措辞多版本流传，立场属实但原话存疑）。
- 反线性进步：每代末尾钉「皇帝新衣」反例（第1代 ELIZA 效应；第2代字面对意义错 + Jelinek 玩笑的盲区；第3代类比神化 + 偏见几何化；第4代 BERT spurious cues；第5代 ELIZA 工业级重演 + 译≠本地化）。
- 判断主轴 §7：四个 PM 易错点，每点症状→为什么错→正确做法→真实反例四件套。
- 对手框架 §9：Bender & Koller（随机鹦鹉，Rick 圈外对手框架）+ 分布语义学极端派/规模即一切，均「接受+边界」处理。
- Rick 独特资产呼应：§7④、§8 合规边界、§11 人类学链入显式迁移拉美多语言 fieldwork（葡语/西语/土著语言 token 溢价 + 翻译≠本地化）。
- 跨域呼应：语用学（Grice 合作原则 / Austin-Searle 言语行为）在 §5 具体展开为「第 5 代把语言学家请回来当对齐者」的判断转折，非装饰性引用。
- 双链：全文真实 basename 双链（核心 5 + 延伸 7 + 正文内 Claude/Gemini/ChatGPT/幻觉/Embedding/c02 - Tokenization 与词表工程/Tokenization/m209 - 推理成本控制手册/人类学/0117社会学多处），满足非总览节点 ≥15；与 G01 共用本专题同级节点全名 G01 计算语言学与 NLP 代际谱系总图。