R

G02 NLP 代际演化详解

创建 2026-06-07 更新 2026-06-11 0 条双链 计算语言学 专题 AI 整理

G02 NLP 代际演化详解

G01 计算语言学与 NLP 代际谱系总图 给了一张总图——把 NLP 从「规则」到「LLM」的代际更替放进一条主轴:每一代都在「语言学知识要不要显式编码进系统」这个问题上选边站,而每一次代际革命,都是从语言学家手里把一块阵地交给数据与统计。本节点不复述那张总图的框架,而是做总图压不下去的那件事——逐代展开:每一代取一张统一的「病历卡」,写清楚它的代表方法/系统(带核证年份)、语言学立场、推动力、瓶颈、被下一代如何超越、LLM 时代它的语言学位置,并在每代末尾钉一个反例,专门戳破「这一代终于让机器懂语言了」的幻觉。

[!warning] 本节点与 G01 的分工 G01 回答「这几代是不是一部『机器越来越懂语言』的进步史」(总判断)。G02 回答「每一代具体长什么样、在哪一年、语言学家站在什么立场、被什么超越、那次超越算不算真懂了语言」(逐代证据)。读 G01 拿框架,读 G02 拿弹药。两者共用同一条主轴:没有任何一代真正解决了「形式 vs 意义」的根问题(幻觉 即其当代症状),代际更替只是不断把『理解』偷换成一个新的、当时还没暴露破绽的代理任务——从字符串匹配到下一个 token 的概率。

[!note] 病历卡六栏(每代统一格式) ① 代表方法/系统(年份核证)语言学立场(把语言学家放在系统的什么位置) ③ 推动力(为何此刻出现) ④ 瓶颈(为何被迫换代) ⑤ 被下一代如何超越(继承了什么、新增了什么) ⑥ ⛔ 反例(这一代的「皇帝新衣时刻」)


§0 为什么用「语言学立场」当代际主轴,而不是「模型架构」

工程史习惯按架构切代:n-gram → RNN → LSTM → Transformer。这条线是对的,但它对 PM 没用——它回答「机器怎么算的」,不回答「机器到底懂不懂、错会错在哪、该怎么用」。

本节点换一根轴:每一代相对上一代,把多少语言学知识从『人手写的规则』挪到了『数据里学的统计』。这根轴能解释架构史解释不了的事——为什么 LLM 流利却会一本正经地胡说(幻觉)、为什么非英语吃 token 溢价(c02 - Tokenization 与词表工程)、为什么「翻译对了」不等于「本地化对了」。这些都是语言学立场的后果,不是架构参数的后果。一句话:架构史看见 FLOPs,语言学立场史看见意义被让渡给统计的代价


§1 第 1 代 · 符号规则系统:手写语法 + 符号 AI(约 1950s–1980s)

① 代表方法/系统(年份核证)

  • 机器翻译的乔治城-IBM 实验:1954 年,6 条规则、250 词词表,把俄语句子译成英语——史上第一次公开演示,也点燃了「翻译几年内解决」的乐观。
  • ELIZA:Weizenbaum, 1966——模式匹配「心理治疗师」,靠把用户的话改写成反问制造对话幻觉。
  • SHRDLU:Winograd, 1971(MIT 博士论文)——积木世界里的自然语言指令系统,能解析「把红色方块放到绿色之上」并执行,符号 AI 理解语言的巅峰演示。
  • 乔姆斯基的转换生成语法Syntactic Structures, 1957——为「语言是一套可由有限规则生成无限句子的形式系统」提供理论纲领,是整个第 1 代的语言学信仰来源。

② 语言学立场:语言学家就是系统本身。 语言能力 = 一套人能写下来的显式规则(句法树、格框架、语义网络)。乔姆斯基范式认定语言有底层的形式结构,工程师的任务就是把语言学家发现的规则编码进机器。意义是被设计进去的,不是被学出来的。

③ 推动力:算力极弱、数据极少的年代,唯一可行路线就是把人类专家的知识直接写死。规则系统可解释、可调试、在窄域内可控——SHRDLU 在积木世界里近乎完美。

④ 瓶颈:知识获取瓶颈(knowledge acquisition bottleneck)+ 组合爆炸。 真实语言的歧义、长尾、隐喻、世界知识无法穷举成规则。SHRDLU 一出积木世界就崩溃;机器翻译撞上 ALPAC 报告(1966)的冷水,结论是「机翻又贵又差」,直接掐断美国十年机翻经费。规则越写越多,相互冲突越来越难维护——这是符号 AI 的结构性死穴。

⑤ 被第 2 代如何超越:第 2 代(统计 NLP)用从语料里数频率替换人手写规则,绕开知识获取瓶颈——不再问「语言学家说这句该怎么分析」,而问「语料里这个词后面最常跟什么」。这是 NLP 史上第一次范式断裂:意义的来源从『人的设计』转向『数据的分布』。

⑥ ⛔ 反例(第 1 代的皇帝新衣)ELIZA 效应——Weizenbaum 本人被吓到了。他发现用户(包括他的秘书)明知 ELIZA 是程序,仍对它倾诉私密、坚信它「理解」自己。ELIZA 没有任何语义表征,只有模式匹配;它「懂语言」纯属用户脑补。这是 NLP 史上第一记警钟:流利的语言行为 ≠ 理解——而这记警钟在六十年后的 LLM 时代以 幻觉 的形式精确重演。第 1 代的教训不是「规则不够多」,而是「我们高估了规则能逼近意义的程度」。


§2 第 2 代 · 统计 NLP:n-gram + HMM + 噪声信道(约 1990s–2000s)

① 代表方法/系统(年份核证)

  • IBM 统计机器翻译模型(IBM Models 1–5):Brown et al., 1990 / 1993——用加拿大议会双语会议记录(Hansard)训练对齐概率,提出噪声信道模型,奠定现代统计机翻。
  • 隐马尔可夫模型(HMM)做词性标注 / 语音识别:1980s 末–1990s 成为主流。
  • n-gram 语言模型 + 平滑技术:Kneser-Ney 平滑(1995)是工业级 n-gram 的标配。
  • Penn Treebank:Marcus et al., 1993——大规模人工句法标注语料,让「用监督数据训练 parser」成为可能。

② 语言学立场:语言学家从『写规则者』降级为『标注者』。 系统不再需要语言学理论,只需要语言学家标好的数据(Treebank 的句法树、对齐的双语语料)。著名的反语言学宣言来自 Frederick Jelinek(IBM 语音组):「每次我开除一个语言学家,语音识别的准确率就上升一点。」〔此话广为流传、版本不一,常被引为统计派对规则派的态度,确切措辞〔待核实〕〕。意义在这里被彻底操作化为概率:一个句子「对不对」= 它在语料分布下的似然高不高。

③ 推动力:1990s 算力与数字语料(尤其双语对照的政府文件)开始充足,而规则系统已被证明撞墙。统计方法可扩展、可量化评测(BLEU 这类自动指标在此代后期诞生),且鲁棒——对没见过的输入会给概率而非崩溃。

④ 瓶颈:稀疏性 + 短视。 n-gram 只能看前 n−1 个词(实践中 n≤5),无法捕捉长距离依赖(「The keys that the man … are/is on the table」里主谓一致跨了十几个词)。维度灾难下,没见过的词组合概率为零,靠平滑硬撑。它建模的是表层共现,不是结构,更不是意义。

⑤ 被第 3 代如何超越:第 3 代(神经网络 + 词向量)用稠密向量替换离散计数,一举解决稀疏性——语义相近的词在向量空间里靠近,「见过『猫坐在垫子上』就能泛化到『狗躺在地毯上』」。这是从「数字符串」到「数语义」的关键一跳。

⑥ ⛔ 反例(第 2 代的皇帝新衣)统计机翻在「字面对、意义错」上系统性翻车——BLEU 高的译文可能语序通顺却指代错乱、否定丢失。更深的反例是:n-gram 模型可以在 perplexity 上持续刷低,却对「这句话是不是真的」「说话人想干什么」一无所知。第 2 代证明了:把意义压缩成概率分布,可以走得很远,但永远到不了意义本身。 Jelinek 的玩笑话被工程进展坐实了,但它掩盖了一个反例——开除语言学家提升的是「分布拟合精度」,不是「理解」;而到了 LLM 时代,语言学家又被请回来了(见 §5)。


§3 第 3 代 · 神经网络 + 词嵌入:word2vec → RNN/LSTM → seq2seq + 注意力(约 2013–2017)

① 代表方法/系统(年份核证)

  • word2vec:Mikolov et al., Google, 2013——CBOW / Skip-gram,把词映射成稠密向量,“king − man + woman ≈ queen” 的类比成为标志性演示(Embedding 的工业起点)。
  • GloVe:Pennington, Socher & Manning, Stanford, 2014——基于全局共现矩阵的词向量。
  • LSTM:Hochreiter & Schmidhuber 早在 1997 提出,但在 2014–2016 随算力普及成为序列建模主力。
  • seq2seq:Sutskever, Vinyals & Le, Google, 2014——编码器-解码器架构,端到端神经机翻奠基。
  • 注意力机制:Bahdanau, Cho & Bengio, 2014/2015(ICLR 2015)——让解码器在生成每个词时「回看」源句不同位置,解决长句翻译退化,是通往 Transformer 的关键伏笔。

② 语言学立场:语言学知识被『分布式表征』隐式吸收,语言学家进一步边缘化。 词义不再由词典定义,而由「上下文分布」决定——这其实是语言学自己的老思想(Firth, 1957:「You shall know a word by the company it keeps」,分布语义学假说)被神经网络工业化了。意义第一次以可计算的几何形式存在:向量间的距离和方向编码语义关系。但语法、指代、语用仍是模型「顺带」学到的副产品,没人显式建模。

③ 推动力:GPU 普及 + 大规模无标注文本。词向量可在海量生语料上无监督预训练,再迁移到下游任务——「预训练 + 微调」范式的雏形在此萌芽。神经网络自动学特征,省掉了第 2 代繁琐的人工特征工程。

④ 瓶颈:RNN 的顺序计算无法并行 + 长程依赖仍衰减。 LSTM 缓解但未根治梯度问题,超长句仍丢信息;逐词串行处理使训练无法充分利用 GPU 并行,规模上不去。词向量本身还有「一词一向量」的硬伤——「bank(银行/河岸)」只有一个向量,无法随上下文变义。

⑤ 被第 4 代如何超越:第 4 代(Transformer + 预训练 LM)用自注意力替换循环,彻底并行化并让任意两词直接交互;用上下文相关的动态表征替换静态词向量,解决一词多义。这是规模化的总开关——没有这一跳,就没有后来的 LLM。

⑥ ⛔ 反例(第 3 代的皇帝新衣)word2vec 的类比演示被过度神化。 “king−man+woman≈queen” 惊艳,但后续研究(如 Levy & Goldberg, 2014;Linzen, 2016)发现这类类比对很多关系根本不成立,且演示常因排除了输入词本身才「凑出」正确答案——是精心挑选的 cherry-picking。更重要的反例:词向量编码了人类的偏见(Bolukbasi et al., 2016:“man:computer programmer :: woman:homemaker”),证明「学分布」会把语料里的社会偏见一并学进几何空间。第 3 代让意义变得可计算,但也让歧视变得可计算——这是后来 幻觉 与对齐问题的语言学前传。


§4 第 4 代 · Transformer + 预训练语言模型:BERT / GPT(约 2017–2020)

① 代表方法/系统(年份核证)

  • Transformer:Vaswani et al., Google, 2017——“Attention Is All You Need”,纯注意力架构,砍掉循环与卷积,可并行、可堆深,是 NLP 的「相对论时刻」。
  • ELMo:Peters et al., 2018——双向 LSTM 的上下文相关词表征,「一词多向量」的过渡形态。
  • BERT:Devlin et al., Google, 2018——掩码语言模型 + 双向编码,刷爆 GLUE 等理解类基准,开启「预训练-微调」统治。
  • GPT / GPT-2:Radford et al., OpenAI, 2018 / 2019——自回归解码器,押注「生成式预训练 + 规模」。

② 语言学立场:语言学被『自监督目标』取代——系统从『预测被遮住的词』里自己长出语法。 不再需要 Treebank 标注,模型靠「填空」(BERT 的掩码)或「续写」(GPT 的下一词预测)从生文本中自学。语言学知识从『输入』变成了『涌现的内部表征』——探针研究(probing,如 Hewitt & Manning, 2019)发现 BERT 内部确实隐式编码了句法树结构。语言学家这下连标注者都不当了,转而成为模型行为的考古学家:研究模型「碰巧学到了什么语言学」。

③ 推动力:Transformer 的并行性 + 自监督目标 = 可吃下整个互联网的文本,无需人工标注。规模定律(scaling)开始显形:模型越大、数据越多,下游性能越好,且能力会「涌现」。

④ 瓶颈:理解(NLU)与生成(NLG)的不对称暴露,且自注意力 O(n²) 成本压住上下文长度。 BERT 强于理解、弱于生成;GPT 反之。两者都被「上下文窗口」死死框住(BERT 512 token)。更根本的瓶颈是:模型流利但不可控、不对齐——GPT-2 能写通顺段落,却无法稳定听从指令、会胡编。

⑤ 被第 5 代如何超越:第 5 代(指令对齐的 LLM)用规模 + 指令微调 + RLHF把「会续写」变成「会听话」,用「下一词预测」这一个目标统一了理解与生成(生成式统一了 NLU/NLG,尽管不对称并未消失,只是被掩盖,见 §5⑥)。

⑥ ⛔ 反例(第 4 代的皇帝新衣)BERT 刷爆基准≠真理解——它学会了走捷径。 Niven & Kao(ACL 2019)发现 BERT 在论证推理理解任务上的高分,靠的是抓住「not」这类**统计线索(spurious cues)而非推理;打乱这些线索后性能跌回随机。同期一系列「BERTology」研究证实:模型在自然语言推断(NLI)上靠数据集标注伪影(annotation artifacts)**得分。第 4 代把『刷榜』误当成『理解』——这正是 幻觉 的认识论根源:一个在分布内表现完美的系统,在分布外、在需要真正语义的地方会突然失效,因为它学的从来是相关性,不是意义。这也直接呼应了 Bender & Koller(ACL 2020)的著名论断:只在形式(form)上训练,原则上无法习得意义(meaning)。


§5 第 5 代 · 指令对齐的大语言模型:GPT-3 → InstructGPT/ChatGPT → Claude/Gemini(约 2020–至今)

① 代表方法/系统(年份核证)

  • GPT-3:Brown et al., OpenAI, 2020——175B 参数,提出 in-context learning(少样本不微调即可完成任务),规模质变。
  • InstructGPT:Ouyang et al., OpenAI, 2022——RLHF(人类反馈强化学习)把基座模型对齐到「听指令、有帮助」。
  • ChatGPT:OpenAI, 2022-11 发布,把对齐后的 LLM 推成消费级产品。
  • Claude:Anthropic,以 Constitutional AI(2022)做对齐,主打可控与安全。
  • Gemini(Google)、ChatGPT(OpenAI 产品线)构成当前前沿三家格局。

② 语言学立场:语言学家被请回来了——但身份变了,从『建造者』变成『诊断者与对齐者』。 这一代有个反直觉的转折:在「机器终于会说话」之后,语用学(pragmatics)突然变得至关重要。模型能生成合语法的句子,但要它「在该简短时简短、在不确定时承认、在被请求时执行而非空谈」——这些是 Grice 合作原则(合作原则 + 质量/数量/关联/方式四准则,Grice, 1975Syntax and Semantics vol.3)与 Austin–Searle 言语行为理论(Searle 五类言语行为,Speech Acts, 1969)的领地。实证已跟上:Kim, Taylor & Kang(arXiv:2305.13826, 2023)把 Grice 四准则注入思维链提示,模型在会话含义理解上超过人类平均水平;Miehling et al.(arXiv:2403.15115, 2024)为人机对话补了两条 AI 专属准则——善意(Benevolence)与透明(Transparency)。语言学从『怎么让机器产生语言』转向『怎么让机器的语言行为符合人的语用预期』——这正是本专题(从语言学侧理解语言模型)的立身之本,也是 prompt 设计的理论底座。

③ 推动力:规模定律兑现 + RLHF 解决了「会说」到「听话」的最后一公里。in-context learning 让一个模型通吃几乎所有 NLP 任务,第 1–4 代「一个任务一个模型」的格局被终结。

④ 瓶颈:流利掩盖了三个未解的语言学根问题。

  • 形式 ≠ 意义:模型生成无懈可击的句子,却会自信地编造(幻觉),因为它优化的是 token 概率而非真值——Bender & Koller(2020)的预言成真。
  • 理解/生成仍不对称:生成式架构表面统一了 NLU 与 NLG,但 Mahowald et al.(Trends in Cognitive Sciences, 2024,arXiv:2301.06627)证明「形式语言能力」(语法流利)与「功能语言能力」(真实运用、推理)在模型内部仍是分离的——流利不代表会用。
  • 多语言不平等被结构性固化:tokenizer 词表以英语为中心,CJK 与低资源语言吃 token 溢价(Petrov et al., NeurIPS 2023,跨语言 token 长度差最高 15×;Ahia et al., EMNLP 2023,溢价与一国 HDI 负相关),直接转化为 API 成本、上下文有效容量与质量的系统性劣势——详见 c02 - Tokenization 与词表工程m209 - 推理成本控制手册

⑤ 被下一代如何超越(前瞻,警惕又一次换靶):尚无稳定「第 6 代」。可见方向:多模态统一表征、推理时计算(test-time compute)把「续写」升级为「思考」、检索增强补真值。但要警惕——这些大多在堵第 5 代的漏洞(幻觉、上下文、多语言),尚不构成「真正解决意义问题」的范式更替。别把『把 form 玩到极致』误读成『终于够到了 meaning』。

⑥ ⛔ 反例(第 5 代的皇帝新衣)「ChatGPT 通过图灵测试式的对话」被当作『机器理解语言』的证据,但这是六十年前 ELIZA 效应的工业级放大。 三条硬反例:(1) 模型在最简单的语用推断上仍会栽——Ma et al.(ACL 2025 综述,arXiv:2502.12378)确认含义(implicature)与指称仍是重大挑战;(2) 多语言 LLM 内部「先用英语想、再翻译」(Schut et al., arXiv:2502.15603, 2025,logit lens 实证),所谓「中立多语言」是幻觉,非英语推理质量系统性偏低;(3) 翻译 ≠ 本地化——模型把英语主导的道德规范施加到其他语言(Aksoy, arXiv:2412.18863, 2024),「译对了字」不等于「对了那个文化里的人」。第 5 代把『说得像人』做到了极致,却没有跨过 ELIZA 当年那道坎:流利依旧不是理解。


§6 逐代对照速查表(与 G01 总图互补:G01 给「谱系图+总判断」,本表给「语言学立场迁移+超越机制」)

代表方法(核证年份)语言学家的位置意义来自哪里被下一代超越的机制⛔ 反例
1 符号规则乔治城-IBM(1954)/ELIZA(1966)/SHRDLU(1971)/乔姆斯基(1957)就是系统(写规则)人的设计第2代用数频率换写规则ELIZA 效应:流利≠理解
2 统计 NLPIBM SMT(1990/93)/HMM/n-gram/Penn Treebank(1993)降为标注者语料的概率分布第3代用稠密向量换离散计数字面对意义错;开除语言学家≠会理解
3 神经+词向量word2vec(2013)/GloVe(2014)/seq2seq(2014)/注意力(2015)进一步边缘化(隐式吸收)分布的几何(向量距离)第4代用自注意力+动态表征类比被神化+偏见被几何化
4 Transformer+预训练Transformer(2017)/BERT(2018)/GPT-2(2019)转为考古学家(探针研究)自监督涌现的内部表征第5代用规模+RLHF换可控BERT 靠 spurious cues 刷榜
5 对齐 LLMGPT-3(2020)/InstructGPT(2022)/ChatGPT(2022)/Claude请回来当诊断者+对齐者(语用学回归)token 概率(仍非真值)尚无稳定第6代;多模态/推理时计算萌芽ELIZA 效应工业级重演;译≠本地化

读这张表的方法:从上往下,「语言学家的位置」那一列描述的是一条先退场、再以新身份回归的弧线——从「建造系统」一路退到「研究模型碰巧学到了什么」,再到第 5 代因为语用对齐的需求被重新请回桌前。而「意义来自哪里」那一列,从『人的设计』一路滑到『token 概率』,从未真正抵达『意义本身』。这就是 G01 核心赌注的逐代实证:NLP 的代际更替不是『机器越来越懂语言』的进步史,而是『把理解不断换成更强的代理任务』的换靶史——只不过这次的代理任务(下一个 token 的概率)强到足以骗过大多数人,正如 ELIZA 当年骗过 Weizenbaum 的秘书。


§7 判断主轴:90% 的人在 NLP 代际史上会搞错的四个点

① 「一代更比一代懂语言」

  • 症状:把代际史叙述成「规则不行→统计更好→神经更强→LLM 终于懂了」的线性进步。
  • 为什么会错:每一代解决的是上一代的工程瓶颈(知识获取、稀疏性、长程依赖、可控性),不是语言学根问题(形式 vs 意义)。
  • 正确做法:每看到「新一代」,问一句——它测到了语言的新维度,还是只是把上一代的代理任务换了个更强的版本?
  • 真实反例:ChatGPT 的流利让公众以为「AI 懂语言了」,但它在会话含义、指称、跨文化语用上仍系统性出错(Ma et al. 2025)——这是 ELIZA 效应的重演,不是质变。

② 「开除语言学家是对的」

  • 症状:拿 Jelinek 那句名言当统计派完胜的证据,认定语言学知识对 NLP 无用。
  • 为什么会错:第 2–4 代确实可以不要语言学理论,但第 5 代因为语用对齐把语言学请了回来——Grice/Searle 成了 prompt 设计的理论底座。
  • 正确做法:区分「建模语言形式」(统计赢)与「对齐语言行为」(语用学不可替代)两件事。
  • 真实反例:Miehling et al.(2024)直接把 Grice 准则改写成 AI 对话设计准则;这是语言学理论在 LLM 时代的硬复活。

③ 「生成式架构统一了理解和生成」

  • 症状:因为 GPT 用一个「下一词预测」目标通吃 NLU 和 NLG,就认为不对称消失了。
  • 为什么会错:统一的是架构,不是能力——形式能力与功能能力在模型内部仍分离(Mahowald et al. 2024)。
  • 正确做法:评估时分开测「会不会说」(流利)和「会不会用」(推理、语用);前者强不代表后者强。
  • 真实反例:模型能写完美的法律段落,却在「这句话隐含的请求是什么」上出错——生成强、理解弱的经典裂缝。

④ 「LLM 是语言中立的」

  • 症状:把多语言 LLM 当成「中立翻译器」,假设各语言体验对等。
  • 为什么会错:tokenizer 以英语为中心(token 溢价最高 15×,Petrov 2023),且模型「先用英语想再翻译」(Schut 2025)。
  • 正确做法:非英语产品做成本与质量评估时,按语言系数(CJK 约 1.2–1.6×,低资源更高)规划预算,并警惕「翻译对≠本地化对」。
  • 真实反例:同一安全对齐在低资源语言上更脆弱;同一道德判断被英语规范主导(Aksoy 2024)——这是 Rick 在拉美多语言场景会直接撞上的坑。

§8 产品 PM 视角补盲(跳出工程史,看用户/商业/合规)

  • 用户心理模型:ELIZA 效应不是历史趣闻,是今天每个对话产品的默认风险。用户会把流利等同于可信,把「说得笃定」等同于「说得对」。PM 的责任是对抗这种自动信任——显式标注不确定性、引用来源、给出「我可能错」的信号(这正是 Miehling 的 Transparency 准则)。
  • 商业模式:第 5 代「一个模型通吃所有任务」终结了第 1–4 代「一个任务一个模型」的 SaaS 格局——但也意味着护城河从模型转移到了对齐质量、语用细腻度、多语言公平性。能把 Grice/Searle 落进 system prompt 的团队,做出的产品体感会明显更「懂人」。
  • 合规与公平边界:Ahia et al.(2023)已把 token 溢价与社会经济不平等(HDI 负相关)挂钩——多语言定价的公平性是潜在监管风险。一个面向全球南方的产品,若对葡语/西语/土著语言用户收同样的「每 token」价格,实际是让最弱势的用户为 tokenizer 的英语偏向买单。

§9 对手框架回应(接受 + 边界)

对手立场一:Emily Bender & Alexander Koller(ACL 2020,「章鱼思想实验」/ 随机鹦鹉)——纯形式训练原则上无法习得意义,LLM 只是「随机鹦鹉」。

  • 接受:他们对第 5 代的诊断在「形式 ≠ 意义」这一点上是对的,幻觉 就是铁证;本节点 §5⑥ 整段建立在这一洞察上。
  • 边界:但「原则上无法」是一个过强的认识论主张。功能上,Kim et al.(2023)已证明注入 Grice 准则后模型语用表现可超人类均值;对 PM 而言,「它到底懂不懂」是哲学问题,「它在我的场景里够不够用」才是决策问题——后者的答案在很多任务上是「够用」。我赌的是:意义之争短期内无解,但产品决策不能等哲学结论

对手立场二:分布语义学的极端派 / 「规模即一切」——Firth「观其伴知其义」+ scaling law,认为足够大的模型加足够多的数据,意义会自然涌现,语言学理论纯属多余。

  • 接受:第 2–4 代的历史确实站在他们这边——分布假说被神经网络兑现得极漂亮,Embedding 就是分布语义学的几何化胜利。
  • 边界:但第 5 代打了这个叙事一个回马枪——语用对齐这件事,规模本身解决不了,需要把 Grice/Searle 显式注入(RLHF、Constitutional AI、CoT+准则)。规模让模型「会说」,但「会得体地说、在该承认无知时承认」靠的是把语言学理论编码进对齐目标。我赌的是:纯靠规模的边际收益在语用维度上递减,语言学理论会持续回流。

§10 与 G01 / 已有节点的关系(升级对照,不复述事实基础)

  • 对照 G01 计算语言学与 NLP 代际谱系总图——做「分辨率升高」:G01 是总图(一张谱系图给五代各一格 + 「换靶史 vs 进步史」总判断);G02 是详解(每代一张六栏病历卡 + 显式「语言学立场迁移」+ 「被下一代超越的机制」+ 每代独立反例)。G01 说「这不是进步史」,G02 钉出「第 1 代 ELIZA 效应、第 4 代 BERT spurious cues、第 5 代 ELIZA 重演」的具体证据。
  • 对照 c02 - Tokenization 与词表工程:c02 是 tokenizer 与多语言成本的工程专论;G02 §5④ 只取「token 溢价固化多语言不平等」这一结论作为第 5 代瓶颈,深扒回 c02。
  • 对照 Embedding:Embedding 是词/句向量的概念卡;G02 §3 把它定位为「第 3 代分布语义学的几何化产物」,给它一个代际史坐标,是概念卡所缺的纵向维度。
  • 对照 幻觉:幻觉是「形式≠意义」的当代症状专论;G02 把它接回 ELIZA 效应(第 1 代)与 Bender-Koller(第 4/5 代),提供六十年跨度的语言学谱系,是幻觉节点缺的历史纵深。
  • 对照 m209 - 推理成本控制手册:m209 是成本工程手册;G02 §5/§8 把「token 溢价 → 多语言成本」接进它的成本视角。

§11 关联节点

核心(必读)

延伸(可选)

  • m209 - 推理成本控制手册 — token 溢价接入成本工程视角
  • Claude — 第 5 代以 Constitutional AI 做对齐的代表
  • Gemini — 第 5 代前沿三家之一(Google)
  • ChatGPT — 第 5 代消费级 LLM 的引爆点(OpenAI)
  • 0117社会学 — token 溢价与社会经济不平等(HDI 负相关)的社会学接口
  • 人类学 — 「翻译≠本地化」的田野视角,呼应 Rick 拉美 fieldwork
  • AI PM 知识图谱·总索引 — 全库入口

修订日志

  • R1(2026-06-07,首稿):本节点为 0429 计算语言学专题「02 代际演化」的 G02,作为 G01 计算语言学与 NLP 代际谱系总图逐代详解版。设计分工:G01 给谱系图 + 「换靶史 vs 进步史」总判断,G02 给五代六栏病历卡(代表方法/语言学立场/推动力/瓶颈/被下一代如何超越/反例)+ §6「语言学立场迁移 × 超越机制」速查表,与 G01 总图互补而不重复。
    • 代际主轴:用「语言学知识从人手让渡给统计」而非「架构史」切代(§0 显式辨析),服务 PM 决策而非工程史。
    • 年份核证(接地证据简报 + WebSearch):乔治城-IBM(1954)、ELIZA(Weizenbaum 1966)、SHRDLU(Winograd 1971)、乔姆斯基 Syntactic Structures(1957)、ALPAC(1966)、IBM SMT(Brown 1990/1993)、Penn Treebank(Marcus 1993)、Kneser-Ney(1995)、word2vec(Mikolov 2013)、GloVe(2014)、seq2seq(Sutskever 2014)、Bahdanau 注意力(2014/ICLR 2015)、LSTM(1997)、Firth(1957)、Transformer(Vaswani 2017)、ELMo(2018)、BERT(Devlin 2018)、GPT-2(2019)、GPT-3(Brown 2020)、InstructGPT(Ouyang 2022)、ChatGPT(2022-11)、Grice(1975)、Searle(1969)、Bender & Koller(ACL 2020)、Niven & Kao(ACL 2019)、Bolukbasi(2016)、Mahowald(TiCS 2024, arXiv:2301.06627)、Petrov(NeurIPS 2023)、Ahia(EMNLP 2023)、Kim/Taylor/Kang(arXiv:2305.13826, 2023)、Miehling(arXiv:2403.15115, 2024)、Ma(ACL 2025, arXiv:2502.12378)、Schut(arXiv:2502.15603, 2025)、Aksoy(arXiv:2412.18863, 2024) 均来自已核实的接地证据简报。
    • 〔待核实〕降级:Jelinek「开除语言学家」名言的确切措辞标注〔待核实〕(措辞多版本流传,立场属实但原话存疑)。
    • 反线性进步:每代末尾钉「皇帝新衣」反例(第1代 ELIZA 效应;第2代 字面对意义错 + Jelinek 玩笑的盲区;第3代 类比神化 + 偏见几何化;第4代 BERT spurious cues;第5代 ELIZA 工业级重演 + 译≠本地化)。
    • 判断主轴 §7:四个 PM 易错点,每点症状→为什么错→正确做法→真实反例四件套。
    • 对手框架 §9:Bender & Koller(随机鹦鹉,Rick 圈外对手框架)+ 分布语义学极端派/规模即一切,均「接受+边界」处理。
    • Rick 独特资产呼应:§7④、§8 合规边界、§11 人类学 链入显式迁移拉美多语言 fieldwork(葡语/西语/土著语言 token 溢价 + 翻译≠本地化)。
    • 跨域呼应:语用学(Grice 合作原则 / Austin-Searle 言语行为)在 §5 具体展开为「第 5 代把语言学家请回来当对齐者」的判断转折,非装饰性引用。
    • 双链:全文真实 basename 双链(核心 5 + 延伸 7 + 正文内 Claude/Gemini/ChatGPT/幻觉/Embedding/c02 - Tokenization 与词表工程/Tokenization/m209 - 推理成本控制手册/人类学/0117社会学 多处),满足非总览节点 ≥15;与 G01 共用本专题同级节点全名 G01 计算语言学与 NLP 代际谱系总图