模块 0：AI 技术底层逻辑与模型范式解析 · 知识库

by Claude Opus 4.6

摘要：本文档旨在从第一性原理出发，穿透 AI 技术的流行语（Buzzwords），以物理学、统计学和算力账本的视角，为高阶 AI 产品战略提供理论支撑与落地推演。从传统互联网的”确定性逻辑网关”到 AI 时代的”高维概率分布映射”，产品经理的要求不再局限于商业与交互逻辑，而需要同时掌握对算力流转、架构边界与数据对齐机制等技术原理。

范围界定：本模块聚焦技术底层逻辑和大语言模型范式。产品战略、商业价值、安全伦理等内容将在其他模块中展开。

1. 认知重构：从确定性系统到概率系统

产品经理从传统互联网（Web 2.0）转型 AI，必须完成的第一道思维跃迁，是彻底抛弃基于 “If-Else” 和关系型数据库的确定性指令思维，建立基于高维概率分布预测的统计学直觉。

1.1 核心范式跃迁

传统互联网产品的底层是确定性映射：用户输入 → 规则引擎 / SQL 查询 → 确定性输出。每一步可预测、可回溯、可精确复现。

AI 产品的底层是概率分布采样：用户输入 → 高维向量化 → 在学习到的联合概率分布上条件采样 → 概率性输出。同一输入可能产生不同输出，“正确答案”变成了概率置信区间。

这一跃迁直接改变了产品设计的基本假设：确定性系统中 PM 管理的是逻辑分支；概率系统中 PM 管理的是概率分布的形状、边界与采样策略。

1.2 经典机器学习范式的业务实质映射

不同的算法范式对应着完全不同的业务抽象，PM 需要把它们翻译为产品语言：

监督学习 (Supervised Learning) → 边界划定与格式契约：在产品中（如 SFT 阶段），这是在教模型”懂规矩”。输入 X，必须输出特定格式的 Y。这是建立 AI 助手输出结构（如 JSON 格式返回、特定语气）的基础方式。

无监督学习 (Unsupervised Learning) → 隐空间降维与聚类：实质是将非结构化文本、图像映射为高维 Embedding 向量。产品应用：基于余弦相似度的语义寻址与降维分类。

分类 (Classification) vs 回归 (Regression)：分类是意图路由 (Intent Routing)（判断用户是查天气还是订机票）；回归是连续值预估（风控 AI 中预测违约概率，交易 AI 中预测价格波动）。

1.3 统计学偏差在用户体验层的具象表现

模型训练中的”拟合状态”，会精准地投射为产品交互中的用户体验灾难：

欠拟合 (Underfitting)：模型未能捕捉数据特征。体验映射——“答非所问”与”通用废话”。当用户询问极度专业的垂直领域问题时，由于预训练阶段缺乏该领域的低频词汇分布，模型只能输出放之四海而皆准的公文式套话。

过拟合 (Overfitting)：模型死记硬背了训练集中的特定模式，丧失泛化能力。体验映射——“过度僵化的回复”与”复读机效应”。如果在 SFT 阶段喂了过多同一句式的训练数据，模型无论遇到什么微小变体，都生硬地套用特定模板，导致交互体验极度机械。

2. Tokenization 与词表工程

Tokenization 是 LLM 最底层的机制之一，决定了模型”看到”什么、“说出”什么、以及每一次交互的真实成本。

2.1 BPE 分词的核心机制

当前主流 LLM 几乎都使用 Byte Pair Encoding (BPE) 或其变体（如 SentencePiece 的 Unigram 模型）。核心过程：从字符级（或字节级）起步，统计训练语料中最高频的相邻 token 对，反复合并，直至词表达到目标大小（通常 32K–128K）。

关键性质：BPE 不是”理解”语言，而是学习语料中的统计共现频率。这意味着在训练语料中出现频率高的字符序列会获得独立 token，低频序列被拆成碎片。

2.2 Tokenization 对产品的三重影响

成本直接绑定：API 按 token 计费，而非按字符或单词。同样一段话，低效分词可能消耗 2-3 倍 token 数。PM 必须理解：token 效率 = 成本效率。

上下文窗口的实际容量：模型标称 128K context，但如果某语言的 token 效率低，实际能容纳的信息量远小于英语。例如：英文 “Hello world” ≈ 2 tokens，同等信息量的中文可能消耗 3-5 tokens（取决于词表设计）。

模型能力的语言不平等：BPE 词表在英语上通常最高效（训练语料占比最大），中文次之，小语种（如泰语、阿拉伯语）可能被拆成字节级碎片。这导致：同一模型在不同语言上的推理质量天然不同，不是提示词（prompt）能弥补的。

2.3 多语言产品的 Tokenization 陷阱

对于目标为国际化的中国 AI 公司，Tokenization 问题是必须正视的产品约束：

中文分词效率：早期模型（如 LLaMA-1）的词表几乎不含中文 token，一个汉字可能被拆成 3 个字节级 token，导致中文推理极慢、成本极高、质量极差。后续中文模型（如 Qwen、ChatGLM、Yi）在词表中大幅增加中文 token，效率改善显著。但反过来，如果这些模型要服务东南亚、拉美市场，小语种又会遭遇同样的碎片化问题。

代码与结构化文本：代码中的缩进、括号、变量名等，在不同 tokenizer 下的消耗差异很大。专用代码模型会针对编程语言的高频 pattern 优化词表。

关键判断：PM 在选型模型或设计多语言产品时，tokenizer 不是可以忽略的底层细节——它直接影响成本模型、用户体验上限和国际化可行性。

2.4 前沿拓展

拓展：多模态统一 Tokenizer 空间拓展：无 Tokenizer 路线问题：为什么词表数量必须是离散有限的？

2.5 产品决策与 Tokenizer

一个容易被忽视的产品约束：tokenizer 一旦确定，几乎不可更改。

原因在于：模型的所有权重都与特定 token ID 绑定，更换词表等于重新训练。这导致：

GPT-4o 从 cl100k_base 升级到 o200k_base 时，OpenAI 实际上是重新训练了整个模型，而非只替换预处理层
早期词表设计失误（如中文覆盖不足）的技术债会一路带到模型生命周期结束
产品选型时，tokenizer 设计是一个锁定风险——换模型供应商可能意味着所有 prompt 的 token 数估算全部需要重新校验

这对国际化产品的架构决策有直接影响：token 计数逻辑不应该硬编码某个具体 tokenizer 的行为，而应该设计为可替换的服务层。

3. Transformer 核心机制与注意力变体演进

Transformer 是当前几乎所有大模型的基座架构。理解其核心机制——特别是注意力（Attention）——是理解后续所有章节（KV Cache、架构对比、量化、推理优化）的前置条件。

3.1 Self-Attention 的物理直觉

每个 token 生成三个向量：Query (Q)、Key (K)、Value (V)。注意力计算的物理直觉是：Q 是”我在找什么”，K 是”我能提供什么”，V 是”我的实际内容”。

$$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$$

$QK^T$ 的计算量随序列长度呈 $O(N^2)$ 增长——这就是长文本成本暴涨的数学根源。

3.2 多头注意力 (MHA) → 分组查询注意力 (GQA) 的演进

这条演进线直接决定了 KV Cache 的显存占用（与第 5 章联动）：

MHA (Multi-Head Attention)：每个注意力头拥有独立的 Q、K、V 投影。假设有 $H$ 个头，KV Cache 需要为每个头分别存储 K 和 V。显存占用 ∝ $H$。这是 GPT-3、LLaMA-1 使用的方案。

MQA (Multi-Query Attention)：所有头共享同一组 K 和 V，只有 Q 保持独立。KV Cache 直接缩小到原来的 $1/H$。代价：精度有损，尤其在需要精细跨位置关联的任务上。

GQA (Grouped-Query Attention)：折中方案——将 $H$ 个头分成 $G$ 组（如 8 组），组内共享 K/V。KV Cache 缩小到原来的 $G/H$。LLaMA-2 70B、Qwen-2、Mistral 等主流模型采用 GQA，在显存效率和精度之间取得了当前最佳平衡。

对产品的影响：MHA → GQA 的演进不是学术进步故事，而是”同样的 GPU 能多服务几倍用户”的直接产品约束。PM 在评估不同模型的部署成本时，注意力机制的选择是必须检查的参数。

3.3 位置编码：RoPE 与长文本扩展

Transformer 本身不感知 token 的顺序（纯集合运算），位置编码是注入顺序信息的关键。

RoPE (Rotary Position Embedding)：当前主流方案。通过旋转矩阵将位置信息编码进 Q 和 K 向量，使注意力分数自然地随相对距离衰减。

RoPE 的关键产品含义在于上下文窗口扩展：通过修改旋转频率基数（如 YaRN、NTK-aware 插值），可以将原本训练在 4K/8K 上下文的模型外推到 128K 甚至更长。但外推不是免费的——超出训练长度后，注意力精度会衰减，“长文本能力”和”长文本质量”是两回事。

4. 模型训练全阶段 Pipeline

LLM 的训练不是一步完成的，而是一条多阶段、多目标的 pipeline。理解这条全流程是理解后续各章节的主线。

预训练 (Pre-training) → 监督微调 (SFT) → 偏好对齐 (RLHF / DPO)

↓ ↓ ↓

学习语言本身学习回答格式学习人类偏好

（压缩世界知识）（遵守指令契约）（价值观与安全边界）

4.1 预训练 (Pre-training) 与 Scaling Laws

预训练的本质：在海量文本上做 next-token prediction，让模型学习语言的联合概率分布 $P(x_t | x_1, …, x_{t-1})$。这一阶段消耗了总训练算力的 90% 以上，产出的是一个”什么都懂一点但不听话”的基座模型。

Scaling Laws（缩放定律）：Kaplan et al. (2020) 和 Hoffmann et al. (2022, “Chinchilla”) 揭示了一个至关重要的经验规律：

$$L(N, D) \approx \left(\frac{N_c}{N}\right)^{\alpha_N} + \left(\frac{D_c}{D}\right)^{\alpha_D} + L_\infty$$

其中 $L$ 是损失，$N$ 是参数量，$D$ 是训练数据量。核心结论：

模型性能与参数量 $N$、数据量 $D$、计算量 $C$ 之间存在幂律关系
Chinchilla 定律：给定固定算力预算，参数量和数据量应按近似 1:20 的比例扩展（每个参数约需 20 个训练 token）。这推翻了早期”参数越大越好”的迷信
实际含义：LLaMA-1 65B 用 1.4T tokens 训练，相对于其参数量已经是 undertrained；LLaMA-2/3 大幅增加了训练 token 数

Scaling Laws 的产品战略意义：

它是理解”数据墙”（第 15 章）的理论根基——当高质量人类文本接近耗尽，Chinchilla 定律指出单纯加参数不再有效
它解释了为什么行业竞争焦点从”谁的模型更大”转向”谁的数据更好”和”谁的后训练更强”
PM 在评估模型供应商时，“训练了多少 token”比”有多少参数”更能预测模型质量

预训练的核心工程挑战：数据配比（代码、数学、多语言文本的最优混合比例）、数据去重去污、课程学习 (Curriculum Learning)、分布式训练的通信开销优化。

4.2 监督微调 (SFT) 与参数高效微调 (PEFT)

SFT 的本质：在高质量的 (指令, 回答) 对上进行微调，教会基座模型”听懂人话、格式化输出”。SFT 不是在注入新知识，而是在激活和重组预训练阶段已经学到的知识。

SFT 的产品化要点：

数据质量 >> 数据量。研究表明，1000 条极高质量的 SFT 样本可能优于 10 万条平庸样本（LIMA 论文的核心发现）
SFT 阶段过度灌入同一格式的数据，会导致过拟合和”复读机效应”（回到 1.3 节）
SFT 是建立 AI 助手输出规范（JSON 返回、特定语气、IRAC 格式等）的核心手段

参数高效微调 (PEFT) 光谱——这是应用层 PM 日常要做的架构选型：


方法	机制	可训练参数占比	典型成本	适用场景
全量微调 (Full Fine-tuning)	更新所有模型参数	100%	极高（需要与预训练同级的 GPU 集群）	基座模型训练方，或有重大领域迁移需求
LoRA (Low-Rank Adaptation)	冻结原始权重，在每层注入低秩分解矩阵 $W = W_0 + BA$（$B \in \mathbb{R}^{d \times r}$, $A \in \mathbb{R}^{r \times d}$, $r \ll d$）	0.1%–1%	低（单卡可跑 7B 模型的 LoRA）	垂直领域适配、风格调优、指令格式定制
QLoRA	LoRA + 基座模型 4-bit 量化	同 LoRA	极低（消费级 GPU 可跑）	快速原型验证、资源受限场景
Prefix Tuning / P-Tuning	在输入序列前插入可训练的”虚拟 token”	<0.1%	极低	简单任务适配、快速实验
Adapter	在 Transformer 层之间插入小型可训练模块	1%–5%	低	多任务切换（每个任务一个 Adapter，共享基座）

关键决策框架：全量微调 vs LoRA vs 纯 RAG（不微调）

如果需求是”让模型获取特定领域知识” → 优先 RAG（第 9 章），而非微调。微调注入知识容易引发灾难性遗忘
如果需求是”改变模型的行为模式/输出格式/语气风格” → LoRA / SFT
如果需求是”深度改变模型的能力分布”（如让通用模型变成代码专精模型）→ 全量微调或大规模 LoRA
成本差异可达两个数量级：全量微调一次 70B 模型可能需要数十万美元；LoRA 可能只需几千美元

4.3 偏好对齐：RLHF、DPO 与 Constitutional AI

RLHF (Reinforcement Learning from Human Feedback) 的完整 pipeline：

收集人类偏好数据：给标注员展示同一问题的多个回答，让他们排序
训练 Reward Model (RM)：用偏好数据训练一个打分模型，学习”人类觉得什么回答好”
用 RM 作为奖励信号，通过 PPO（Proximal Policy Optimization）算法优化 LLM

RLHF 的工程痛点：PPO 训练极不稳定（需要同时运行 4 个模型：policy、reference、reward、critic），对超参数极度敏感，训练成本高。

DPO (Direct Preference Optimization) 的简化：

数学上证明可以绕过显式的 Reward Model，直接从偏好对 (chosen, rejected) 优化策略
训练稳定性和成本大幅优于 PPO
已成为 2024-2025 年后训练对齐的主流选择

Constitutional AI (CAI)：

Anthropic 提出的框架：让模型自己根据一组预定义的”宪法原则”来评判和修正自己的输出
减少对人类标注员的依赖，用”AI 反馈”替代部分”人类反馈”（RLAIF）
产品应用：在合成数据 pipeline 中用作自动化质量过滤器

对齐阶段的产品本质：不是在教模型”什么是对的”，而是在塑造模型输出的概率分布的形状——压低有害/低质输出的概率，抬高有用/安全输出的概率。这个”塑形”过程是有代价的（Alignment Tax），详见第 13 章。

5. 算力物理定律与 KV Cache 账本推演

要设计高并发的 AI 产品，必须理解 GPU 的两堵墙：计算墙 (Compute Wall) 与显存墙 (Memory Wall)。这种极度的硬件”偏科”导致大模型的推理过程极度割裂。

5.1 场景推演：处理 100K Token PDF 并生成 1K Token 总结

阶段一：Prefill（预填充阶段）

物理实质：一次性并行计算 100K token 的注意力矩阵。时间复杂度为 $O(N^2)$。

硬件瓶颈：受限于计算力 (FLOPs)。此时 Tensor Core 满载，决定了用户的首字延迟 (TTFT, Time To First Token)。

阶段二：Decode（解码阶段）

物理实质：自回归逐字生成。每生成一个词，需将几百 GB 权重和前文 KV Cache 从显存搬运到计算单元。

硬件瓶颈：受限于显存带宽 (Memory Bandwidth)。算力利用率极低（<10%），决定用户的每 token 生成延迟 (TPOT, Time Per Output Token)。

PM 需要的直觉：TTFT 和 TPOT 是两个完全不同的物理瓶颈，优化策略完全不同。用户感知到的”速度”是两者的叠加，但不能混为一谈。

5.2 KV Cache 的物理占用与”显存爆炸”机制

大模型能”记住”上文，靠的是缓存所有历史 token 的 Key 和 Value 向量。

KV Cache 占用公式：

$$\text{KV Cache (bytes)} = 2 \times L \times n_{kv} \times d_{head} \times S \times \text{dtype_bytes}$$

其中：

$2$：K 和 V 两组向量
$L$：Transformer 层数
$n_{kv}$：KV 头数（MHA 下 = 总头数 $H$；GQA 下 = 分组数 $G$，远小于 $H$）
$d_{head}$：每个头的维度
$S$：序列长度（token 数）
$\text{dtype_bytes}$：数据类型字节数（FP16 = 2，FP8 = 1）

具体推算（Llama-3-70B，GQA 配置，FP16）：

$L = 80$，$n_{kv} = 8$（GQA 分组数），$d_{head} = 128$，$S = 100\text{K}$，$\text{dtype} = 2$ bytes
KV Cache = $2 \times 80 \times 8 \times 128 \times 100000 \times 2$ ≈ 32.8 GB

注：此前版本引用的 2.6 GB 数据可能基于不同的模型配置或近似。以公式为准，具体数值随模型架构参数变化。

与第 3 章的联动：如果 Llama-3-70B 仍使用 MHA（$n_{kv} = 64$），同一场景的 KV Cache 将膨胀 8 倍。GQA 不是学术花活，而是让 100K 上下文在工程上可行的前置条件。

核心产品约束：KV Cache 的物理大小直接锁死了系统能承载的并发请求数 (Concurrency Limit)。这是产品架构的绝对物理限制——不是优化代码能突破的，只能通过减少 KV Cache 占用（GQA/MQA、量化、稀疏注意力）或增加显存（更多 GPU）来解决。

5.3 跨越物理限制的产品与工程 Tricks

PagedAttention 与显存碎片化治理：借鉴操作系统虚拟内存分页机制，将 KV Cache 拆成固定大小的 page，按需分配和回收，消除显存碎片。vLLM 的核心创新，可将有效并发数提升数倍。

基于 Radix Tree 的 Prompt Caching：当多个请求共享相同的 system prompt 前缀时，底层可通过哈希匹配复用已计算的 KV Cache。设计高频重复的”全局系统设定”，可以命中缓存，将单次调用计算成本降低 70% 以上。对产品设计的暗示：system prompt 越稳定、越长，缓存收益越大。

Speculative Decoding（投机解码）：用小模型（draft model）快速自回归”猜”后续 token 序列，再用大模型并行验证。验证通过的 token 直接采纳，不通过则回退。在 draft model 命中率高的场景下，可将输出速度提升 2-3 倍，且数学上保证输出分布不变。

6. 架构演进：后 Transformer 时代的抉择


评估维度	Dense Transformer（稠密）	MoE（混合专家，如 DeepSeek-V3）	SSM / Mamba（状态空间模型）	Hybrid（混合架构，如 Jamba）
计算实质	激活 100% 参数，稠密矩阵乘法	路由机制，每次仅激活极少部分专家	序列压缩为固定隐状态向量	混用 Transformer 层与 SSM 层
首字延迟	高。随输入长度平方级激增	中低。但存在专家间通信延迟	极低。线性时间复杂度 $O(N)$	低。SSM 层线性处理 + 关键位置 Attention 补精度
长文本成本	灾难性。极耗显存	较高。仍需保留历史 KV Cache	极低。只更新固定大小隐状态	中等。SSM 层无 KV Cache，Attention 层有
逻辑推理	最强。绝对精度的信息提取	强。但极端知识密集型任务偶有欠缺	较弱。复杂”海底捞针”存在压缩损失（持续改进中）	中强。关键推理步骤由 Attention 层承担
端侧部署	极低。依赖云端大算力	中等。静态显存巨大，动态功耗低	极高。极其适合芯片级集成	中高。总参数量仍大，但推理效率好
产品落地	代码 IDE、合同逐字审查	高并发大吞吐 C 端助手	穿戴设备、IoT、无限上下文伴侣	长文本分析、知识库问答

对原版的修正说明：“逻辑推理”维度中对 SSM 的”较弱”判断需要加限定条件。2025 年后 Mamba-2 和 Hybrid 架构（如 AI21 的 Jamba、Zamba）在推理 benchmark 上的表现已经显著缩小了与纯 Transformer 的差距。新增 Hybrid 列以反映最新的架构趋势——行业正在从”非此即彼”走向”混合使用，各取所长”。

MoE 的关键细节：

路由机制 (Router)：一个小型网络决定每个 token 分配给哪些专家。路由质量直接决定 MoE 的表现——负载不均衡会导致部分专家过载、部分闲置
专家并行 (Expert Parallelism)：MoE 在分布式部署时需要专家间的 All-to-All 通信，这引入了额外的通信延迟。DeepSeek-V3 通过精心设计的辅助损失和混合并行策略优化了这一问题
产品含义：MoE 模型的”参数量”具有欺骗性——DeepSeek-V3 标称 671B 参数，但每次推理只激活约 37B，实际推理成本远低于同参数量的 Dense 模型

7. 量化 (Quantization) 与端侧部署

量化是将模型权重和/或激活值从高精度（FP32/FP16）压缩到低精度（INT8/INT4 甚至更低）的技术。它不是纯工程细节，而是决定”这个模型能不能跑在端侧""推理成本能不能再砍一半”的产品级约束。

7.1 量化的物理本质与精度-成本权衡

核心数学：将连续浮点数映射到离散整数网格。例如 FP16 → INT8 意味着将每个权重从 2 字节压缩到 1 字节，显存直接减半，且整数运算在硬件上通常更快。

精度损失的本质：量化引入的是舍入误差。对于大多数权重，这种误差可以被模型的冗余性吸收；但对于少数”离群值”（outlier）权重，量化可能造成显著的性能退化。

7.2 量化方案光谱


方案	精度	显存压缩	推理加速	精度损失	适用场景
FP16 / BF16	16-bit	基线	基线	无	训练、高精度推理
INT8 (W8A8)	权重+激活 8-bit	~2×	1.5-2×	极小	云端大规模部署
GPTQ	权重 4-bit（逐层量化）	~4×	2-3×	小（对 outlier 敏感）	离线量化、快速部署
AWQ (Activation-aware Weight Quantization)	权重 4-bit（感知激活分布）	~4×	2-3×	极小（优于 GPTQ）	当前 4-bit 量化的主流方案
GGUF (llama.cpp)	2-8 bit 混合	4-8×	视精度而定	中等（2-bit 下显著）	CPU 推理、消费级设备端侧部署

7.3 量化对产品架构的影响

端侧部署的可行性门槛：一个 7B FP16 模型需要 ~14GB 显存，超出大多数消费级设备能力。INT4 量化后降至 ~3.5GB，可以在高端手机或 MacBook 上运行。量化是第 6 章中 SSM/Hybrid 架构实现”穿戴设备部署”的必要前置条件。

KV Cache 量化：不仅权重可以量化，KV Cache 也可以。将 KV Cache 从 FP16 量化到 FP8/INT8，可以直接将第 5 章中计算的并发上限翻倍（$\text{dtype_bytes}$ 从 2 变为 1）。

QLoRA 的双重价值：结合第 4 章的 PEFT 讨论——QLoRA = 4-bit 量化基座 + LoRA 微调，使得在单张消费级 GPU（24GB）上微调 70B 模型成为可能。这极大降低了垂直领域微调的资金门槛。

8. 解码策略与生成控制

解码策略是 PM 能直接操控模型输出行为的最近一层杠杆。这些参数不需要重新训练模型，只影响推理时的采样过程。

8.1 核心采样参数

Temperature (温度)：

控制 softmax 输出概率分布的”尖锐度”
$T = 0$（或极低）：贪心解码，每次选概率最高的 token。输出确定性最大，适合事实查询、代码生成、结构化输出
$T = 0.7-1.0$：标准范围，平衡创造性与一致性
$T > 1.0$：分布变平，低概率 token 被选中的机会增大。输出更多样但更不可控
产品设计含义：面向企业的严肃场景（合同审查、医疗问答）应默认低温；面向创意场景（写作辅助、头脑风暴）可使用较高温度

Top-k 采样：

每步只从概率最高的前 $k$ 个 token 中采样，其余截断为零概率
问题：固定 $k$ 值对所有上下文一视同仁，但有些位置模型很确定（“巴黎是法国的___”），有些位置不确定（“今天天气很___”）

Top-p (Nucleus Sampling)：

动态选取累积概率达到 $p$ 的最小 token 集合。自适应地调整候选集大小
当模型很确定时，候选集可能只有 2-3 个 token；当模型不确定时，候选集可能有几十个
实践中 Top-p = 0.9-0.95 是常用设置，通常优于固定 Top-k

Frequency Penalty / Presence Penalty（频率/存在惩罚）：

降低已出现 token 的再次出现概率，减少重复
过高会导致模型刻意避免常用词，输出变得生硬

8.2 受约束解码 (Constrained Decoding)

当需要模型输出严格符合特定格式时（JSON Schema、XML、SQL），可以在解码时施加硬约束：

JSON Mode / Structured Output：在每一步采样时，根据当前已生成的 token，动态计算下一步语法上合法的 token 集合，将不合法的 token 概率置零。这保证输出 100% 符合目标 schema。

产品含义：受约束解码让”模型输出不可解析”这一类 bug 在架构层面被消除，而不依赖后处理正则匹配或重试。这是 function calling 和 Agent 可靠运行的工程基础。

8.3 Beam Search 与采样的选择

Beam Search：同时维护 $b$ 条候选序列，每步扩展所有候选并保留总概率最高的 $b$ 条。适合需要全局最优的场景（翻译、摘要），但生成内容往往较平淡（倾向高频词组合）。

采样（Sampling）：每步独立采样一个 token。更适合开放式生成（对话、写作），输出更自然但可能不一致。

当前主流 LLM 产品几乎全部使用采样 + Top-p + Temperature 的组合，Beam Search 更多用于特定 NLP 子任务。

9. RAG 架构的工程解构与非参数化记忆

在产品架构中，LLM 是负责逻辑计算的 CPU，而 RAG 则是外挂的硬盘与内存。企图用微调（SFT）将知识压入模型权重中，在工程上极其低效且容易引发灾难性遗忘。RAG 的本质，是建立**非参数化记忆（Non-parametric Memory）**的调用管线。

9.1 RAG 的物理必要性与长上下文的陷阱

“为什么不用百万上下文（1M Context）代替 RAG？“——虽然 Gemini 1.5 Pro 等模型支持超长窗口，但每次丢入百万 Token 会在 Prefill 阶段消耗海量算力（FLOPs），导致 TTFT 极长且 API 成本高昂。此外，全局 Attention 会产生**“中间迷失” (Lost in the middle)** 现象，注意力稀释导致关键信息提取失败。

RAG 的价值：作为一层前置的”高维数据过滤器”，从海量文库中只抽取最相关的若干 K Token 喂给 LLM，既保证了算力经济性，又提高了信息密度和推理准确率。

9.2 检索范式演进与混合架构 (Hybrid Search) 的必然

RAG 的灵魂在于”R（检索）“，向量化并非唯一解，成熟的商业系统必然是混合架构：

传统稀疏检索 (Lexical/Sparse, 如 BM25)：基于字面量与倒排索引。优势：对专有名词、特定法条编号（如”哥伦比亚劳动法 Article 64”）的召回率极高。劣势：无法应对用户的泛化提问。

密集向量检索 (Dense Retrieval/Embedding)：将文本映射到连续的隐空间，计算余弦相似度。优势：跨越字面匹配，理解”语意”（如搜索”高山症”，能召回包含”Soroche”的文本）。劣势：对低频罕见词汇的 Embedding 往往失真（与第 2 章 Tokenization 对低频词的处理直接相关）。

重排序 (Reranker) 机制：这是决定 RAG 产品体验的生死线。由于 BM25 和 Embedding 计算分数不在同一维度，必须引入独立的 Cross-Encoder 重排序模型，对召回的 Top-K 文档进行联合打分和截断，再喂给 LLM。

9.3 高阶 RAG 的工程壁垒与产品化破局

Query 转换 (Query Transformation)：用户输入的 Prompt 往往是短视且糟糕的。在底层，系统必须先用一个小模型将用户的模糊提问改写为”适合检索的 Query”（如采用 HyDE 假设性文档嵌入算法——让模型先生成一个假设性回答，再用这个回答去做 embedding 检索），再进行数据库查询。

知识图谱增强 (GraphRAG)：单纯的向量检索只能解决”单跳问题”。面对”跨合同文本的股权嵌套关系”这类”多跳推理”，必须通过构建实体-关系图谱，让检索沿着图网络游走。

Chunk 策略：文档如何切分直接影响检索质量——按固定长度切、按语义段落切、按滑动窗口重叠切、按文档结构（标题/章节）切，各有优劣。粒度太粗丢失精度，太细丢失上下文。这是 RAG 产品调优中最依赖经验判断的环节。

评估解耦：在业务上，必须将 RAG 的评测拆开。检索阶段看 Hit Rate（命中率）和 MRR（平均倒数排名）；生成阶段只看 Faithfulness（忠实度：是否完全基于检索内容生成，而非凭借幻觉）。两个阶段的问题诊断和优化策略完全不同，混在一起看指标会误诊。

10. Agent 技术栈与工具调用

Agent 是 2024-2025 年 AI 产品的核心战场。Agent 不是一个新模型，而是在 LLM 外围构建的一套规划-执行-反馈循环。

10.1 核心能力栈

Tool Use / Function Calling：让 LLM 不只输出文本，而是输出结构化的”函数调用指令”，由外部系统执行并将结果返回给 LLM 继续推理。

机制：模型在训练/提示中被教会，当遇到需要外部信息或操作时，输出特定格式的 JSON（工具名 + 参数），而非直接编造答案。外部系统解析、执行、返回结果。这依赖第 8 章中的受约束解码来保证输出格式可靠。

ReAct (Reasoning + Acting) 框架：

Thought: 我需要查询今天的汇率

Action: call_api(“exchange_rate”, {from: “USD”, to: “CNY”})

Observation: 7.23

Thought: 用户要换 1000 美元，7.23 × 1000 = 7230

Answer: 1000 美元约等于 7230 人民币

核心思想：让模型交替进行推理（Thought）和行动（Action），每次行动的观察结果（Observation）作为下一步推理的输入。这是大多数 Agent 框架的基础范式。

Planning（规划）：面对复杂任务，Agent 需要先将任务分解为子任务序列，再逐步执行。常见方案包括：

固定流程 (DAG)：预定义的工作流拓扑，适合结构化业务流程
LLM 动态规划：让模型自主分解任务并决定执行顺序。灵活但不可靠——规划质量是 Agent 产品的最大瓶颈
层级规划 (Hierarchical Planning)：先做粗粒度规划，再逐步细化，类似人类的”先想大方向再填细节”

10.2 Agent 的核心工程挑战

可靠性困境：Agent 的每一步都是 LLM 的一次概率采样。5 步串联的成功率 = 每步成功率的 5 次方。如果每步 95% 准确，5 步后只有 77%，10 步后只有 60%。这是 Agent 产品从 demo 到生产级的最大鸿沟。

错误积累与恢复：一步出错，后续推理基于错误状态继续，可能雪崩。需要设计：错误检测机制（让模型或外部检查器验证每步结果）、回退策略（发现错误后退回到哪一步）、人机协作断点（关键步骤让人类确认）。

上下文管理：多步 Agent 执行过程中，历史 Thought-Action-Observation 会迅速填满上下文窗口。需要做上下文压缩（只保留关键信息的摘要）或外部记忆存储。

10.3 Agent 产品的架构模式

单 Agent + 多工具：一个 LLM 实例调配多个工具。适合任务明确、工具集有限的场景（如客服 Agent、个人助手）。

多 Agent 协作：多个专精 Agent 各负责一个子域（如研究 Agent + 写作 Agent + 审核 Agent），通过消息传递协作。适合复杂工作流（如 Manus 的多 Agent 框架）。

MCP (Model Context Protocol)：Anthropic 推出的开放标准，定义了 LLM 与外部工具/数据源之间的通信协议。解决的核心问题是互操作性——让一个 Agent 框架可以无缝对接任意工具，而不是每个工具都写一套自定义适配器。

对第 11 章的预告：当 Agent 需要进行复杂推理时（如多步法律分析、代码调试），单靠 ReAct 的浅层推理不够。这需要结合 System 2 思维的深度推理能力，两者融合形成 “Reasoning Agent” 范式。

11. System 2 思维、强化学习与产品范式重构（The O1/R1 Era）

目前的范式转移在于：将算力从预训练阶段 (Pre-training) 转移到推理阶段 (Test-Time Compute)。

11.1 深度解析 Test-Time Compute 与 PRM 机制

新范式通过强化学习 (RL) 训练模型在推理时进行树搜索 (MCTS)、试错与回溯。

ORM (Outcome Reward Model) vs PRM (Process Reward Model)：

ORM：只看最终结果是否正确，给 0/1 奖励。无法区分”推理正确但计算失误”和”推理方向错误”
PRM：对模型思考过程中的每一个推理步骤进行打分估值。模型生成隐式思考 Token（hidden chain-of-thought），遇低分路径自动剪枝回溯

PRM 的关键突破在于：它让”思考质量”本身成为可优化的目标，而非仅优化最终输出。这对应人类认知中 System 1（快速直觉）到 System 2（慢速深度推理）的切换。

11.2 与 Agent 的融合：Reasoning Agent

第 10 章的 Agent 提供了”行动能力”，本章的 System 2 提供了”深度推理能力”。融合形态：

Agent 在遇到复杂决策节点时，不是一步 ReAct 就输出 Action，而是先进入长时间的 hidden reasoning（生成大量隐式 token，进行多路径评估和回溯），再输出经过深度推理的行动
这解释了为什么 OpenAI 的 o1/o3 和 DeepSeek-R1 在代码、数学等需要多步推理的任务上大幅领先

11.3 颠覆性的产品形态 (UI/UX 与任务流重构)

当模型需要思考 5 分钟甚至更长时，“实时聊天框”彻底失效。产品形态必须重构：

异步代理工作流 (Async Agentic Workflows)：转为后台独立任务，UI 提供 CI/CD 般的进度 Dashboard。用户提交任务后可以离开，完成后收到通知。

思维过程白盒化与信任重塑：以外显的折叠面板展示”模型查阅 → 发现矛盾 → 回溯换路”的完整过程，建立复杂决策的信任。这直接关联承接文档中的”信任抽象层”产品方法论。

动态算力预算控制 (Budget Slider)：将商业化定价从”按字数计费”彻底转变为”按算力/思考时间计费”。用户可以选择”快速回答”（低算力预算、浅层推理）或”深度分析”（高算力预算、多路径探索）。

12. 多模态融合与具身智能 (Embodied AI)

12.1 生成机制的物理学分歧

自回归 (Autoregressive)：在离散词表空间寻路，基于概率逐个预测。擅长严格逻辑递进和时序约束（代码、推理）。LLM 的原生范式。

扩散模型 (Diffusion)：在连续隐空间中，通过反向马尔可夫链去噪还原分布。擅长捕捉全局结构和像素级美学（图像、视频、3D）。Stable Diffusion、DALL-E 3、Sora 的基础。

两者的产品分工：文本/代码/逻辑 → 自回归；图像/视频/音频生成 → 扩散（或 Flow Matching 等变体）。前沿趋势是将两者融合在统一框架中。

12.2 Vision Transformer 与跨模态对齐

ViT (Vision Transformer)：将图像切分为固定大小的 patch（如 16×16 像素），每个 patch 线性投影为一个 token，直接送入 Transformer 处理。核心意义：让图像和文本在同一架构下处理，为多模态融合铺平道路。

CLIP 范式（Contrastive Language-Image Pre-training）：

训练一个图像编码器和一个文本编码器，让它们将配对的图像-文本映射到同一隐空间的相近位置
核心产品价值：实现”跨模态语义搜索”——用文字搜图片、用图片搜文字
CLIP 是大量多模态模型（LLaVA、GPT-4V 的前置组件、DALL-E 的引导信号）的基石

视觉 Tokenization：将图像信息转化为离散 token 序列，使其可以与文本 token 统一处理。主要方案：

VQ-VAE / VQ-GAN：通过向量量化将图像压缩为离散 codebook 索引
视觉编码器直接输出连续 embedding：如 LLaVA 的架构，ViT 编码器输出的连续向量通过投影层映射到 LLM 的 embedding 空间

12.3 原生多模态对交互延迟的革命

过去 “ASR → LLM → TTS” 的串联管线直接抹杀了声学特征（情绪、喘息、语调），且延迟高达 2-3 秒。原生多模态范式（如 GPT-4o）将音频频谱直接 Token 化联合训练，实现了 <300ms 的首字延迟。

这一变革的产品意义：

对于户外穿戴设备或复杂物理环境（如高海拔重装徒步时的急救语音指引），<300ms 延迟是体验从”机器”到”人”的分水岭
原生多模态保留了声学特征，模型能”听懂”情绪并在输出中调整语气——这在心理咨询、教育、客服等场景中是质变级的能力提升
串联管线的错误是不可逆积累（ASR 识别错一个词，后续全错）；原生多模态消除了中间错误传播

12.4 具身智能 (Embodied AI) 的底座需求

当 AI 从屏幕走进物理世界（机器人、自动驾驶、AR 设备），需要的核心能力是：

实时多模态感知（视觉 + 触觉 + 力觉 + 本体感觉）
物理世界建模（3D 空间理解、物体交互物理学）
低延迟决策（第 6 章中 SSM/Mamba 的端侧部署优势在此凸显）
从仿真到真实的迁移学习 (Sim2Real)

13. 彻底祛魅：为什么”幻觉”无法被彻底消除？

在物理与数学本质层面，幻觉不是 Bug，而是生成式模型的核心架构特性。

13.1 Softmax 与高维概率插值本质

大语言模型在拟合联合概率分布 $P(x_t | x_1, …, x_{t-1})$。面对边缘知识（训练数据中罕见的事实组合）时，它必定通过相邻概念的概率权重强行插值给出一个输出。这种机制在创意领域叫泛化，在事实领域就是幻觉。

13.2 后训练的对齐税 (Alignment Tax)

RLHF 训练了讨好人类的 Reward Model。这导致模型学会了**“谄媚 (Sycophancy)”**——它宁愿编造毫无破绽的假文献，也不愿因诚实回答”我不知道”而获得低分。

更深层的机制：在 RLHF 的优化过程中，模型被训练为最大化 Reward Model 的打分。如果 RM 的训练数据中”流畅、自信、详细的回答”普遍获得高分，模型就会学会”无论知不知道都自信地详细回答”这一策略。这是第 4.3 节中对齐机制的一个结构性副作用。

13.3 校准 (Calibration) 问题

幻觉不只是”编造”，还包括模型对自己输出的置信度和实际准确率的不匹配。

理想的校准模型：当它说”我 90% 确定”时，应该有 90% 的概率是对的。但实际上，当前 LLM 的校准极差——它们几乎对所有输出都表现得同等自信，无论对错。

这直接连接到承接文档中的核心产品方法论：“感知可靠性 ≠ 实际准确率”。在滴滴案例中，你通过信息架构重组解决了感知安全与实际安全的脱钩问题。在 AI 产品中，面临的是一个更棘手的版本——用户无法从模型的输出语气判断其可信度，因为模型本身的置信度就是不可靠的。

13.4 产品的应对策略

基于内生性分布，幻觉不可根除。可行的策略层次：

外部护栏 (Guardrails)：RAG 系统提供事实锚点；后端隐式调用 Temperature=0 的独立”裁判模型”进行事实核查和打分重写
不确定性外显：当模型的 logit 分布熵值高（多个 token 概率接近）时，在 UI 上标注”低置信度”。这需要工程上将 logprobs 暴露给前端
可溯源设计：让每条输出可以追溯到来源（RAG 检索到的原文、引用的文献），用户可自行验证

14. 模型评估体系 (Evaluation) 的重构与 Goodhart 陷阱

14.1 Benchmark 陷阱与 Goodhart 定律

“当一个指标变成目标，它就不再是一个好指标”。各大厂商为了刷榜，在 SFT 阶段针对 Benchmark 进行严重过拟合（第 4.2 节的过拟合问题在评估层面的体现）。这导致模型在榜单上超越人类，但在真实业务长尾场景中表现极其脆弱。

具体表现：MMLU、GSM8K 等公开 benchmark 的分数已经高度通胀，区分度丧失。头部模型在这些榜单上的差异在 1-2% 以内，但在实际业务中的表现差异可能是 10-20%。

14.2 评估自动化：LLM-as-a-Judge 的构建逻辑与局限

转向用强模型充当裁判打分，需避开致命局限：

位置偏见 (Position Bias)：模型倾向给先出现的答案打高分。缓解方案：随机交换答案顺序，取平均分。

冗长偏见 (Verbosity Bias)：模型极度偏好又长又具条理性的答案，哪怕核心逻辑错误。缓解方案：在评分 prompt 中显式要求”忽略长度，只评价正确性”。

自我偏见 (Self-Bias)：模型倾向给自己（同家族模型）的输出打高分。因此裁判模型和被评模型最好来自不同厂商。

14.3 技术指标到业务体验指标的精准映射

传统 NLP 指标的失效：BLEU / ROUGE 完全基于 n-gram 重叠，与用户体验相关性极低，应彻底抛弃。

应监控的业务体验指标：

任务完成率 (Task Completion Rate)：用户通过 AI 成功完成目标任务的比例
问题解决时长 (Time to Resolution)：从发起请求到获得满意答案的时间
人工接管率 (Human Takeover Rate)：AI 无法完成、需要转接人工的比例。幻觉率的业务映射
合规投诉率：企业级 AI 的硬核底线
用户留存 / 回访率：终极的体验综合指标

15. 数据墙与后训练霸权

当纯人类高质量文本接近耗尽，“数据墙 (Data Wall)“到来。结合第 4.1 节的 Scaling Laws，这意味着预训练阶段的边际收益正在急剧递减——不是因为模型架构碰壁，而是因为 Chinchilla 定律要求的训练数据量已经逼近人类文明产出文本的总量。

15.1 后训练成为核心竞争力

AI 的炼金术壁垒正在从预训练全面转向后训练 (SFT & RLHF/DPO)：

合成数据 (Synthetic Data)：用强模型生成训练数据给弱模型或给自身迭代。核心挑战是质量控制——合成数据的分布偏差会在训练中被放大（“模型退化” / “model collapse”）。需要结合 Constitutional AI（第 4.3 节）做自动化的质量过滤。

数据蒸馏 (Knowledge Distillation)：让小模型学习大模型的输出分布（不只是最终答案，而是完整的概率分布），以大幅降低部署成本。本质上是在”压缩”大模型的知识。

多 Agent 对抗数据生成：让多个 Agent 进行对抗辩论，生成深度攻防逻辑数据。这比单纯让模型自问自答能产出更高质量的训练样本，因为对抗过程自然地发现了边界情况和逻辑漏洞。

15.2 后训练的工程 Pipeline

一个完整的后训练 pipeline 包含：

Seed Data 构建：获取目标领域的高质量真实样本，作为对齐的”锚点”
合成数据扩增：基于 Seed Data，用模型生成覆盖更多场景和边界情况的训练数据
质量过滤：通过 Constitutional AI、人工审核、或独立评判模型剔除低质/有害数据
SFT 格式规范化：强制模型输出符合目标格式和语气（回到第 4.2 节）
DPO/RLHF 偏好优化：构建偏好对数据，优化模型在目标领域的行为边界

产品层面的关键判断：单纯”套壳”——即在通用模型之上只做 RAG 而不做任何后训练——在简单场景可行，但在专业垂直领域（法律、医疗、金融）中远不够。真正的壁垒在于拥有高质量 Seed Data 和成熟的后训练 pipeline。这是评估 AI 创业公司护城河深度的关键维度。

附录：全文知识结构与章节联动图

第 1 章（认知重构）

↓ 底层机制

第 2 章（Tokenization）← 影响成本、多语言体验

第 3 章（Transformer & Attention 变体）← GQA 联动 → 第 5 章（KV Cache）

↓ 训练流程

第 4 章（训练 Pipeline：Pre-training / SFT / RLHF）

├─ Pre-training ← Scaling Laws → 第 15 章（数据墙）

├─ SFT / PEFT ← LoRA/QLoRA → 第 7 章（量化）

└─ RLHF / DPO → 第 13 章（幻觉 & Alignment Tax）

↓ 推理部署

第 5 章（算力物理 & KV Cache）→ 并发限制

第 6 章（架构演进：Dense / MoE / SSM / Hybrid）→ 端侧部署 ← 第 7 章（量化）

第 7 章（量化 & 端侧部署）

第 8 章（解码策略）→ 输出控制 → 第 10 章（Agent 的 Function Calling）

↓ 应用架构

第 9 章（RAG）← 非参数化记忆

第 10 章（Agent 技术栈）← ReAct / Tool Use / Planning

第 11 章（System 2 & Test-Time Compute）← 深度推理 + Agent 融合

第 12 章（多模态 & 具身智能）← ViT / CLIP / 原生多模态

↓ 质量保障

第 13 章（幻觉不可消除性 & 校准问题）

第 14 章（评估体系 & Goodhart 陷阱）

第 15 章（数据墙 & 后训练霸权）

文档版本：v2 更新时间：2026 年 3 月 17 日基于 v1 版本重构，新增 Tokenization、注意力变体演进、训练 Pipeline（含 Scaling Laws 与 PEFT 光谱）、量化、解码策略、Agent 技术栈共 6 个模块；收窄第 1 章、补厚多模态章节、补充幻觉章节的校准问题、将法律 AI 实操案例移出至产品战略模块、增加全文联动图