模块 0:AI 技术底层逻辑与模型范式解析
by Claude Opus 4.6
摘要:本文档旨在从第一性原理出发,穿透 AI 技术的流行语(Buzzwords),以物理学、统计学和算力账本的视角,为高阶 AI 产品战略提供理论支撑与落地推演。从传统互联网的”确定性逻辑网关”到 AI 时代的”高维概率分布映射”,产品经理的要求不再局限于商业与交互逻辑,而需要同时掌握对算力流转、架构边界与数据对齐机制等技术原理。
范围界定:本模块聚焦技术底层逻辑和大语言模型范式。产品战略、商业价值、安全伦理等内容将在其他模块中展开。
1. 认知重构:从确定性系统到概率系统
产品经理从传统互联网(Web 2.0)转型 AI,必须完成的第一道思维跃迁,是彻底抛弃基于 “If-Else” 和关系型数据库的确定性指令思维,建立基于高维概率分布预测的统计学直觉。
1.1 核心范式跃迁
传统互联网产品的底层是确定性映射:用户输入 → 规则引擎 / SQL 查询 → 确定性输出。每一步可预测、可回溯、可精确复现。
AI 产品的底层是概率分布采样:用户输入 → 高维向量化 → 在学习到的联合概率分布上条件采样 → 概率性输出。同一输入可能产生不同输出,“正确答案”变成了概率置信区间。
这一跃迁直接改变了产品设计的基本假设:确定性系统中 PM 管理的是逻辑分支;概率系统中 PM 管理的是概率分布的形状、边界与采样策略。
1.2 经典机器学习范式的业务实质映射
不同的算法范式对应着完全不同的业务抽象,PM 需要把它们翻译为产品语言:
监督学习 (Supervised Learning) → 边界划定与格式契约:在产品中(如 SFT 阶段),这是在教模型”懂规矩”。输入 X,必须输出特定格式的 Y。这是建立 AI 助手输出结构(如 JSON 格式返回、特定语气)的基础方式。
无监督学习 (Unsupervised Learning) → 隐空间降维与聚类:实质是将非结构化文本、图像映射为高维 Embedding 向量。产品应用:基于余弦相似度的语义寻址与降维分类。
分类 (Classification) vs 回归 (Regression):分类是意图路由 (Intent Routing)(判断用户是查天气还是订机票);回归是连续值预估(风控 AI 中预测违约概率,交易 AI 中预测价格波动)。
1.3 统计学偏差在用户体验层的具象表现
模型训练中的”拟合状态”,会精准地投射为产品交互中的用户体验灾难:
欠拟合 (Underfitting):模型未能捕捉数据特征。体验映射——“答非所问”与”通用废话”。当用户询问极度专业的垂直领域问题时,由于预训练阶段缺乏该领域的低频词汇分布,模型只能输出放之四海而皆准的公文式套话。
过拟合 (Overfitting):模型死记硬背了训练集中的特定模式,丧失泛化能力。体验映射——“过度僵化的回复”与”复读机效应”。如果在 SFT 阶段喂了过多同一句式的训练数据,模型无论遇到什么微小变体,都生硬地套用特定模板,导致交互体验极度机械。
2. Tokenization 与词表工程
Tokenization 是 LLM 最底层的机制之一,决定了模型”看到”什么、“说出”什么、以及每一次交互的真实成本。
2.1 BPE 分词的核心机制
当前主流 LLM 几乎都使用 Byte Pair Encoding (BPE) 或其变体(如 SentencePiece 的 Unigram 模型)。核心过程:从字符级(或字节级)起步,统计训练语料中最高频的相邻 token 对,反复合并,直至词表达到目标大小(通常 32K–128K)。
关键性质:BPE 不是”理解”语言,而是学习语料中的统计共现频率。这意味着在训练语料中出现频率高的字符序列会获得独立 token,低频序列被拆成碎片。
2.2 Tokenization 对产品的三重影响
成本直接绑定:API 按 token 计费,而非按字符或单词。同样一段话,低效分词可能消耗 2-3 倍 token 数。PM 必须理解:token 效率 = 成本效率。
上下文窗口的实际容量:模型标称 128K context,但如果某语言的 token 效率低,实际能容纳的信息量远小于英语。例如:英文 “Hello world” ≈ 2 tokens,同等信息量的中文可能消耗 3-5 tokens(取决于词表设计)。
模型能力的语言不平等:BPE 词表在英语上通常最高效(训练语料占比最大),中文次之,小语种(如泰语、阿拉伯语)可能被拆成字节级碎片。这导致:同一模型在不同语言上的推理质量天然不同,不是提示词(prompt)能弥补的。
2.3 多语言产品的 Tokenization 陷阱
对于目标为国际化的中国 AI 公司,Tokenization 问题是必须正视的产品约束:
中文分词效率:早期模型(如 LLaMA-1)的词表几乎不含中文 token,一个汉字可能被拆成 3 个字节级 token,导致中文推理极慢、成本极高、质量极差。后续中文模型(如 Qwen、ChatGLM、Yi)在词表中大幅增加中文 token,效率改善显著。但反过来,如果这些模型要服务东南亚、拉美市场,小语种又会遭遇同样的碎片化问题。
代码与结构化文本:代码中的缩进、括号、变量名等,在不同 tokenizer 下的消耗差异很大。专用代码模型会针对编程语言的高频 pattern 优化词表。
关键判断:PM 在选型模型或设计多语言产品时,tokenizer 不是可以忽略的底层细节——它直接影响成本模型、用户体验上限和国际化可行性。
2.4 前沿拓展
拓展:多模态统一 Tokenizer 空间 拓展:无 Tokenizer 路线 问题:为什么词表数量必须是离散有限的?
2.5 产品决策与 Tokenizer
一个容易被忽视的产品约束:tokenizer 一旦确定,几乎不可更改。
原因在于:模型的所有权重都与特定 token ID 绑定,更换词表等于重新训练。这导致:
-
GPT-4o 从 cl100k_base 升级到 o200k_base 时,OpenAI 实际上是重新训练了整个模型,而非只替换预处理层
-
早期词表设计失误(如中文覆盖不足)的技术债会一路带到模型生命周期结束
-
产品选型时,tokenizer 设计是一个锁定风险——换模型供应商可能意味着所有 prompt 的 token 数估算全部需要重新校验
这对国际化产品的架构决策有直接影响:token 计数逻辑不应该硬编码某个具体 tokenizer 的行为,而应该设计为可替换的服务层。
3. Transformer 核心机制与注意力变体演进
Transformer 是当前几乎所有大模型的基座架构。理解其核心机制——特别是注意力(Attention)——是理解后续所有章节(KV Cache、架构对比、量化、推理优化)的前置条件。
3.1 Self-Attention 的物理直觉
每个 token 生成三个向量:Query (Q)、Key (K)、Value (V)。注意力计算的物理直觉是:Q 是”我在找什么”,K 是”我能提供什么”,V 是”我的实际内容”。
$$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$$
$QK^T$ 的计算量随序列长度呈 $O(N^2)$ 增长——这就是长文本成本暴涨的数学根源。
3.2 多头注意力 (MHA) → 分组查询注意力 (GQA) 的演进
这条演进线直接决定了 KV Cache 的显存占用(与第 5 章联动):
MHA (Multi-Head Attention):每个注意力头拥有独立的 Q、K、V 投影。假设有 $H$ 个头,KV Cache 需要为每个头分别存储 K 和 V。显存占用 ∝ $H$。这是 GPT-3、LLaMA-1 使用的方案。
MQA (Multi-Query Attention):所有头共享同一组 K 和 V,只有 Q 保持独立。KV Cache 直接缩小到原来的 $1/H$。代价:精度有损,尤其在需要精细跨位置关联的任务上。
GQA (Grouped-Query Attention):折中方案——将 $H$ 个头分成 $G$ 组(如 8 组),组内共享 K/V。KV Cache 缩小到原来的 $G/H$。LLaMA-2 70B、Qwen-2、Mistral 等主流模型采用 GQA,在显存效率和精度之间取得了当前最佳平衡。
对产品的影响:MHA → GQA 的演进不是学术进步故事,而是”同样的 GPU 能多服务几倍用户”的直接产品约束。PM 在评估不同模型的部署成本时,注意力机制的选择是必须检查的参数。
3.3 位置编码:RoPE 与长文本扩展
Transformer 本身不感知 token 的顺序(纯集合运算),位置编码是注入顺序信息的关键。
RoPE (Rotary Position Embedding):当前主流方案。通过旋转矩阵将位置信息编码进 Q 和 K 向量,使注意力分数自然地随相对距离衰减。
RoPE 的关键产品含义在于上下文窗口扩展:通过修改旋转频率基数(如 YaRN、NTK-aware 插值),可以将原本训练在 4K/8K 上下文的模型外推到 128K 甚至更长。但外推不是免费的——超出训练长度后,注意力精度会衰减,“长文本能力”和”长文本质量”是两回事。
4. 模型训练全阶段 Pipeline
LLM 的训练不是一步完成的,而是一条多阶段、多目标的 pipeline。理解这条全流程是理解后续各章节的主线。
预训练 (Pre-training) → 监督微调 (SFT) → 偏好对齐 (RLHF / DPO)
↓ ↓ ↓
学习语言本身 学习回答格式 学习人类偏好
(压缩世界知识) (遵守指令契约) (价值观与安全边界)
4.1 预训练 (Pre-training) 与 Scaling Laws
预训练的本质:在海量文本上做 next-token prediction,让模型学习语言的联合概率分布 $P(x_t | x_1, …, x_{t-1})$。这一阶段消耗了总训练算力的 90% 以上,产出的是一个”什么都懂一点但不听话”的基座模型。
Scaling Laws(缩放定律):Kaplan et al. (2020) 和 Hoffmann et al. (2022, “Chinchilla”) 揭示了一个至关重要的经验规律:
$$L(N, D) \approx \left(\frac{N_c}{N}\right)^{\alpha_N} + \left(\frac{D_c}{D}\right)^{\alpha_D} + L_\infty$$
其中 $L$ 是损失,$N$ 是参数量,$D$ 是训练数据量。核心结论:
-
模型性能与参数量 $N$、数据量 $D$、计算量 $C$ 之间存在幂律关系
-
Chinchilla 定律:给定固定算力预算,参数量和数据量应按近似 1:20 的比例扩展(每个参数约需 20 个训练 token)。这推翻了早期”参数越大越好”的迷信
-
实际含义:LLaMA-1 65B 用 1.4T tokens 训练,相对于其参数量已经是 undertrained;LLaMA-2/3 大幅增加了训练 token 数
Scaling Laws 的产品战略意义:
-
它是理解”数据墙”(第 15 章)的理论根基——当高质量人类文本接近耗尽,Chinchilla 定律指出单纯加参数不再有效
-
它解释了为什么行业竞争焦点从”谁的模型更大”转向”谁的数据更好”和”谁的后训练更强”
-
PM 在评估模型供应商时,“训练了多少 token”比”有多少参数”更能预测模型质量
预训练的核心工程挑战:数据配比(代码、数学、多语言文本的最优混合比例)、数据去重去污、课程学习 (Curriculum Learning)、分布式训练的通信开销优化。
4.2 监督微调 (SFT) 与参数高效微调 (PEFT)
SFT 的本质:在高质量的 (指令, 回答) 对上进行微调,教会基座模型”听懂人话、格式化输出”。SFT 不是在注入新知识,而是在激活和重组预训练阶段已经学到的知识。
SFT 的产品化要点:
-
数据质量 >> 数据量。研究表明,1000 条极高质量的 SFT 样本可能优于 10 万条平庸样本(LIMA 论文的核心发现)
-
SFT 阶段过度灌入同一格式的数据,会导致过拟合和”复读机效应”(回到 1.3 节)
-
SFT 是建立 AI 助手输出规范(JSON 返回、特定语气、IRAC 格式等)的核心手段
参数高效微调 (PEFT) 光谱——这是应用层 PM 日常要做的架构选型:
| 方法 | 机制 | 可训练参数占比 | 典型成本 | 适用场景 |
| 全量微调 (Full Fine-tuning) | 更新所有模型参数 | 100% | 极高(需要与预训练同级的 GPU 集群) | 基座模型训练方,或有重大领域迁移需求 |
| LoRA (Low-Rank Adaptation) | 冻结原始权重,在每层注入低秩分解矩阵 $W = W_0 + BA$($B \in \mathbb{R}^{d \times r}$, $A \in \mathbb{R}^{r \times d}$, $r \ll d$) | 0.1%–1% | 低(单卡可跑 7B 模型的 LoRA) | 垂直领域适配、风格调优、指令格式定制 |
| QLoRA | LoRA + 基座模型 4-bit 量化 | 同 LoRA | 极低(消费级 GPU 可跑) | 快速原型验证、资源受限场景 |
| Prefix Tuning / P-Tuning | 在输入序列前插入可训练的”虚拟 token” | <0.1% | 极低 | 简单任务适配、快速实验 |
| Adapter | 在 Transformer 层之间插入小型可训练模块 | 1%–5% | 低 | 多任务切换(每个任务一个 Adapter,共享基座) |
关键决策框架:全量微调 vs LoRA vs 纯 RAG(不微调)
-
如果需求是”让模型获取特定领域知识” → 优先 RAG(第 9 章),而非微调。微调注入知识容易引发灾难性遗忘
-
如果需求是”改变模型的行为模式/输出格式/语气风格” → LoRA / SFT
-
如果需求是”深度改变模型的能力分布”(如让通用模型变成代码专精模型)→ 全量微调或大规模 LoRA
-
成本差异可达两个数量级:全量微调一次 70B 模型可能需要数十万美元;LoRA 可能只需几千美元
4.3 偏好对齐:RLHF、DPO 与 Constitutional AI
RLHF (Reinforcement Learning from Human Feedback) 的完整 pipeline:
-
收集人类偏好数据:给标注员展示同一问题的多个回答,让他们排序
-
训练 Reward Model (RM):用偏好数据训练一个打分模型,学习”人类觉得什么回答好”
-
用 RM 作为奖励信号,通过 PPO(Proximal Policy Optimization)算法优化 LLM
RLHF 的工程痛点:PPO 训练极不稳定(需要同时运行 4 个模型:policy、reference、reward、critic),对超参数极度敏感,训练成本高。
DPO (Direct Preference Optimization) 的简化:
-
数学上证明可以绕过显式的 Reward Model,直接从偏好对 (chosen, rejected) 优化策略
-
训练稳定性和成本大幅优于 PPO
-
已成为 2024-2025 年后训练对齐的主流选择
Constitutional AI (CAI):
-
Anthropic 提出的框架:让模型自己根据一组预定义的”宪法原则”来评判和修正自己的输出
-
减少对人类标注员的依赖,用”AI 反馈”替代部分”人类反馈”(RLAIF)
-
产品应用:在合成数据 pipeline 中用作自动化质量过滤器
对齐阶段的产品本质:不是在教模型”什么是对的”,而是在塑造模型输出的概率分布的形状——压低有害/低质输出的概率,抬高有用/安全输出的概率。这个”塑形”过程是有代价的(Alignment Tax),详见第 13 章。
5. 算力物理定律与 KV Cache 账本推演
要设计高并发的 AI 产品,必须理解 GPU 的两堵墙:计算墙 (Compute Wall) 与显存墙 (Memory Wall)。这种极度的硬件”偏科”导致大模型的推理过程极度割裂。
5.1 场景推演:处理 100K Token PDF 并生成 1K Token 总结
阶段一:Prefill(预填充阶段)
物理实质:一次性并行计算 100K token 的注意力矩阵。时间复杂度为 $O(N^2)$。
硬件瓶颈:受限于计算力 (FLOPs)。此时 Tensor Core 满载,决定了用户的首字延迟 (TTFT, Time To First Token)。
阶段二:Decode(解码阶段)
物理实质:自回归逐字生成。每生成一个词,需将几百 GB 权重和前文 KV Cache 从显存搬运到计算单元。
硬件瓶颈:受限于显存带宽 (Memory Bandwidth)。算力利用率极低(<10%),决定用户的每 token 生成延迟 (TPOT, Time Per Output Token)。
PM 需要的直觉:TTFT 和 TPOT 是两个完全不同的物理瓶颈,优化策略完全不同。用户感知到的”速度”是两者的叠加,但不能混为一谈。
5.2 KV Cache 的物理占用与”显存爆炸”机制
大模型能”记住”上文,靠的是缓存所有历史 token 的 Key 和 Value 向量。
KV Cache 占用公式:
$$\text{KV Cache (bytes)} = 2 \times L \times n_{kv} \times d_{head} \times S \times \text{dtype_bytes}$$
其中:
-
$2$:K 和 V 两组向量
-
$L$:Transformer 层数
-
$n_{kv}$:KV 头数(MHA 下 = 总头数 $H$;GQA 下 = 分组数 $G$,远小于 $H$)
-
$d_{head}$:每个头的维度
-
$S$:序列长度(token 数)
-
$\text{dtype_bytes}$:数据类型字节数(FP16 = 2,FP8 = 1)
具体推算(Llama-3-70B,GQA 配置,FP16):
-
$L = 80$,$n_{kv} = 8$(GQA 分组数),$d_{head} = 128$,$S = 100\text{K}$,$\text{dtype} = 2$ bytes
-
KV Cache = $2 \times 80 \times 8 \times 128 \times 100000 \times 2$ ≈ 32.8 GB
注:此前版本引用的 2.6 GB 数据可能基于不同的模型配置或近似。以公式为准,具体数值随模型架构参数变化。
与第 3 章的联动:如果 Llama-3-70B 仍使用 MHA($n_{kv} = 64$),同一场景的 KV Cache 将膨胀 8 倍。GQA 不是学术花活,而是让 100K 上下文在工程上可行的前置条件。
核心产品约束:KV Cache 的物理大小直接锁死了系统能承载的并发请求数 (Concurrency Limit)。这是产品架构的绝对物理限制——不是优化代码能突破的,只能通过减少 KV Cache 占用(GQA/MQA、量化、稀疏注意力)或增加显存(更多 GPU)来解决。
5.3 跨越物理限制的产品与工程 Tricks
PagedAttention 与显存碎片化治理:借鉴操作系统虚拟内存分页机制,将 KV Cache 拆成固定大小的 page,按需分配和回收,消除显存碎片。vLLM 的核心创新,可将有效并发数提升数倍。
基于 Radix Tree 的 Prompt Caching:当多个请求共享相同的 system prompt 前缀时,底层可通过哈希匹配复用已计算的 KV Cache。设计高频重复的”全局系统设定”,可以命中缓存,将单次调用计算成本降低 70% 以上。对产品设计的暗示:system prompt 越稳定、越长,缓存收益越大。
Speculative Decoding(投机解码):用小模型(draft model)快速自回归”猜”后续 token 序列,再用大模型并行验证。验证通过的 token 直接采纳,不通过则回退。在 draft model 命中率高的场景下,可将输出速度提升 2-3 倍,且数学上保证输出分布不变。
6. 架构演进:后 Transformer 时代的抉择
| 评估维度 | Dense Transformer(稠密) | MoE(混合专家,如 DeepSeek-V3) | SSM / Mamba(状态空间模型) | Hybrid(混合架构,如 Jamba) |
| 计算实质 | 激活 100% 参数,稠密矩阵乘法 | 路由机制,每次仅激活极少部分专家 | 序列压缩为固定隐状态向量 | 混用 Transformer 层与 SSM 层 |
| 首字延迟 | 高。随输入长度平方级激增 | 中低。但存在专家间通信延迟 | 极低。线性时间复杂度 $O(N)$ | 低。SSM 层线性处理 + 关键位置 Attention 补精度 |
| 长文本成本 | 灾难性。极耗显存 | 较高。仍需保留历史 KV Cache | 极低。只更新固定大小隐状态 | 中等。SSM 层无 KV Cache,Attention 层有 |
| 逻辑推理 | 最强。绝对精度的信息提取 | 强。但极端知识密集型任务偶有欠缺 | 较弱。复杂”海底捞针”存在压缩损失(持续改进中) | 中强。关键推理步骤由 Attention 层承担 |
| 端侧部署 | 极低。依赖云端大算力 | 中等。静态显存巨大,动态功耗低 | 极高。极其适合芯片级集成 | 中高。总参数量仍大,但推理效率好 |
| 产品落地 | 代码 IDE、合同逐字审查 | 高并发大吞吐 C 端助手 | 穿戴设备、IoT、无限上下文伴侣 | 长文本分析、知识库问答 |
对原版的修正说明:“逻辑推理”维度中对 SSM 的”较弱”判断需要加限定条件。2025 年后 Mamba-2 和 Hybrid 架构(如 AI21 的 Jamba、Zamba)在推理 benchmark 上的表现已经显著缩小了与纯 Transformer 的差距。新增 Hybrid 列以反映最新的架构趋势——行业正在从”非此即彼”走向”混合使用,各取所长”。
MoE 的关键细节:
-
路由机制 (Router):一个小型网络决定每个 token 分配给哪些专家。路由质量直接决定 MoE 的表现——负载不均衡会导致部分专家过载、部分闲置
-
专家并行 (Expert Parallelism):MoE 在分布式部署时需要专家间的 All-to-All 通信,这引入了额外的通信延迟。DeepSeek-V3 通过精心设计的辅助损失和混合并行策略优化了这一问题
-
产品含义:MoE 模型的”参数量”具有欺骗性——DeepSeek-V3 标称 671B 参数,但每次推理只激活约 37B,实际推理成本远低于同参数量的 Dense 模型
7. 量化 (Quantization) 与端侧部署
量化是将模型权重和/或激活值从高精度(FP32/FP16)压缩到低精度(INT8/INT4 甚至更低)的技术。它不是纯工程细节,而是决定”这个模型能不能跑在端侧""推理成本能不能再砍一半”的产品级约束。
7.1 量化的物理本质与精度-成本权衡
核心数学:将连续浮点数映射到离散整数网格。例如 FP16 → INT8 意味着将每个权重从 2 字节压缩到 1 字节,显存直接减半,且整数运算在硬件上通常更快。
精度损失的本质:量化引入的是舍入误差。对于大多数权重,这种误差可以被模型的冗余性吸收;但对于少数”离群值”(outlier)权重,量化可能造成显著的性能退化。
7.2 量化方案光谱
| 方案 | 精度 | 显存压缩 | 推理加速 | 精度损失 | 适用场景 |
| FP16 / BF16 | 16-bit | 基线 | 基线 | 无 | 训练、高精度推理 |
| INT8 (W8A8) | 权重+激活 8-bit | ~2× | 1.5-2× | 极小 | 云端大规模部署 |
| GPTQ | 权重 4-bit(逐层量化) | ~4× | 2-3× | 小(对 outlier 敏感) | 离线量化、快速部署 |
| AWQ (Activation-aware Weight Quantization) | 权重 4-bit(感知激活分布) | ~4× | 2-3× | 极小(优于 GPTQ) | 当前 4-bit 量化的主流方案 |
| GGUF (llama.cpp) | 2-8 bit 混合 | 4-8× | 视精度而定 | 中等(2-bit 下显著) | CPU 推理、消费级设备端侧部署 |
7.3 量化对产品架构的影响
端侧部署的可行性门槛:一个 7B FP16 模型需要 ~14GB 显存,超出大多数消费级设备能力。INT4 量化后降至 ~3.5GB,可以在高端手机或 MacBook 上运行。量化是第 6 章中 SSM/Hybrid 架构实现”穿戴设备部署”的必要前置条件。
KV Cache 量化:不仅权重可以量化,KV Cache 也可以。将 KV Cache 从 FP16 量化到 FP8/INT8,可以直接将第 5 章中计算的并发上限翻倍($\text{dtype_bytes}$ 从 2 变为 1)。
QLoRA 的双重价值:结合第 4 章的 PEFT 讨论——QLoRA = 4-bit 量化基座 + LoRA 微调,使得在单张消费级 GPU(24GB)上微调 70B 模型成为可能。这极大降低了垂直领域微调的资金门槛。
8. 解码策略与生成控制
解码策略是 PM 能直接操控模型输出行为的最近一层杠杆。这些参数不需要重新训练模型,只影响推理时的采样过程。
8.1 核心采样参数
Temperature (温度):
-
控制 softmax 输出概率分布的”尖锐度”
-
$T = 0$(或极低):贪心解码,每次选概率最高的 token。输出确定性最大,适合事实查询、代码生成、结构化输出
-
$T = 0.7-1.0$:标准范围,平衡创造性与一致性
-
$T > 1.0$:分布变平,低概率 token 被选中的机会增大。输出更多样但更不可控
-
产品设计含义:面向企业的严肃场景(合同审查、医疗问答)应默认低温;面向创意场景(写作辅助、头脑风暴)可使用较高温度
Top-k 采样:
-
每步只从概率最高的前 $k$ 个 token 中采样,其余截断为零概率
-
问题:固定 $k$ 值对所有上下文一视同仁,但有些位置模型很确定(“巴黎是法国的___”),有些位置不确定(“今天天气很___”)
Top-p (Nucleus Sampling):
-
动态选取累积概率达到 $p$ 的最小 token 集合。自适应地调整候选集大小
-
当模型很确定时,候选集可能只有 2-3 个 token;当模型不确定时,候选集可能有几十个
-
实践中 Top-p = 0.9-0.95 是常用设置,通常优于固定 Top-k
Frequency Penalty / Presence Penalty(频率/存在惩罚):
-
降低已出现 token 的再次出现概率,减少重复
-
过高会导致模型刻意避免常用词,输出变得生硬
8.2 受约束解码 (Constrained Decoding)
当需要模型输出严格符合特定格式时(JSON Schema、XML、SQL),可以在解码时施加硬约束:
JSON Mode / Structured Output:在每一步采样时,根据当前已生成的 token,动态计算下一步语法上合法的 token 集合,将不合法的 token 概率置零。这保证输出 100% 符合目标 schema。
产品含义:受约束解码让”模型输出不可解析”这一类 bug 在架构层面被消除,而不依赖后处理正则匹配或重试。这是 function calling 和 Agent 可靠运行的工程基础。
8.3 Beam Search 与采样的选择
Beam Search:同时维护 $b$ 条候选序列,每步扩展所有候选并保留总概率最高的 $b$ 条。适合需要全局最优的场景(翻译、摘要),但生成内容往往较平淡(倾向高频词组合)。
采样(Sampling):每步独立采样一个 token。更适合开放式生成(对话、写作),输出更自然但可能不一致。
当前主流 LLM 产品几乎全部使用 采样 + Top-p + Temperature 的组合,Beam Search 更多用于特定 NLP 子任务。
9. RAG 架构的工程解构与非参数化记忆
在产品架构中,LLM 是负责逻辑计算的 CPU,而 RAG 则是外挂的硬盘与内存。企图用微调(SFT)将知识压入模型权重中,在工程上极其低效且容易引发灾难性遗忘。RAG 的本质,是建立**非参数化记忆(Non-parametric Memory)**的调用管线。
9.1 RAG 的物理必要性与长上下文的陷阱
“为什么不用百万上下文(1M Context)代替 RAG?“——虽然 Gemini 1.5 Pro 等模型支持超长窗口,但每次丢入百万 Token 会在 Prefill 阶段消耗海量算力(FLOPs),导致 TTFT 极长且 API 成本高昂。此外,全局 Attention 会产生**“中间迷失” (Lost in the middle)** 现象,注意力稀释导致关键信息提取失败。
RAG 的价值:作为一层前置的”高维数据过滤器”,从海量文库中只抽取最相关的若干 K Token 喂给 LLM,既保证了算力经济性,又提高了信息密度和推理准确率。
9.2 检索范式演进与混合架构 (Hybrid Search) 的必然
RAG 的灵魂在于”R(检索)“,向量化并非唯一解,成熟的商业系统必然是混合架构:
传统稀疏检索 (Lexical/Sparse, 如 BM25):基于字面量与倒排索引。优势:对专有名词、特定法条编号(如”哥伦比亚劳动法 Article 64”)的召回率极高。劣势:无法应对用户的泛化提问。
密集向量检索 (Dense Retrieval/Embedding):将文本映射到连续的隐空间,计算余弦相似度。优势:跨越字面匹配,理解”语意”(如搜索”高山症”,能召回包含”Soroche”的文本)。劣势:对低频罕见词汇的 Embedding 往往失真(与第 2 章 Tokenization 对低频词的处理直接相关)。
重排序 (Reranker) 机制:这是决定 RAG 产品体验的生死线。由于 BM25 和 Embedding 计算分数不在同一维度,必须引入独立的 Cross-Encoder 重排序模型,对召回的 Top-K 文档进行联合打分和截断,再喂给 LLM。
9.3 高阶 RAG 的工程壁垒与产品化破局
Query 转换 (Query Transformation):用户输入的 Prompt 往往是短视且糟糕的。在底层,系统必须先用一个小模型将用户的模糊提问改写为”适合检索的 Query”(如采用 HyDE 假设性文档嵌入算法——让模型先生成一个假设性回答,再用这个回答去做 embedding 检索),再进行数据库查询。
知识图谱增强 (GraphRAG):单纯的向量检索只能解决”单跳问题”。面对”跨合同文本的股权嵌套关系”这类”多跳推理”,必须通过构建实体-关系图谱,让检索沿着图网络游走。
Chunk 策略:文档如何切分直接影响检索质量——按固定长度切、按语义段落切、按滑动窗口重叠切、按文档结构(标题/章节)切,各有优劣。粒度太粗丢失精度,太细丢失上下文。这是 RAG 产品调优中最依赖经验判断的环节。
评估解耦:在业务上,必须将 RAG 的评测拆开。检索阶段看 Hit Rate(命中率)和 MRR(平均倒数排名);生成阶段只看 Faithfulness(忠实度:是否完全基于检索内容生成,而非凭借幻觉)。两个阶段的问题诊断和优化策略完全不同,混在一起看指标会误诊。
10. Agent 技术栈与工具调用
Agent 是 2024-2025 年 AI 产品的核心战场。Agent 不是一个新模型,而是在 LLM 外围构建的一套规划-执行-反馈循环。
10.1 核心能力栈
Tool Use / Function Calling:让 LLM 不只输出文本,而是输出结构化的”函数调用指令”,由外部系统执行并将结果返回给 LLM 继续推理。
机制:模型在训练/提示中被教会,当遇到需要外部信息或操作时,输出特定格式的 JSON(工具名 + 参数),而非直接编造答案。外部系统解析、执行、返回结果。这依赖第 8 章中的受约束解码来保证输出格式可靠。
ReAct (Reasoning + Acting) 框架:
Thought: 我需要查询今天的汇率
Action: call_api(“exchange_rate”, {from: “USD”, to: “CNY”})
Observation: 7.23
Thought: 用户要换 1000 美元,7.23 × 1000 = 7230
Answer: 1000 美元约等于 7230 人民币
核心思想:让模型交替进行推理(Thought)和行动(Action),每次行动的观察结果(Observation)作为下一步推理的输入。这是大多数 Agent 框架的基础范式。
Planning(规划):面对复杂任务,Agent 需要先将任务分解为子任务序列,再逐步执行。常见方案包括:
-
固定流程 (DAG):预定义的工作流拓扑,适合结构化业务流程
-
LLM 动态规划:让模型自主分解任务并决定执行顺序。灵活但不可靠——规划质量是 Agent 产品的最大瓶颈
-
层级规划 (Hierarchical Planning):先做粗粒度规划,再逐步细化,类似人类的”先想大方向再填细节”
10.2 Agent 的核心工程挑战
可靠性困境:Agent 的每一步都是 LLM 的一次概率采样。5 步串联的成功率 = 每步成功率的 5 次方。如果每步 95% 准确,5 步后只有 77%,10 步后只有 60%。这是 Agent 产品从 demo 到生产级的最大鸿沟。
错误积累与恢复:一步出错,后续推理基于错误状态继续,可能雪崩。需要设计:错误检测机制(让模型或外部检查器验证每步结果)、回退策略(发现错误后退回到哪一步)、人机协作断点(关键步骤让人类确认)。
上下文管理:多步 Agent 执行过程中,历史 Thought-Action-Observation 会迅速填满上下文窗口。需要做上下文压缩(只保留关键信息的摘要)或外部记忆存储。
10.3 Agent 产品的架构模式
单 Agent + 多工具:一个 LLM 实例调配多个工具。适合任务明确、工具集有限的场景(如客服 Agent、个人助手)。
多 Agent 协作:多个专精 Agent 各负责一个子域(如研究 Agent + 写作 Agent + 审核 Agent),通过消息传递协作。适合复杂工作流(如 Manus 的多 Agent 框架)。
MCP (Model Context Protocol):Anthropic 推出的开放标准,定义了 LLM 与外部工具/数据源之间的通信协议。解决的核心问题是互操作性——让一个 Agent 框架可以无缝对接任意工具,而不是每个工具都写一套自定义适配器。
对第 11 章的预告:当 Agent 需要进行复杂推理时(如多步法律分析、代码调试),单靠 ReAct 的浅层推理不够。这需要结合 System 2 思维的深度推理能力,两者融合形成 “Reasoning Agent” 范式。
11. System 2 思维、强化学习与产品范式重构(The O1/R1 Era)
目前的范式转移在于:将算力从预训练阶段 (Pre-training) 转移到推理阶段 (Test-Time Compute)。
11.1 深度解析 Test-Time Compute 与 PRM 机制
新范式通过强化学习 (RL) 训练模型在推理时进行树搜索 (MCTS)、试错与回溯。
ORM (Outcome Reward Model) vs PRM (Process Reward Model):
-
ORM:只看最终结果是否正确,给 0/1 奖励。无法区分”推理正确但计算失误”和”推理方向错误”
-
PRM:对模型思考过程中的每一个推理步骤进行打分估值。模型生成隐式思考 Token(hidden chain-of-thought),遇低分路径自动剪枝回溯
PRM 的关键突破在于:它让”思考质量”本身成为可优化的目标,而非仅优化最终输出。这对应人类认知中 System 1(快速直觉)到 System 2(慢速深度推理)的切换。
11.2 与 Agent 的融合:Reasoning Agent
第 10 章的 Agent 提供了”行动能力”,本章的 System 2 提供了”深度推理能力”。融合形态:
-
Agent 在遇到复杂决策节点时,不是一步 ReAct 就输出 Action,而是先进入长时间的 hidden reasoning(生成大量隐式 token,进行多路径评估和回溯),再输出经过深度推理的行动
-
这解释了为什么 OpenAI 的 o1/o3 和 DeepSeek-R1 在代码、数学等需要多步推理的任务上大幅领先
11.3 颠覆性的产品形态 (UI/UX 与任务流重构)
当模型需要思考 5 分钟甚至更长时,“实时聊天框”彻底失效。产品形态必须重构:
异步代理工作流 (Async Agentic Workflows):转为后台独立任务,UI 提供 CI/CD 般的进度 Dashboard。用户提交任务后可以离开,完成后收到通知。
思维过程白盒化与信任重塑:以外显的折叠面板展示”模型查阅 → 发现矛盾 → 回溯换路”的完整过程,建立复杂决策的信任。这直接关联承接文档中的”信任抽象层”产品方法论。
动态算力预算控制 (Budget Slider):将商业化定价从”按字数计费”彻底转变为”按算力/思考时间计费”。用户可以选择”快速回答”(低算力预算、浅层推理)或”深度分析”(高算力预算、多路径探索)。
12. 多模态融合与具身智能 (Embodied AI)
12.1 生成机制的物理学分歧
自回归 (Autoregressive):在离散词表空间寻路,基于概率逐个预测。擅长严格逻辑递进和时序约束(代码、推理)。LLM 的原生范式。
扩散模型 (Diffusion):在连续隐空间中,通过反向马尔可夫链去噪还原分布。擅长捕捉全局结构和像素级美学(图像、视频、3D)。Stable Diffusion、DALL-E 3、Sora 的基础。
两者的产品分工:文本/代码/逻辑 → 自回归;图像/视频/音频生成 → 扩散(或 Flow Matching 等变体)。前沿趋势是将两者融合在统一框架中。
12.2 Vision Transformer 与跨模态对齐
ViT (Vision Transformer):将图像切分为固定大小的 patch(如 16×16 像素),每个 patch 线性投影为一个 token,直接送入 Transformer 处理。核心意义:让图像和文本在同一架构下处理,为多模态融合铺平道路。
CLIP 范式(Contrastive Language-Image Pre-training):
-
训练一个图像编码器和一个文本编码器,让它们将配对的图像-文本映射到同一隐空间的相近位置
-
核心产品价值:实现”跨模态语义搜索”——用文字搜图片、用图片搜文字
-
CLIP 是大量多模态模型(LLaVA、GPT-4V 的前置组件、DALL-E 的引导信号)的基石
视觉 Tokenization:将图像信息转化为离散 token 序列,使其可以与文本 token 统一处理。主要方案:
-
VQ-VAE / VQ-GAN:通过向量量化将图像压缩为离散 codebook 索引
-
视觉编码器直接输出连续 embedding:如 LLaVA 的架构,ViT 编码器输出的连续向量通过投影层映射到 LLM 的 embedding 空间
12.3 原生多模态对交互延迟的革命
过去 “ASR → LLM → TTS” 的串联管线直接抹杀了声学特征(情绪、喘息、语调),且延迟高达 2-3 秒。原生多模态范式(如 GPT-4o)将音频频谱直接 Token 化联合训练,实现了 <300ms 的首字延迟。
这一变革的产品意义:
-
对于户外穿戴设备或复杂物理环境(如高海拔重装徒步时的急救语音指引),<300ms 延迟是体验从”机器”到”人”的分水岭
-
原生多模态保留了声学特征,模型能”听懂”情绪并在输出中调整语气——这在心理咨询、教育、客服等场景中是质变级的能力提升
-
串联管线的错误是不可逆积累(ASR 识别错一个词,后续全错);原生多模态消除了中间错误传播
12.4 具身智能 (Embodied AI) 的底座需求
当 AI 从屏幕走进物理世界(机器人、自动驾驶、AR 设备),需要的核心能力是:
-
实时多模态感知(视觉 + 触觉 + 力觉 + 本体感觉)
-
物理世界建模(3D 空间理解、物体交互物理学)
-
低延迟决策(第 6 章中 SSM/Mamba 的端侧部署优势在此凸显)
-
从仿真到真实的迁移学习 (Sim2Real)
13. 彻底祛魅:为什么”幻觉”无法被彻底消除?
在物理与数学本质层面,幻觉不是 Bug,而是生成式模型的核心架构特性。
13.1 Softmax 与高维概率插值本质
大语言模型在拟合联合概率分布 $P(x_t | x_1, …, x_{t-1})$。面对边缘知识(训练数据中罕见的事实组合)时,它必定通过相邻概念的概率权重强行插值给出一个输出。这种机制在创意领域叫泛化,在事实领域就是幻觉。
13.2 后训练的对齐税 (Alignment Tax)
RLHF 训练了讨好人类的 Reward Model。这导致模型学会了**“谄媚 (Sycophancy)”**——它宁愿编造毫无破绽的假文献,也不愿因诚实回答”我不知道”而获得低分。
更深层的机制:在 RLHF 的优化过程中,模型被训练为最大化 Reward Model 的打分。如果 RM 的训练数据中”流畅、自信、详细的回答”普遍获得高分,模型就会学会”无论知不知道都自信地详细回答”这一策略。这是第 4.3 节中对齐机制的一个结构性副作用。
13.3 校准 (Calibration) 问题
幻觉不只是”编造”,还包括模型对自己输出的置信度和实际准确率的不匹配。
理想的校准模型:当它说”我 90% 确定”时,应该有 90% 的概率是对的。但实际上,当前 LLM 的校准极差——它们几乎对所有输出都表现得同等自信,无论对错。
这直接连接到承接文档中的核心产品方法论:“感知可靠性 ≠ 实际准确率”。在滴滴案例中,你通过信息架构重组解决了感知安全与实际安全的脱钩问题。在 AI 产品中,面临的是一个更棘手的版本——用户无法从模型的输出语气判断其可信度,因为模型本身的置信度就是不可靠的。
13.4 产品的应对策略
基于内生性分布,幻觉不可根除。可行的策略层次:
-
外部护栏 (Guardrails):RAG 系统提供事实锚点;后端隐式调用 Temperature=0 的独立”裁判模型”进行事实核查和打分重写
-
不确定性外显:当模型的 logit 分布熵值高(多个 token 概率接近)时,在 UI 上标注”低置信度”。这需要工程上将 logprobs 暴露给前端
-
可溯源设计:让每条输出可以追溯到来源(RAG 检索到的原文、引用的文献),用户可自行验证
14. 模型评估体系 (Evaluation) 的重构与 Goodhart 陷阱
14.1 Benchmark 陷阱与 Goodhart 定律
“当一个指标变成目标,它就不再是一个好指标”。各大厂商为了刷榜,在 SFT 阶段针对 Benchmark 进行严重过拟合(第 4.2 节的过拟合问题在评估层面的体现)。这导致模型在榜单上超越人类,但在真实业务长尾场景中表现极其脆弱。
具体表现:MMLU、GSM8K 等公开 benchmark 的分数已经高度通胀,区分度丧失。头部模型在这些榜单上的差异在 1-2% 以内,但在实际业务中的表现差异可能是 10-20%。
14.2 评估自动化:LLM-as-a-Judge 的构建逻辑与局限
转向用强模型充当裁判打分,需避开致命局限:
位置偏见 (Position Bias):模型倾向给先出现的答案打高分。缓解方案:随机交换答案顺序,取平均分。
冗长偏见 (Verbosity Bias):模型极度偏好又长又具条理性的答案,哪怕核心逻辑错误。缓解方案:在评分 prompt 中显式要求”忽略长度,只评价正确性”。
自我偏见 (Self-Bias):模型倾向给自己(同家族模型)的输出打高分。因此裁判模型和被评模型最好来自不同厂商。
14.3 技术指标到业务体验指标的精准映射
传统 NLP 指标的失效:BLEU / ROUGE 完全基于 n-gram 重叠,与用户体验相关性极低,应彻底抛弃。
应监控的业务体验指标:
-
任务完成率 (Task Completion Rate):用户通过 AI 成功完成目标任务的比例
-
问题解决时长 (Time to Resolution):从发起请求到获得满意答案的时间
-
人工接管率 (Human Takeover Rate):AI 无法完成、需要转接人工的比例。幻觉率的业务映射
-
合规投诉率:企业级 AI 的硬核底线
-
用户留存 / 回访率:终极的体验综合指标
15. 数据墙与后训练霸权
当纯人类高质量文本接近耗尽,“数据墙 (Data Wall)“到来。结合第 4.1 节的 Scaling Laws,这意味着预训练阶段的边际收益正在急剧递减——不是因为模型架构碰壁,而是因为 Chinchilla 定律要求的训练数据量已经逼近人类文明产出文本的总量。
15.1 后训练成为核心竞争力
AI 的炼金术壁垒正在从预训练全面转向后训练 (SFT & RLHF/DPO):
合成数据 (Synthetic Data):用强模型生成训练数据给弱模型或给自身迭代。核心挑战是质量控制——合成数据的分布偏差会在训练中被放大(“模型退化” / “model collapse”)。需要结合 Constitutional AI(第 4.3 节)做自动化的质量过滤。
数据蒸馏 (Knowledge Distillation):让小模型学习大模型的输出分布(不只是最终答案,而是完整的概率分布),以大幅降低部署成本。本质上是在”压缩”大模型的知识。
多 Agent 对抗数据生成:让多个 Agent 进行对抗辩论,生成深度攻防逻辑数据。这比单纯让模型自问自答能产出更高质量的训练样本,因为对抗过程自然地发现了边界情况和逻辑漏洞。
15.2 后训练的工程 Pipeline
一个完整的后训练 pipeline 包含:
-
Seed Data 构建:获取目标领域的高质量真实样本,作为对齐的”锚点”
-
合成数据扩增:基于 Seed Data,用模型生成覆盖更多场景和边界情况的训练数据
-
质量过滤:通过 Constitutional AI、人工审核、或独立评判模型剔除低质/有害数据
-
SFT 格式规范化:强制模型输出符合目标格式和语气(回到第 4.2 节)
-
DPO/RLHF 偏好优化:构建偏好对数据,优化模型在目标领域的行为边界
产品层面的关键判断:单纯”套壳”——即在通用模型之上只做 RAG 而不做任何后训练——在简单场景可行,但在专业垂直领域(法律、医疗、金融)中远不够。真正的壁垒在于拥有高质量 Seed Data 和成熟的后训练 pipeline。这是评估 AI 创业公司护城河深度的关键维度。
附录:全文知识结构与章节联动图
第 1 章(认知重构)
↓ 底层机制
第 2 章(Tokenization)← 影响成本、多语言体验
第 3 章(Transformer & Attention 变体)← GQA 联动 → 第 5 章(KV Cache)
↓ 训练流程
第 4 章(训练 Pipeline:Pre-training / SFT / RLHF)
├─ Pre-training ← Scaling Laws → 第 15 章(数据墙)
├─ SFT / PEFT ← LoRA/QLoRA → 第 7 章(量化)
└─ RLHF / DPO → 第 13 章(幻觉 & Alignment Tax)
↓ 推理部署
第 5 章(算力物理 & KV Cache)→ 并发限制
第 6 章(架构演进:Dense / MoE / SSM / Hybrid)→ 端侧部署 ← 第 7 章(量化)
第 7 章(量化 & 端侧部署)
第 8 章(解码策略)→ 输出控制 → 第 10 章(Agent 的 Function Calling)
↓ 应用架构
第 9 章(RAG)← 非参数化记忆
第 10 章(Agent 技术栈)← ReAct / Tool Use / Planning
第 11 章(System 2 & Test-Time Compute)← 深度推理 + Agent 融合
第 12 章(多模态 & 具身智能)← ViT / CLIP / 原生多模态
↓ 质量保障
第 13 章(幻觉不可消除性 & 校准问题)
第 14 章(评估体系 & Goodhart 陷阱)
第 15 章(数据墙 & 后训练霸权)
文档版本:v2 更新时间:2026 年 3 月 17 日 基于 v1 版本重构,新增 Tokenization、注意力变体演进、训练 Pipeline(含 Scaling Laws 与 PEFT 光谱)、量化、解码策略、Agent 技术栈 共 6 个模块;收窄第 1 章、补厚多模态章节、补充幻觉章节的校准问题、将法律 AI 实操案例移出至产品战略模块、增加全文联动图