概率论·DL视角学习路径
概率论·DL视角学习路径
核心命题: 从 DL/LLM 需求倒推补概率论,按依赖度排优先级而不是按教材章节顺序——传统课程前几章的组合计数、古典概型、t/F 假设检验对理解 LLM 几乎无用。
切入角度的合理性
传统概率论教材以”概率公理→组合计数→分布→统计推断”为路线,目标是培养能做经典假设检验的统计工作者。AI PM 学概率论的目标不同:看到一个公式(loss、KL 散度、似然项)能读懂每一项的物理意义,而不需要手推证明。学习路径因此应当倒过来——以 DL/LLM 高频依赖的知识块为入口,反向定位需要补的数学基础。
按 DL 依赖度排的三梯队
第一梯队(核心论文与技术讨论的入场券)
- 条件概率与贝叶斯定理——生成式模型的语言就是条件概率
- 常见分布族:高斯、伯努利、Categorical
- 期望与方差的运算性质
- MLE 与交叉熵损失的等价关系——理解所有训练目标的钥匙
- KL 散度
第二梯队(理解训练过程与优化)
- 大数定律与中心极限定理的直觉——为什么 mini-batch SGD 能工作
- 信息论基础:熵、互信息、交叉熵之间的关系
- 蒙特卡洛采样——RLHF 中策略采样的基础
第三梯队(锦上添花)
- 马尔可夫链——理解扩散模型与 MCMC
- 矩阵分解的概率视角——embedding 空间几何意义
推荐路径
主线:Goodfellow《Deep Learning》第 3 章 “Probability and Information Theory”(约 60 页,免费在线版)。这是为 DL 量身写的概率论速览,覆盖边缘/条件概率、贝叶斯、期望方差、常见分布、信息熵、KL、交叉熵。读完即建立”最小可用概率论框架”。
按需扩展:Kevin Murphy《Probabilistic Machine Learning: An Introduction》,免费 PDF,按章查阅而非通读。
不推荐:通用概率论 MOOC(时间花在组合计数与 t/F 检验上,ROI 低)、Charu Aggarwal 的 2024 新书(500+ 页系统教材,不适配按需补课场景)。
反向验证学习法
学完 Goodfellow 第 3 章后,每天 30 分钟回到既有 AI 知识图谱文档(涉及 Softmax、KL 散度、马尔可夫链等概念),用新学的数学语言重述原有的产品语言描述。卡住的地方去 Murphy 书里查对应章节。
关键三个连接点:
- “最小化交叉熵损失”=“最大化模型对训练数据的似然”——一个 insight 串起所有训练目标
- 条件概率链式法则——自回归生成模型的数学基础就是 P(x₁,…,xₙ) = ∏P(xᵢ|x₁,…,xᵢ₋₁)
- KL 散度——理解 RLHF 中为何对策略偏移加 KL 惩罚
这条路径把”记忆术语”转换为”理解机理”,地基补在已有的概念脚手架上。
[!note] 待校验观察 Goodfellow 第 3 章成书较早(2016),未覆盖扩散模型、RLHF 等 2020 年后议题。第三梯队(马尔可夫链、采样)需要从 Murphy 或更新的资料补全。
关联节点
- 0132概率论-统计学 — vault 既有概率统计入口;本文是其在 AI/DL 方向上的应用切片
- c01 - 认知重构:从确定性系统到概率系统 — 从认识论角度阐述概率视角的转变,本文是其数学基础侧的补充
- Softmax — Categorical 分布在 DL 输出层的实现
- 自回归生成 — 条件概率链式法则的直接落地
- RLHF — KL 散度在策略约束中的应用
- 强化学习 — 蒙特卡洛采样的承载场景