使用说明：每条资料标注了必要性等级（★★★ 强烈建议 / ★★☆ 推荐 / ★☆☆ 选读加分），以及推荐理由。标注为★★★的资料建议在回国求职前全部完成。

第 1 章 · 认知重构：从确定性系统到概率系统

本章的知识点属于思维框架层，不需要额外深读技术文献。但如果想从最底层建立直觉，以下一条足够。

Andrej Karpathy — “Let’s build GPT: from scratch, in code, in spell” (YouTube, ~2h) https://www.youtube.com/watch?v=kCc8FmEb1nY ★★★ 强烈建议为什么推荐：这是目前最好的”从零用代码构建 GPT”教程，完整走一遍 next-token prediction 的数学和代码实现。看完之后，“概率分布采样”不再是一个抽象概念，而是你亲眼看过每一步计算的具体过程。对于从确定性系统转型的 PM，这比读十篇综述更能建立物理直觉。2 小时时长，在路上可以分段看。

第 2 章 · Tokenization 与词表工程

Andrej Karpathy — “Let’s Build the GPT Tokenizer” (YouTube, ~2h13m) https://www.youtube.com/watch?v=zduSFxRajkE GitHub 配套代码：https://github.com/karpathy/minbpe ★★★ 强烈建议为什么推荐：Karpathy 从零实现了 BPE tokenizer 的完整代码，并逐一演示了 LLM 中各种”怪异行为”如何追溯到 tokenization（为什么 LLM 不会拼写、为什么非英语性能差、为什么简单算术都做不好）。你的文档中关于多语言 token 效率差异的判断，看完这个视频后会从”知道”变成”理解”。面试中如果被追问 tokenization 对国际化产品的影响，这个视频的素材足够让你讲 10 分钟。

Tiktokenizer（在线可视化工具） https://tiktokenizer.vercel.app ★★☆ 推荐为什么推荐：直接输入中文/英文/代码/小语种文本，实时看不同 tokenizer 的分词结果和 token 数。用来建立”同一段话在不同模型下消耗多少 token”的直觉，5 分钟就能上手。面试前可以准备几个中英文对比的 token 数据点，作为说明国际化成本差异的具体证据。

第 3 章 · Transformer 核心机制与注意力变体

3Blue1Brown — Deep Learning 系列 Chapter 5-7（YouTube，共 ~1.5h）

Chapter 5: Transformers 总体结构 — https://www.3blue1brown.com/lessons/gpt
Chapter 6: Attention 机制逐步拆解 — https://www.3blue1brown.com/lessons/attention
Chapter 7: LLM 如何存储事实 — https://www.3blue1brown.com/topics/neural-networks ★★★ 强烈建议为什么推荐：Grant Sanderson 的可视化是目前最清晰的 Transformer 机制解释，没有之一。Q/K/V 矩阵运算、multi-head attention、softmax 归一化——这些在文字描述中很抽象的操作，他用动画让你”看见”高维空间中发生了什么。对于非 ML 出身的 PM，这三个视频是投入产出比最高的学习路径。

“Attention Is All You Need” 原始论文 Vaswani et al., 2017. https://arxiv.org/abs/1706.03762 ★★☆ 推荐为什么推荐：这是 Transformer 的开山之作。不需要逐行推导公式，但建议通读一遍 architecture 部分（Section 3），理解 encoder-decoder 原始设计、positional encoding 的初始方案、以及 multi-head attention 的动机。面试中如果被问”为什么是 multi-head 而不是 single head”，答案在这篇论文里。对数学不够自信的话，先看完 3Blue1Brown 再来读，会轻松很多。

GQA 论文 — “GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints” Ainslie et al., 2023. https://arxiv.org/abs/2305.13245 ★☆☆ 选读加分为什么推荐：这篇短论文清晰地对比了 MHA/MQA/GQA 三种方案的参数量、KV Cache 占用和精度 trade-off。如果你想把第 3 章和第 5 章（KV Cache）的联动理解得更透彻，花 30 分钟读这篇是值得的。但对面试来说，理解概念即可，论文细节不是必须。

第 4 章 · 模型训练全阶段 Pipeline

4.1 Scaling Laws

Chinchilla 论文 — “Training Compute-Optimal Large Language Models” Hoffmann et al., 2022. https://arxiv.org/abs/2203.15556 ★★★ 强烈建议为什么推荐：这可能是 LLM 时代最具产业影响力的单篇论文。它改变了整个行业的训练策略——从”模型越大越好”转向”数据和参数等比例扩展”。核心结论（参数量翻倍时训练 token 也应翻倍、~20 tokens/parameter 的经验比例）是你文档中数据墙论述的理论根基。不需要复现实验，但 Section 3-4 的核心发现和 Table 1 的模型对比建议仔细读。面试高频话题。

Epoch AI — “Chinchilla Scaling: A Replication Attempt” Besiroglu et al., 2024. https://epoch.ai/publications/chinchilla-scaling-a-replication-attempt ★☆☆ 选读加分为什么推荐：这篇复现研究指出 Chinchilla 原论文的一些参数估计可能存在问题，实际的最优 token/parameter 比例可能比 20:1 更高。如果面试中有人拿 Chinchilla 定律问你”这个比例现在还准吗”，知道这篇文章的存在会让你显得信息更新且思维审慎。

4.2 SFT 与 PEFT

LoRA 原始论文 — “LoRA: Low-Rank Adaptation of Large Language Models” Hu et al., 2021. https://arxiv.org/abs/2106.09685 ★★☆ 推荐为什么推荐：LoRA 是当前应用层微调的事实标准。论文本身写得简洁清晰，核心思想（冻结原始权重、注入低秩分解矩阵）在第一页就讲明白了。理解 LoRA 的原理对你做”全量微调 vs LoRA vs 纯 RAG”的架构选型判断是必要的。如果数学公式看不下去，至少读 Section 1-2 和 Figure 1。

LIMA 论文 — “LIMA: Less Is More for Alignment” Zhou et al., 2023. https://arxiv.org/abs/2305.11206 ★☆☆ 选读加分为什么推荐：这篇论文用实验证明了”1000 条高质量 SFT 数据可能优于大量平庸数据”这一反直觉结论。对 PM 的启示是：在垂直领域微调时，数据质量远比数据量重要。如果面试中聊到 SFT 数据策略，引用 LIMA 是加分项。

4.3 偏好对齐

DPO 论文 — “Direct Preference Optimization: Your Language Model is Secretly a Reward Model” Rafailov et al., 2023. https://arxiv.org/abs/2305.18290 ★★☆ 推荐为什么推荐：DPO 已经取代 PPO 成为后训练对齐的主流方案。论文的核心贡献是证明了可以绕过显式的 Reward Model 直接优化偏好——这个简化极大降低了对齐训练的工程复杂度和成本。PM 不需要理解证明过程，但需要理解 DPO 为什么比 RLHF 更受欢迎（更稳定、更便宜、更易实现），以及它在什么场景下可能不如 RLHF。读 Section 1-3 即可。

Anthropic — “Constitutional AI: Harmlessness from AI Feedback” Bai et al., 2022. https://arxiv.org/abs/2212.08073 ★☆☆ 选读加分为什么推荐：Constitutional AI 是你文档第 15 章中合成数据质量过滤的理论基础。了解”AI 自我评判和修正”的机制对理解数据飞轮和自动化对齐 pipeline 有帮助。但这更偏研究前沿，面试中不太会被深追。

第 5 章 · 算力物理定律与 KV Cache

vLLM Blog — “Easy, Fast, and Cheap LLM Serving with PagedAttention” https://blog.vllm.ai/2023/06/20/vllm.html ★★★ 强烈建议为什么推荐：这篇博客用清晰的图示解释了 KV Cache 的显存浪费问题（60%-80%）以及 PagedAttention 如何借鉴操作系统虚拟内存分页来解决它。文档中提到的 PagedAttention 和显存碎片化治理，这篇是最佳一手信息源。10 分钟读完，直接获得面试中可以讲的具体数据点（如”现有系统 60%-80% 显存浪费""vLLM 将吞吐量提升 2-4 倍”）。

vLLM / PagedAttention 论文 Kwon et al., 2023. https://arxiv.org/abs/2309.06180 ★☆☆ 选读加分为什么推荐：如果你读完博客后想更深入理解技术细节（例如 block table 的映射机制、parallel sampling 的显存共享），论文本身写得很工程导向，Figure 5-8 的图示非常直观。但对面试而言，博客的信息密度已经足够。

第 6 章 · 架构演进：Dense / MoE / SSM / Hybrid

DeepSeek-V3 技术报告 https://arxiv.org/abs/2412.19437 ★★☆ 推荐为什么推荐：DeepSeek-V3 是当前 MoE 架构在工程和性能上的最强实践案例（671B 参数、37B 激活、极低训练成本）。报告详细描述了辅助损失设计、专家路由策略和混合并行训练方案。考虑到 DeepSeek 在国内 AI 圈的影响力，面试时对这份报告的熟悉度本身就是信号。不需要逐页读，重点看 Section 2（架构设计）和 Section 4（训练效率）。

Mamba 论文 — “Mamba: Linear-Time Sequence Modeling with Selective State Spaces” Gu & Dao, 2023. https://arxiv.org/abs/2312.00752 ★☆☆ 选读加分为什么推荐：SSM/Mamba 在你的架构对比表中占一列，但如果面试官深追”SSM 的选择性机制到底是什么”，你需要比”线性时间复杂度”更具体的答案。这篇论文的 Section 3（选择性状态空间层）是核心，解释了 Mamba 如何通过输入相关的选择机制解决传统 SSM 对内容无感知的问题。整篇论文偏数学，Section 1 + 3 即可。

Jamba 技术报告 — “Jamba: A Hybrid Transformer-Mamba Language Model” AI21 Labs, 2024. https://arxiv.org/abs/2403.19887 ★☆☆ 选读加分为什么推荐：你的架构表新增了 Hybrid 列，Jamba 是最典型的 Transformer + Mamba 混合架构。如果被问”混合架构的层配比怎么选”，这篇报告有直接答案。但除非面试官特别关注架构前沿，这属于加分而非必要知识。

第 7 章 · 量化与端侧部署

Tim Dettmers 博客 — “A Gentle Introduction to 8-bit Matrix Multiplication for Transformers at Scale” https://huggingface.co/blog/hf-bitsandbytes-integration ★★☆ 推荐为什么推荐：Tim Dettmers 是 bitsandbytes 库（QLoRA 的底层依赖）的作者。这篇 HuggingFace 博客用非常直觉的方式解释了 INT8 量化的核心挑战（outlier 问题）以及混合精度分解的解决方案。对 PM 来说，这篇博客能让你理解”为什么量化不是简单的精度降级”以及”为什么有些量化方案比其他的好”。

AWQ 论文 — “AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration” Lin et al., 2023. https://arxiv.org/abs/2306.00978 ★☆☆ 选读加分为什么推荐：AWQ 是当前 4-bit 量化的主流方案。核心 insight 很简洁：不是所有权重同等重要，1% 的”显著权重”（由激活分布决定）对模型性能至关重要，应该被保护。这一个思路就足以让你在面试中解释”为什么 AWQ 优于 GPTQ”。论文 Section 1-3 足够。

第 8 章 · 解码策略与生成控制

Hugging Face — “How to Generate Text: Using Different Decoding Methods” https://huggingface.co/blog/how-to-generate ★★☆ 推荐为什么推荐：这篇博客用交互式代码示例对比了贪心解码、beam search、top-k、top-p 的实际输出差异。对 PM 来说，这是最快速建立”不同解码策略产出什么样的文本”直觉的方式。看完后你能具体说出”我们的客服场景应该用低温 + top-p 0.9，因为……”。

Outlines 库 / Structured Generation 官方文档 https://github.com/dottxt-ai/outlines ★☆☆ 选读加分为什么推荐：Outlines 是 constrained decoding（受约束解码）的主流开源实现。你的文档中提到了 JSON Mode 和结构化输出，如果想理解”模型如何在每步只采样语法合法的 token”，这个项目的 README 和文档是最直接的信息源。对工程实现有好奇心的话值得花 20 分钟浏览。

第 9 章 · RAG 架构

Langchain 博客 — “RAG From Scratch” 系列 https://github.com/langchain-ai/rag-from-scratch ★★★ 强烈建议为什么推荐：这个系列覆盖了你文档中 RAG 章节的所有核心概念（Hybrid Search、HyDE、Query Transformation、Multi-Query Retrieval、GraphRAG 基础），并且每个概念都有可运行的代码。对于从未动手搭过 RAG 的人，这是从”理解概念”到”知道如何落地”的关键桥梁。即使你不打算写代码，走一遍 notebook 看输入输出也能极大加深理解。

“Lost in the Middle” 论文 Liu et al., 2023. https://arxiv.org/abs/2307.03172 ★★☆ 推荐为什么推荐：这篇论文是你文档中”中间迷失”现象的一手来源。它用系统实验证明了模型倾向于利用序列开头和结尾的信息，而忽略中间部分。这个发现直接影响 RAG 的 chunk 排列策略——重要信息应该放在 prompt 的开头或结尾。面试中如果被问”为什么长上下文不能替代 RAG”，这篇论文是标准答案的来源。

Microsoft GraphRAG 论文 — “From Local to Global: A Graph RAG Approach to Query-Focused Summarization” Edge et al., 2024. https://arxiv.org/abs/2404.16130 ★☆☆ 选读加分为什么推荐：你的文档提到了 GraphRAG 解决多跳推理问题。这篇是微软发布的 GraphRAG 工程化方案，展示了如何从非结构化文本自动构建实体-关系图谱并用于检索。如果你的目标公司中有做知识库产品的（如秘塔科技），了解 GraphRAG 的具体实现会有直接帮助。

第 10 章 · Agent 技术栈

“ReAct: Synergizing Reasoning and Acting in Language Models” Yao et al., 2022. https://arxiv.org/abs/2210.03629 ★★☆ 推荐为什么推荐：ReAct 是当前绝大多数 Agent 框架的理论基础。论文本身简洁优雅——核心思想就是让模型交替输出 Thought 和 Action。你的文档中给出了 ReAct 的示例，读这篇原论文能让你理解它在哪些场景下 work、在哪些场景下 fail，以及为什么 fail（错误积累）。考虑到你的目标公司列表中有 Monica/Manus，这是直接相关的基础知识。

Anthropic MCP 文档 — Model Context Protocol https://modelcontextprotocol.io ★★☆ 推荐为什么推荐：MCP 正在快速成为 Agent-工具互操作的行业标准。了解 MCP 的协议设计和使用方式，对面试 Agent 方向的岗位是直接加分。文档本身不长，重点看 Architecture 和 Tools 部分。

Andrew Ng — “Agentic AI Design Patterns” (DeepLearning.AI 系列短课/讲座) 相关课程页面：https://www.deeplearning.ai/courses/ ★☆☆ 选读加分为什么推荐：Andrew Ng 在多次讲座中系统总结了 Agentic AI 的四种核心设计模式（Reflection、Tool Use、Planning、Multi-Agent Collaboration）。如果你想用一个干净的框架快速理顺 Agent 产品的设计空间，他的总结比看五篇论文更高效。但这些内容已经在你的文档中有覆盖，所以是”如果有时间就看”的优先级。

第 11 章 · System 2 思维与 Test-Time Compute

OpenAI o1 系统卡 https://openai.com/index/openai-o1-system-card/ ★★☆ 推荐为什么推荐：这是 o1 模型的官方技术说明，解释了”思考 token”的产品化呈现方式、安全对齐的特殊挑战（模型可能在 hidden chain-of-thought 中”欺骗”）、以及 test-time compute 的商业化思路。对理解第 11 章中”动态算力预算控制”和”思维过程白盒化”的产品落地有直接帮助。

DeepSeek-R1 技术报告 https://arxiv.org/abs/2501.12948 ★★☆ 推荐为什么推荐：DeepSeek-R1 展示了如何通过纯 RL（不依赖大量 SFT 数据）训练出强推理能力，并且将推理过程（chain-of-thought）显式化。在国内 AI 面试中，对 DeepSeek 系列的熟悉度几乎是必修。重点看 Section 2-3 关于训练方法和消融实验的部分。

第 12 章 · 多模态融合与具身智能

CLIP 原始论文 — “Learning Transferable Visual Models From Natural Language Supervision” Radford et al., 2021. https://arxiv.org/abs/2103.00020 ★★☆ 推荐为什么推荐：CLIP 是几乎所有多模态模型的起点。核心思想（对比学习将图文映射到同一隐空间）简洁强大，一旦理解，就能看懂后续 LLaVA、GPT-4V、DALL-E 等模型的架构逻辑。论文写得相对易读。Section 2（方法）是核心，约 15 分钟可以读完。

LLaVA 论文 — “Visual Instruction Tuning” Liu et al., 2023. https://arxiv.org/abs/2304.08485 ★☆☆ 选读加分为什么推荐：LLaVA 是”视觉编码器 + LLM”这一主流多模态架构的代表作。如果你想理解”图像信息如何变成 LLM 可以处理的 token”，这篇论文的架构图（Figure 1）是最直观的。但除非面试目标包含多模态方向，这属于加分而非必要。

第 13 章 · 幻觉的不可消除性

“Sycophancy in Large Language Models” Sharma et al., 2023. https://arxiv.org/abs/2310.08688（或搜索 Anthropic sycophancy research） ★☆☆ 选读加分为什么推荐：你的文档中对 Sycophancy 的描述精准，这篇论文提供了系统性实验证据。如果面试中被追问”为什么模型宁愿编造也不说不知道”，你能引用这个研究的具体发现。但你文档现有的论述已经足够，这属于锦上添花。

“Calibration of Large Language Models”（综述方向）建议搜索：Kadavath et al., 2022 “Language Models (Mostly) Know What They Know” https://arxiv.org/abs/2207.05221 ★★☆ 推荐为什么推荐：这篇论文直接对应你文档中新增的”校准问题”。它研究了 LLM 在什么情况下能正确判断自己是否知道答案。核心发现是模型确实有一定的自我知识，但校准程度远不够用于可靠的不确定性估计。这连接着你承接文档中”感知可靠性 ≠ 实际准确率”的产品方法论——你可以在面试中把滴滴案例和这篇论文的发现做类比。

第 14 章 · 模型评估体系

“Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena” Zheng et al., 2023. https://arxiv.org/abs/2306.05685 ★★☆ 推荐为什么推荐：这是 LLM-as-a-Judge 的奠基论文，也是 Chatbot Arena（LMSYS）的技术基础。你的文档中提到的位置偏见和冗长偏见，这篇论文是一手来源，并给出了具体的缓解方案（随机交换顺序、分维度评分）。考虑到 Chatbot Arena 已经成为行业事实标准评估平台，了解它的方法论是有价值的。

第 15 章 · 数据墙与后训练霸权

“Textbooks Are All You Need” (Phi 系列) Gunasekar et al., 2023. https://arxiv.org/abs/2306.11644 ★★☆ 推荐为什么推荐：微软的 Phi 系列模型用极小参数量（1.3B-3B）通过高质量合成数据达到了远超同级别模型的表现，实验性地验证了”数据质量 >> 数据量”这一判断。这篇论文是你文档中”后训练霸权”论点的最佳实证支撑。同时，它也是面试中讨论”小模型 vs 大模型”trade-off 时的好案例。

综合资源（跨章节）

Andrej Karpathy — “Let’s reproduce GPT-2 (124M)” (YouTube, ~4h) https://www.youtube.com/watch?v=l8pRSuU81PU GitHub: https://github.com/karpathy/build-nanogpt ★★☆ 推荐为什么推荐：这个视频完整走一遍”从空文件到训练出 GPT-2”的全过程，覆盖了你文档中多个章节的核心概念（tokenization、attention、训练循环、loss 函数、优化器）。4 小时时长较长，但它是把你文档中分散在各章节的概念串联成一条完整 pipeline 的最佳方式。如果你选择只看一个”大”资源，选这个。

Sebastian Raschka — “Build a Large Language Model (from Scratch)“（书籍） https://github.com/rasbt/LLMs-from-scratch ★★☆ 推荐为什么推荐：Manning 出版的这本书配有完整的 GitHub 代码仓库，从 tokenization 到预训练、SFT、DPO 全部从零用 PyTorch 实现。与 Karpathy 视频不同，这本书覆盖了完整的后训练 pipeline（SFT + preference tuning），和你文档第 4 章的结构高度对应。适合在巴西/阿根廷期间作为系统性学习的主线教材。

Chip Huyen — “AI Engineering”（书籍，2025） ★☆☆ 选读加分为什么推荐：Chip Huyen 从 AI 工程师/PM 视角出发，覆盖了模型选型、prompt engineering、RAG、Agent、评估和部署的实操框架。与你文档不同，她的侧重点不在底层原理而在工程决策和产品落地。作为补充视角有价值，但你的文档已经覆盖了大部分核心技术知识，这本更适合回国后做产品决策时参考。

学习路径建议（按时间紧迫度排序）

如果只有 20 小时（回国前最后冲刺）

Karpathy “Let’s build GPT” (2h) → 第 1 章直觉
3Blue1Brown Transformer 系列 (1.5h) → 第 3 章核心
Karpathy Tokenizer 视频 (2h) → 第 2 章
vLLM 博客 (0.5h) → 第 5 章
Chinchilla 论文核心部分 (1h) → 第 4/15 章
LoRA 论文 Section 1-2 (0.5h) → 第 4 章
ReAct 论文 (1h) → 第 10 章
DeepSeek-V3 报告 Section 2/4 (1.5h) → 第 6 章
DeepSeek-R1 报告 Section 2-3 (1h) → 第 11 章
DPO 论文 Section 1-3 (0.5h) → 第 4 章
RAG From Scratch 核心 notebooks (3h) → 第 9 章
其余时间：HuggingFace 解码策略博客、CLIP 论文、“Lost in the Middle” 论文

如果有 40+ 小时（巴西/阿根廷期间系统学习）

以上全部 + Sebastian Raschka 的书作为主线 + 所有★☆☆标注的论文

索引版本：2026 年 3 月 17 日配合 AI 技术底层逻辑与模型范式解析 v2 使用

模块 0 拓展材料｜ AI 技术底层逻辑 · 扩展阅读与学习资料索引