SFT 监督微调

核心定义

在高质量的 (指令, 回答) 对上进行微调，教会基座模型”听懂人话、格式化输出”。SFT 不是在注入新知识，而是在激活和重组预训练阶段已经学到的知识。

与预训练的关系：预训练学到世界知识，SFT 教会输出格式与行为规范。

Pretrain → SFT → Reward Modeling → RLHF / DPO / KTO → Eval
              ↑
        本节点焦点

维度	Instruction Tuning	Chat Tuning
数据形态	单轮 (instruction → response)	多轮对话 (含 system + user + assistant 来回)
典型起源	FLAN / T0 / Alpaca	Vicuna / OpenAssistant / Anthropic HH
应用场景	一次性任务（翻译 / 摘要）	真实助手产品（多轮上下文、澄清提问）

主流 chat model 实际是 Instruction tuning + Chat tuning 的混合数据集训练。

人工标注：质量最高，成本最贵，规模受限
专家筛选众包：OpenAssistant 路径，质量中等，成本中等
Distillation from teacher：用 GPT-4 / Claude 生成数据再训小模型（Alpaca / Vicuna 路径）——商用受 OpenAI 条款限制
Synthetic Data：模型自生成 + 自评估 + 筛选，已是大厂主流（见 c15 数据墙）
Constitutional / 自我批判：Anthropic 的 RLAIF 路径，让模型对照”宪法”原则改写自己的回答

过拟合 / 复读机：SFT 阶段过度灌入同一格式数据，输出风格僵化（“As an AI language model…” 起手是早期 ChatGPT 的标志性副产品）
灾难性遗忘：SFT 注入新领域知识容易让模型忘掉预训练已学的通用能力——这是幻觉的来源之一
能力对齐税 (alignment tax)：经过 SFT + RLHF 的模型在某些 raw 推理任务上比 base model 弱
风格污染：教师模型的回答风格（爱列点 / 偏好结构化）会被学徒模型继承

LoRA 是 SFT 的工程实现优化：在不动 base 权重的前提下只训练低秩适配矩阵，存储 / 部署成本骤降。绝大多数”SFT”的工业实践其实是 LoRA SFT，全量参数 SFT 只在 base model 提供商内部进行。

判断”是否该让团队做 SFT”的快速 checklist：