8. 解码策略与生成控制：从参数到产品体验

解码策略决定模型”如何从概率分布中选出下一个 token”，直接决定输出的多样性、创意性和可预测性。调整这些参数是 PM 优化产品体验成本最低的杠杆之一，无需重新训练模型。

8.1 核心采样参数详解

Temperature（温度）：在 Softmax 之前对 logit 做缩放。

Top-p（Nucleus Sampling，核采样）：动态选取累积概率达到 p 的最小 token 集合采样。p = 0.9 意味着只从概率总和前 90% 的候选中采样，自动排除低概率”噪声词”。相比 Top-k，自适应性更强，是当前主流。

Top-k：固定选前 k 个候选 token。缺陷：当概率分布本身很宽或很窄时，固定 k 不合适。Top-p 比 Top-k 更自适应，Top-k 正在被逐渐替代。

Min-p：设置相对于最高概率 token 的最小比例阈值。例如 min-p = 0.1，则只保留概率 > 最高概率 × 0.1 的候选。在高温场景下比 Top-p 表现更稳定，是 Top-p 的改进变体。

典型配置参考：

场景	Temperature	Top-p	说明
代码生成	0.1–0.3	0.9	确定性为主
事实问答	0.3–0.5	0.9	兼顾准确与自然
创意写作	0.8–1.0	0.95	多样性优先
头脑风暴	1.0–1.2	0.95	最大多样性

Repetition Penalty（重复惩罚）：对已经出现过的 token 降低其 logit 值，防止模型陷入”复读机”循环。值 > 1.0 开始生效，但过高会导致模型异常回避正常词汇，产生不自然的输出。

Presence Penalty / Frequency Penalty（OpenAI API）：

Logit Bias：对特定 token 的 logit 直接加减偏置值。设为 -100 可物理禁止某词出现，设为正值可强制倾向某词。Function Calling 的结构化输出依赖此机制（强制模型只能生成指定格式）。

在解码过程中施加硬约束，保证输出 100% 符合目标格式（JSON Schema、正则表达式、上下文无关文法 CFG）。

物理机制：生成每个 token 时，将不符合当前格式约束的 token logit 设为 -∞，使其采样概率归零。模型不是”希望”输出 JSON，而是被物理约束只能输出合法 JSON。

为什么重要：Prompt Engineering 无法做到 100% 格式保证，只有受约束解码可以。如果业务需要绝对格式合规（Agent 工具调用、数据提取、API 接口对接），受约束解码是唯一可靠方案。

工具生态：Outlines、Guidance（微软）、llama.cpp 的 grammar 模式均实现了此功能。OpenAI 的 Structured Outputs API 底层即受约束解码。

Beam Search：维护 k 条候选序列并行推进，最终选总概率最高的序列。

采样：每步随机采样，适合需要自然感和多样性的场景。

当前主流配置：采样 + Top-p (0.9–0.95) + Temperature (0.7–1.0)。这也是 ChatGPT、Claude 等主流产品的默认策略。

解码参数不是技术细节，而是产品体验的直接调节旋钮：

相关概念卡：Softmax、Function Calling、Agent 与工具调用模块二延伸：m201 §2.1.1 — Temperature/Top-p 参数在 Prompt Engineering 实战中的配置建议上一章：c07 量化下一章：c09 RAG 架构