量化 Quantization

物理本质

将连续浮点数映射到离散整数网格。FP16 → INT8 将每个权重从 2 字节压缩到 1 字节，显存直接减半。

精度损失的本质：舍入误差。大多数权重可被模型冗余性吸收，但少数”离群值”（outlier）权重可能造成显著的性能退化。

量化方案光谱

方案	精度	显存压缩	推理加速	适用场景
FP16/BF16	16-bit	基线	基线	训练、高精度推理
INT8 (W8A8)	8-bit	~2×	1.5-2×	云端大规模部署
GPTQ	权重4-bit	~4×	2-3×	离线量化
AWQ	权重4-bit	~4×	2-3×	当前 4-bit 主流
GGUF	2-8bit混合	4-8×	视精度	CPU/端侧部署

对产品架构的影响

端侧门槛：7B FP16 ≈ 14GB → INT4 ≈ 3.5GB（高端手机/笔记本可跑）
KV Cache 量化：FP16 → FP8/INT8 使并发上限翻倍
QLoRA：4-bit 量化基座 + LoRA 微调，单卡 24GB 可微调 70B 模型

相关章节

[!quote]+ 📎 证据池 · 18 条 · 自动生成于 2026-05-16

A 级精读

丹尼尔·艾伦 - 阿伦特《人的境况》：科学何以导致非政治化？-2026-03-06 · 2026-03-06 · 丹尼尔·艾伦 | 阿伦特《人的境况》：科学何以导致非政治化？

DeepSeek创始人专访：中国的AI不可能永远跟随，需要有人站到技术的前沿-2025-01-27 · 2025-01-27 · 一觉醒来，DeepSeek 发布的 iOS 应用超越了 ChatGPT，直接登顶 AppStore。

赖长生｜记忆的门槛问题-2024-12-04 · 2024-12-04 · 记忆的门槛问题摘要：记忆哲学家普遍认为，若某人“记得”某过往事件，那么其情境记忆不仅应具有“事实性”，还应具有“原真

理查德·塞勒：行为经济学的过去现在和未来｜阅读笔记-2024-11-01 · 2024-11-01 · Behavioral Economics: Past, Present, and Future Author(s): R

断亲与催生：年轻人的文化解绑何以发生？-2024-02-19 · 2024-02-19 · 「其说是年轻人的主动选择，不如说是社会发展的必然，只是在年轻人身上集中爆发。」文 | 化橙编 | 鱼鱼 “不孝有三，

人们临终时的真实所言-2024-02-09 · 2024-02-09 · ©Bianca Bagnarelli

对抗学习——对抗攻击方法+对抗防御方法(待续) - 知乎-2024-01-16 · 2024-01-16 · 目录收起 Adversarial Attacks and Defences: A Survey 2022年的综述

B/C 级参考 (11 条)

B · 〔私人记录〕 · 2026-04-24

B · 谷歌新论文把内存股价干崩了！KV cache压缩6倍，“谷歌的DeepSeek时刻”-2026-03-25 · 2026-03-25

B · 我用n8n+飞书监控了100 个AI头部公众号动态，借势解决「选题」困境-2025-10-15 · 2025-10-15

B · 提升VO2max 3.5ml-kg-min：相当于给大脑增加2.8年的认知储备-2025-04-21 · 2025-04-21

B · 一文读懂：从RAG到多模态RAG-2024-11-21 · 2024-11-21

B · 运动员心脏 - 心血管疾病 - MSD诊疗手册专业版-2024-07-23 · 2024-07-23

B · 腾讯司晓：在AI时代寻找底线性共识，为什么非常必要？-2024-04-15 · 2024-04-15

B · 用户故事｜JT：设计为生活赋能 - 极客时间 - 企业版-2024-02-26 · 2024-02-26

B · 轻量化 - 长距徒步装备指南 – 张诺娅-2024-02-20 · 2024-02-20

B · 如何识别你身边的反社会者-2024-02-09 · 2024-02-09

…还有 1 条