量化
量化 Quantization
物理本质
将连续浮点数映射到离散整数网格。FP16 → INT8 将每个权重从 2 字节压缩到 1 字节,显存直接减半。
精度损失的本质:舍入误差。大多数权重可被模型冗余性吸收,但少数”离群值”(outlier)权重可能造成显著的性能退化。
量化方案光谱
| 方案 | 精度 | 显存压缩 | 推理加速 | 适用场景 |
|---|---|---|---|---|
| FP16/BF16 | 16-bit | 基线 | 基线 | 训练、高精度推理 |
| INT8 (W8A8) | 8-bit | ~2× | 1.5-2× | 云端大规模部署 |
| GPTQ | 权重4-bit | ~4× | 2-3× | 离线量化 |
| AWQ | 权重4-bit | ~4× | 2-3× | 当前 4-bit 主流 |
| GGUF | 2-8bit混合 | 4-8× | 视精度 | CPU/端侧部署 |
对产品架构的影响
- 端侧门槛:7B FP16 ≈ 14GB → INT4 ≈ 3.5GB(高端手机/笔记本可跑)
- KV Cache 量化:FP16 → FP8/INT8 使并发上限翻倍
- QLoRA:4-bit 量化基座 + LoRA 微调,单卡 24GB 可微调 70B 模型
相关章节
[!quote]+ 📎 证据池 · 18 条 · 自动生成于 2026-05-16
A 级精读
- 丹尼尔·艾伦 - 阿伦特《人的境况》:科学何以导致非政治化?-2026-03-06 · 2026-03-06 · 丹尼尔·艾伦 | 阿伦特《人的境况》:科学何以导致非政治化?
- DeepSeek创始人专访:中国的AI不可能永远跟随,需要有人站到技术的前沿-2025-01-27 · 2025-01-27 · 一觉醒来,DeepSeek 发布的 iOS 应用超越了 ChatGPT,直接登顶 AppStore。
- 赖长生|记忆的门槛问题-2024-12-04 · 2024-12-04 · 记忆的门槛问题 摘要: 记忆哲学家普遍认为,若某人“记得”某过往事件,那么其情境记忆不仅应具有“事实性”,还应具有“原真
- 理查德·塞勒:行为经济学的过去现在和未来|阅读笔记-2024-11-01 · 2024-11-01 · Behavioral Economics: Past, Present, and Future Author(s): R
- 断亲与催生:年轻人的文化解绑何以发生?-2024-02-19 · 2024-02-19 · 「其说是年轻人的主动选择,不如说是社会发展的必然,只是在年轻人身上集中爆发。」 文 | 化橙 编 | 鱼鱼 “不孝有三,
- 人们临终时的真实所言-2024-02-09 · 2024-02-09 · ©Bianca Bagnarelli
- 对抗学习——对抗攻击方法+对抗防御方法(待续) - 知乎-2024-01-16 · 2024-01-16 · 目录 收起 Adversarial Attacks and Defences: A Survey 2022年的综述
B/C 级参考 (11 条)
- B · 〔私人记录〕 · 2026-04-24
- B · 谷歌新论文把内存股价干崩了!KV cache压缩6倍,“谷歌的DeepSeek时刻”-2026-03-25 · 2026-03-25
- B · 我用n8n+飞书监控了100 个AI头部公众号动态,借势解决「选题」困境-2025-10-15 · 2025-10-15
- B · 提升VO2max 3.5ml-kg-min:相当于给大脑增加2.8年的认知储备-2025-04-21 · 2025-04-21
- B · 一文读懂:从RAG到多模态RAG-2024-11-21 · 2024-11-21
- B · 运动员心脏 - 心血管疾病 - MSD诊疗手册专业版-2024-07-23 · 2024-07-23
- B · 腾讯司晓:在AI时代寻找底线性共识,为什么非常必要?-2024-04-15 · 2024-04-15
- B · 用户故事|JT:设计为生活赋能 - 极客时间 - 企业版-2024-02-26 · 2024-02-26
- B · 轻量化 - 长距徒步装备指南 – 张诺娅-2024-02-20 · 2024-02-20
- B · 如何识别你身边的反社会者-2024-02-09 · 2024-02-09
- …还有 1 条