A06 端侧与云端成本重构

当工程同学说”我们把推理搬到端侧，API 费用就归零了，还顺便解决隐私”时，PM 该怎么质询这句话？本节点要解决的问题是：“端侧推理免费”是 AI 成本里最贵的一句口号。 端侧不是把成本从账单上抹掉，而是把它从”你能看见的 API 月账”重新分配到”你看不见的设备 BOM、模型适配工时、质量回退损失、碎片化运维”四个口袋里。本节用 TCO（总拥有成本）框架 + 成本对象迁移视角，把”端侧 vs 云端”从一道二选一的技术题，重诊为一道成本重新分配 + 质量上限 + 责任主体转移的三维产品决策题。

§0 为什么是”成本重构”而不是”成本归零”这个框架

PM 脑子里关于端侧最常驻的默认框架是**“端侧 = 省钱 + 隐私，云端 = 烧钱 + 风险”的二元对立**。这个框架错在它把”成本”等同于”我每月付给 OpenAI/Anthropic 的那张账单”。一旦你接受这个窄定义，端侧确实像免费午餐——不调 API 了嘛。

正确的框架是 TCO（Total Cost of Ownership，企业 IT 采购里用了三十年的总拥有成本）：一个推理能力的真实成本 = 显性的 API/算力费 + 隐性的设备折旧 + 模型适配与压缩工时 + 因质量下降导致的留存/转化损失 + 多设备碎片化的测试与运维成本 + 锁定与迁移成本。云端把这些隐性成本外包给了供应商（你为它们付的是 token 溢价），端侧则把它们全部内化到你自己的产品团队和用户的设备里。

所以这一节的标题用”重构”而非”降本”是有意的：端侧不创造一个更便宜的世界，它创造一个成本结构不同的世界。 谁该用端侧，取决于你把成本搬到的那几个口袋，是不是恰好是你能承受、甚至能转嫁的口袋（比如把显性 API 成本转嫁成”用户自己设备的电费和内存”）。这个框架直接挡掉了下面要拆穿的那句口号。

[!note] 与 c07 的框架级分工 c07 - 量化 Quantization 与端侧部署已经讲透了端侧的物理可行性——量化的本质（FP16→INT8/INT4）、INT4 损失幅度、端侧能跑多大模型的硬件门槛表、QLoRA 微调。c07 回答”端侧推理在技术上可不可行、跑得动多大”。本节点不复述这些物理门槛，而是升高一层：把 c07 的”可行性”翻译成”成本与隐私的权衡决策”——同样跑得动一个 7B 量化模型，该不该端侧化、端侧化省了哪笔账、又新增了哪笔账、谁为这笔账负责。从”能不能”到”该不该、值不值、谁买单”。

§1 端侧到底搬走了哪笔成本、又搬来了哪笔（成本对象迁移表）

端侧的本质是一次成本对象的迁移——把本来计在”per-token API 账”上的成本，拆散重计到别的成本对象上（成本对象的口径见 A02 成本对象层级辨析·per-token per-query per-task per-user per-seat）。下表是这次迁移的资产负债表：

成本项	云端（API/托管推理）	端侧（设备本地推理）	谁买单的转移
推理算力（变动成本）	计入 per-token 账单，随用量线性增长	≈0 增量（用户设备已有的 NPU/GPU 算力）	从厂商月账 → 用户设备的电与算力（最大的一笔转移）
模型权重存储/常驻显存	厂商承担，对你透明	占用用户设备 2–8GB 存储 + 运行时内存	从厂商 → 用户设备成本（影响低端机覆盖率）
模型适配/量化/压缩工时	几乎为零（直接调 API）	高——每个目标硬件要量化、调优、测精度回退	新增的一次性 + 持续工程成本（计入你的人力 COGS）
质量损失的商业成本	低（用满血云端模型）	高——端侧小模型 + 量化双重降质，转化/留存下降	新增的隐性收入损失（最容易被漏算）
碎片化测试/运维	一套 API 行为统一	高——iOS/Android × 芯片代际 × 内存档位的矩阵	新增的长尾运维成本（Android 尤其重）
隐私合规成本	高（数据出域、需 DPA、跨境合规）	低（数据不出设备）	端侧在这一项是真省——见 §3
网络/延迟	依赖网络、有往返延迟	低延迟、可离线	端侧体验优势（间接降”因卡顿流失”的成本）

读这张表的方法：端侧只在最右列”隐私合规”和”网络延迟”两项是真便宜，其余项要么是把成本转嫁给用户设备，要么是凭空新增你自己的工程与质量成本。 一个把”端侧免费”挂嘴边的方案，几乎一定只算了第一行（推理算力转移），漏算了中间四行。

§2 端侧的三道硬天花板：设备成本、质量上限、碎片化

端侧不免费，体现在三道无法靠”等模型变强”绕过的结构性天花板。这三道墙是本节点判断主轴的物理基础。

① 设备成本天花板。 端侧推理要求用户设备有足够的 NPU 算力与内存。这意味着你的端侧能力天然只覆盖你用户里那批高端机用户——而低端机、旧机型用户恰恰常是价格敏感、最需要”免费”的那批人。Apple Intelligence 把硬件门槛卡死在 A17 Pro 芯片 + 8GB RAM（iPhone 15 Pro / 15 Pro Max 及更新机型，iPad/Mac 需 M1 及以上）——关键瓶颈是内存：iPhone 15 / 15 Plus 用 A16 + 6GB RAM 就被排除，因为端侧大模型需要 8GB 才能常驻内存而不挤垮其他系统功能（来源：Apple Support “How to get Apple Intelligence” support.apple.com/en-us/121115，2026-06 核实）。这等于一刀切掉了大量存量 iPhone 用户。端侧的”省 API 费”是用”缩小可服务用户盘”换来的——这笔机会成本极少被计入降本核算。

② 质量上限天花板。 端侧受内存与算力约束，只能跑小模型 + 激进量化，二者叠加把质量压在一个结构性低于云端满血模型的水平。c07 给出 INT4 AWQ 在通用任务上损失约 2–5%〔见 c07，待复核口径〕，但关键是：这个损失在长程推理、精确计算、多语言、复杂指令遵循上是非线性放大的——也就是说端侧模型在”简单问答”上看着够用，一到你产品真正的难任务就崩。质量损失不是一个 5% 的固定折扣，而是一条在任务难度上陡峭上升的曲线。

③ 碎片化天花板。 iOS 还算可控（机型有限），Android 是噩梦：芯片厂商（高通骁龙 / 联发科天玑 / 三星 Exynos）× NPU 代际 × 内存档位 × 厂商定制 ROM，构成一个组合爆炸的测试矩阵。同一个量化模型在不同 NPU 上的精度、速度、甚至能否加载都不一样。端侧省下的 API 费，很大一部分会被这条碎片化长尾的适配与运维工时吃回去——这是云端”一套 API 行为走天下”完全没有的成本。

[!note] 把这三道墙记成一句话贴墙上 端侧不是”更便宜的云端”，是”用更小的用户盘 + 更低的质量上限 + 更重的碎片化运维，换掉 API 月账和数据出域风险”。 这笔交换值不值，取决于你的产品是不是”高频、轻量、隐私敏感、且简单任务占比高”——满足这四条端侧才划算，缺一条就要重新算账。

§3 隐私-成本权衡：端侧真正不可替代的那一项

前面一直在拆穿”端侧省钱”的水分，但要诚实地承认端侧有一项是云端无论怎么降价都买不到的：数据不出设备。这不是成本的转移，是合规风险与信任成本的真实消除。

对 Rick 做安全/国际化产品的场景，这一项尤其重：跨境数据流动（GDPR、中国《个人信息保护法》的出境评估、巴西 LGPD）下，“数据不出用户设备”能把一整套数据处理协议（DPA）、跨境传输合规、数据驻留要求直接绕过。云端方案里这部分是真金白银的法务 + 合规工程成本，端侧方案里它趋近于零。

但这里有个 PM 常踩的陷阱：把”端侧”和”隐私”绑成一个不可分的卖点，是偷换概念。 Apple 的架构恰恰证明了这一点——它不是纯端侧，而是 端侧 + Private Cloud Compute（PCC，私有云计算）的混合：简单任务端侧做，复杂任务上传到 PCC。PCC 的隐私不靠”信任 Apple”，而靠五条可被外部验证的技术保证：无状态计算（stateless，数据只用于完成本次请求，处理后不留存、不做日志/调试存储）、无特权运行时访问（连 Apple 自己的运维人员也无法绕过保护读取数据）、不可定向（non-targetability）、可验证透明（Apple 公开每个生产构建的软件镜像供安全研究者核验，确认线上运行的就是被审计过的那版代码）（来源：Apple Security Research “Private Cloud Compute: A new frontier for AI privacy in the cloud” security.apple.com/blog/private-cloud-compute/，2026-06 核实）。这说明隐私可以靠”可验证的云端”实现，不必非得端侧。所以真正的权衡不是”端侧 vs 云端”，而是”隐私保证从哪来：靠数据物理不出域（端侧），还是靠可验证的云端隔离（PCC 路线）“——后者能兼顾隐私与云端的质量上限，但工程门槛极高，是 Apple 级的投入。

§4 判断主轴：端侧非免费——90% 的人会在这四个点上搞错

这是本节点的命门。端侧降本的诱惑太大，以下四个错位几乎每个谈”端侧战略”的会上都会出现。每个都给 症状 → 为什么会错 → 正确做法 → 真实反例。

错位一：把”省了 API 费”当成”省了成本”

症状：“端侧推理不调 API，每月省下 X 万 token 费用，这是纯利润。”
为什么会错：只算了成本对象迁移表的第一行（推理算力转移），漏算了适配工时、质量损失、碎片化运维三笔新增成本。这是把”显性成本下降”误读成”总成本下降”，犯的是和”自建推理省了 API 溢价却没算 GPU 折旧”一模一样的错（见 S01 AI 产品成本结构分层剖面的 TCO 层）。
正确做法：算端侧账要用 TCO 全口径——把省下的 API 费，减去（量化适配人月 × 人力单价 + 预估质量下降导致的留存损失 + 碎片化测试运维成本 + 模型分发与更新的带宽成本）。多数中小团队算完会发现端侧的 TCO 高于云端。
真实反例：很多创业团队为”省 token 费”自建端侧小模型方案，半年后发现量化调优 + 多机型适配吃掉了两个工程师的全部产能，而这两个人月的成本远超它们当时的 API 账单——省下的是看得见的钱，烧掉的是看不见的人。〔此为行业常见模式的概括，非特定公司财报，标为模式性观察〕

错位二：用”简单 demo 跑得动”推断”产品任务也够用”

症状：“我们在端侧跑通了一个 3B 模型，问答很流畅，可以全量端侧化。”
为什么会错：忽略了 §2 的质量上限天花板——端侧模型的质量损失在任务难度上非线性放大。demo 的简单问答正好落在曲线平坦区，产品真实的复杂任务落在陡峭区。
正确做法：用产品真实任务分布（而非 demo）去压测端侧模型，分难度档位看质量回退，划出一条”哪些任务端侧能扛、哪些必须上云”的分流线。这条线就是路由策略（见 A05 模型路由与 Mixture-of-models）在端云之间的应用——端侧是 cascade 的最底兜底层，不是全部。
真实反例：Apple Intelligence 的通知摘要功能上线后翻车——2025 年初，BBC 投诉其 AI 把新闻通知摘要成完全捏造的假事实（如谎称 Luigi Mangione 开枪自杀、Luke Littler 在比赛开始前数小时就”已夺冠”、网球名将 Nadal”出柜”），BBC 称这些摘要”不反映、甚至完全违背”原文；Apple 随后在 iOS 18.3 临时关闭了 News & Entertainment 类的通知摘要（来源：The Register “Apple responds to BBC complaint over AI accuracy” 2025-01-07；Axios “Apple pauses AI-generated news notifications after fake headline errors” 2025-01-17，2026-06 核实）——这正是”简单任务（摘要）够用不代表难任务（保真摘要）够用”的产品级印证：端侧/小模型在看似简单的摘要上照样会非线性翻车。

错位三：把”端侧”和”隐私”焊死，忽略可验证云端这条路

症状：“要隐私就必须端侧，所以为了隐私我们接受端侧的质量损失。”
为什么会错：隐私的实现路径不止端侧一条。把二者绑死，会让你为了一个本可用云端方案达成的目标，白白吞下端侧的质量与碎片化成本。
正确做法：先拆”隐私需求”到底是”数据物理不出域”还是”数据不被供应商读取/留存”——后者可以靠可验证云端（如 Apple PCC 模式、机密计算 confidential computing）实现，不必牺牲质量。区分这两层，再决定端侧是必需还是可选。
真实反例：Apple 自己没有选纯端侧，而是端侧 + PCC 混合，正是因为它清楚纯端侧扛不住复杂任务的质量要求，又不愿放弃隐私承诺——它用”可验证的云”而非”端侧”来兜隐私底线。

错位四：假设”端侧硬件越来越强，所以现在不行将来一定行”

症状：“NPU 算力每年涨，再等两代旗舰芯片，端侧就能跑满血模型了，现在布局正好。”
为什么会错：这是线性外推谬误（破除”等就行”的进步主义叙事，呼应 G01 推理成本代际谱系总图）。端侧硬件确实在涨，但云端模型的参数与能力涨得更快——端侧追的是一个移动靶。设备内存与功耗有物理与商业上限（手机不能为跑模型牺牲续航和成本），而云端没有这个约束。端云的质量差距大概率长期存在甚至拉大。
正确做法：把端侧定位成”永远跑前沿模型的蒸馏版/小版本”，而非”迟早能跑满血”。端侧战略要假设质量差距长期存在，据此设计端云分流，而不是赌差距会消失。
真实反例：从 c07 的端侧门槛表可见，能舒适跑在主流手机上的模型量级，与同期 SOTA 云端模型（数百 B 参数、MoE）的差距是数量级的〔见 c07 与 c06 - 架构演进：Dense MoE SSM Hybrid，待复核当期具体量级〕，且这个差距并未因芯片进步而收敛。

§5 产品 PM 视角补盲：端侧的三个非工程账

跳出工程视角，端侧还有三个 PM 容易看走眼的点：

商业模式账：端侧把推理成本转嫁给用户设备，等于让用户用自己的电费和内存为你的 AI 功能买单。这在”一次性买断”或”硬件即服务”模式下合理（用户已为设备付过钱），但在”免费 + 订阅”模式下会制造一个隐性歧视——付费意愿高的旧机型用户反而用不上你的端侧功能。端侧战略必须和定价/分层模式对齐。
用户心理账：端侧的”离线可用 + 数据不出设备”是强信任信号，对隐私敏感人群（健康、财务、企业用户）是 GTM 卖点。但对普通用户，“端侧”是个无感词——他们只关心快不快、准不准。把端侧当技术卖点对外宣传，多半是自嗨；它的价值要翻译成用户能感知的”离线能用""更私密""更省流量”。
合规与地缘账：对国际化产品（Rick 的场景），端侧是应对数据本地化法规（数据驻留要求）的一张牌——某些市场强制数据不出境时，端侧分流能让你不必在当地建数据中心。但这是合规驱动的端侧，成本逻辑和”省钱驱动的端侧”完全不同，不能混为一谈。

§6 对手框架回应：接受端侧本地化派的对，标注它的边界

对手立场（LeCun / 端侧本地化乐观派）：未来推理会大规模下沉到端侧，云端推理成本趋于边缘化；随着开源小模型（如 Phi、Gemma、Qwen 小版本）与 NPU 的进步，本地推理将成为默认，隐私与成本双赢。

接受它对的部分：这个立场在三件事上是对的——(1) 端侧分流确实能消除一大块 API 变动成本，对高频轻量场景是真降本；(2) 数据不出设备的隐私优势是云端买不到的，在合规收紧的趋势下价值上升；(3) 小模型 + NPU 的能力下限在快速抬高，越来越多”昨天必须上云”的任务今天端侧能扛。这些不是营销话术，是真实趋势。

标注本专题坚持的边界与赌注：

端侧是分流（offload），不是替代（replace）。 我赌 2–3 年内，复杂任务（长程推理、Agent 多步、前沿质量要求）仍必须留在云端——端云质量差距是数量级的且不收敛（§4 错位四）。端侧扩大的是”能下沉的任务集”,不是消灭云端。
端侧的”省钱”被 TCO 大量稀释。 我赌对绝大多数非平台级团队（没有 Apple 那样的硬件 + 工程投入），端侧的全口径 TCO 不低于云端，甚至更高（§4 错位一）。能从端侧真正获益的是”自有硬件 + 海量用户 + 简单任务”的平台方（Apple、Google、Samsung），不是普通 App 团队。
隐私不等于端侧。 可验证云端（PCC / 机密计算）能在不牺牲质量的前提下兜隐私底线，端侧不是隐私的唯一解（§3）。

对手最强反击与我的让步：如果开源小模型质量在 2–3 年内出现非线性跃升（如 7B 模型达到今天 70B 的实用质量），错位二和错位四的论证会大幅松动，端侧的可用任务集会暴涨。我承认这个 failure scenario 存在——本节点的判断在”端云质量差距持续是数量级”这个前提下成立；若小模型质量追上来，端侧分流线会大幅上移，届时需重写本节。 这是我明确承担的赌注。

§7 跨域呼应：TCO 框架与”成本的可见性即权力”

调度 TCO（Total Cost of Ownership，总拥有成本） 这个企业 IT 采购框架。它在本节点改变的判断是：它把”端侧免费”这句话从一个会计陈述，重诊为一个关于”成本被搬到了谁看不见的口袋”的政治陈述。

TCO 框架最初是 Gartner 在 1980 年代为反驳”PC 比大型机便宜”的口号提出的——表面上 PC 单价低，但加上培训、运维、停机、安全这些隐性成本，TCO 常常更高。这个历史教训和今天的”端侧 vs 云端”是同构的：显性单价的下降，常常以隐性成本的转移和上升为代价。

更进一步,这里有一层”成本可见性即权力分配”的视角（呼应 0117社会学里度量与权力的关系）：端侧之所以诱人，正因为它把成本搬到了”账单上看不见”的地方——用户的电费、工程师被悄悄吃掉的产能、低端机用户被无声排除的机会成本。这些成本不进财务报表，于是在决策会上”不存在”。一个有 TCO 自觉的 PM 的职责，恰恰是把这些被隐藏的成本重新可见化，让”端侧免费”的口号在它真实的总账面前被检验。把看不见的成本说出来，本身就是一种把决策权从”营销叙事”夺回到”工程现实”的动作。

§8 PM 决策启示：面试 / 选型 / 复现三类落地

面试怎么用：被问”如何评估一个端侧 AI 方案”时，别只说”省 API 费、保护隐私”——那是外行答法。用一句话定位高度：“端侧不是降本，是成本重构——它把 API 费转嫁给用户设备，但新增了适配工时、质量损失、碎片化运维三笔账，要用 TCO 全口径算才知道值不值；而且隐私不必靠端侧，可验证云端也能做。” 再补一句 Apple 的端侧 + PCC 混合作为佐证。这一答立刻区分你和”端侧=免费+隐私”的标准答案。
选型怎么用：拿到”全量端侧化”提案，逐项质询成本对象迁移表的中间四行（适配工时多少人月？质量回退在真实任务分布上多大？碎片化覆盖哪些机型、测试矩阵多大？低端机用户怎么办？）。让提案方把省下的 API 费和这四笔新增成本摊在同一张 TCO 表上对比（接 R03 Unit Economics 模型·CAC COGS LTV 与盈亏平衡的算账方法）。
复现怎么用：要验证端侧是否划算，不是测”跑不跑得动”，而是测”在产品真实任务分布上质量回退多少 + 全口径 TCO 是多少”。把端侧作为端云路由的最底兜底层来设计实验（接 A05 模型路由与 Mixture-of-models 与 R02 中型·模型路由 + 语义缓存降本实验），实测分流线划在哪里 per-user 成本最低且质量可接受。

§9 与已有节点的关系

对 c07 - 量化 Quantization 与端侧部署：深化 + 视角升级（不复述）。 c07 讲端侧的物理可行性（量化本质、INT4 损失、硬件门槛表、QLoRA），回答”能不能跑、跑得动多大”。本节点不复述这些物理参数，而是把”可行性”升级为”成本-隐私权衡决策”——同样能跑，该不该端侧化、省了哪笔账、新增哪笔账、隐私是否必须靠端侧、谁为成本买单。从”能不能”到”该不该、值不值、谁买单”，这是本节点相对 c07 的抽象层升高。补缺：c07 未展开端侧的隐藏 TCO（适配工时/质量损失/碎片化运维）、未区分”端侧”与”可验证云端”两条隐私路径、未覆盖 Apple PCC 这类混合架构——本节点补上。
对 c06 - 架构演进：Dense MoE SSM Hybrid：对话。 c06 讲架构的能力取舍；本节点接”端侧的质量上限根源之一是端侧只能跑小架构/激进量化版本，与云端 MoE/大模型是数量级差距”，把架构差异接到端云成本-质量天花板上。
延伸呼应：A05 模型路由与 Mixture-of-models（端侧是端云 cascade 的最底兜底层）、S01 AI 产品成本结构分层剖面（TCO 层）、S02 降本手段流派对照矩阵（量化/端侧作为降本流派的代价列）、E02 Apple Intelligence 与端侧推理成本剖解（本节点的概念在该实例节点钉进真实产品）、A07 成本约束反向塑造产品（端侧硬件门槛反向塑造了”哪些用户能用 AI 功能”这一产品边界）。

§10 关联节点

核心（必读）

c07 - 量化 Quantization 与端侧部署（本节点升级对照的主对象——端侧物理可行性）
A05 模型路由与 Mixture-of-models（端侧作为端云分流的兜底层）
S01 AI 产品成本结构分层剖面（TCO 全口径成本堆栈）
E02 Apple Intelligence 与端侧推理成本剖解（本节点概念的实例落地）
A02 成本对象层级辨析·per-token per-query per-task per-user per-seat（端侧=成本对象迁移）
量化（端侧的核心降质来源）
A07 成本约束反向塑造产品（端侧门槛反向塑造用户盘）

延伸（可选）

c06 - 架构演进：Dense MoE SSM Hybrid（端云架构差距根源）
S02 降本手段流派对照矩阵（端侧/量化的降本×代价定位）
R02 中型·模型路由 + 语义缓存降本实验（端云路由实验）
R03 Unit Economics 模型·CAC COGS LTV 与盈亏平衡（端侧 TCO 算账）
G01 推理成本代际谱系总图（端侧作为降本代际的一支）
m209 - 推理成本控制手册（推理降本手段全景）
m202 - 工程选型决策矩阵（端云选型的成本维度）
KV Cache（云端推理的显存成本，端侧规避的那部分）
MoE（云端大模型架构，端侧跑不动的代表）
0117社会学（成本可见性即权力分配）
0115道德哲学-伦理学（隐私作为可验证承诺的伦理基础）
AI PM 知识图谱·总索引

§11 修订日志

R0（2026-06-07，首稿）：按宪章 §4 十一段骨架写成。一句话定义锚定”端侧免费是最贵的口号”；§0 用 TCO 框架替换”端侧=省钱+隐私”二元对立默认框架，并与 c07 做框架级分工（c07 讲能不能、本节讲该不该）；§1 成本对象迁移表（7 项，标注每项买单方转移）；§2 三道天花板（设备成本/质量上限/碎片化）；§3 隐私-成本权衡 + 拆”端侧≠隐私唯一解”（Apple 端侧+PCC 混合）；§4 判断主轴四错位 × 四件套（省 API≠省成本 / demo≠产品任务 / 端侧≠隐私焊死 / 硬件外推谬误）；§5 PM 补盲三账（商业模式/用户心理/合规地缘）；§6 对手框架回应（端侧本地化派”接受+边界+赌注+最强反击让步”）；§7 跨域呼应 TCO（Gartner 1980s 起源 + 成本可见性即权力）；§8 三类落地；§9 与 c07 深化+升级、c06 对话；§10 关联节点核心 7 / 延伸 12。
R1（2026-06-07，事实接地 pass）：WebSearch 核实并接地三项 Apple 公开事实，去除 3 个〔待核实〕：①端侧硬件门槛=A17 Pro+8GB RAM（iPhone 15 Pro 及以后 / M1+），瓶颈是内存（iPhone 15 的 6GB 被排除）——来源 Apple Support 121115；②PCC 五条可验证隐私保证（无状态/无特权访问/不可定向/可验证透明 + 公开生产镜像）——来源 Apple Security Research PCC 博客；③Apple Intelligence 通知摘要翻车的真实反例（2025-01 BBC 投诉假新闻摘要、Apple 在 iOS 18.3 临时下线 News 类摘要）——来源 The Register 2025-01-07 / Axios 2025-01-17。剩余 2 处待复核项（均为对 c07 原文口径的内部交叉引用，非外部硬事实，待节点协同时对齐）：④c07 的 INT4 AWQ 损失幅度与端侧门槛表口径〔待复核 c07 原文〕；⑤端云模型参数量级差距的当期具体数字〔待复核 c06/c07〕。两项均已在正文显式标注为”见 c07/待复核”，未伪装成确证。
2026-06-11 P3.1 接地复核：本节点承重显存/硬件数字复检——①端侧硬件门槛 A17 Pro + 8GB RAM、iPhone 15（A16+6GB）被排除，经 WebSearch 复核与 Apple Support 口径一致，承重无误；②§1 表”模型权重常驻显存占用户设备 2–8GB”为量级示意（端侧 3B 模型 2-bit 量化约 1GB 级、含 KV cache 与运行时余量），与 Apple 公布的”目标 1GB 级内存 + 8GB 设备门槛”自洽，维持示意表述。本节点无 token 价格类 volatile 数字，无需改动；纯硬件门槛事实已是 Apple 公开政策、稳定。