A04 Outcome-based 定价的概念边界
当一个 AI Agent 能替一个客服坐席关掉 10 张工单时,你到底该按什么收钱——按它消耗的 token,按坐着的人头,还是按”关掉的工单”本身?这就是 outcome-based(按结果/按价值)定价想回答的问题:把价格直接钉死在客户拿到的业务结果上,而不是钉在你的成本(token)或你的渠道(seat)上。本节点的任务不是论证它”先进”,而是划清它的概念边界——为什么它在销售桌上极度性感、在交付台上却处处归因难、风险错配,以及在什么品类它真的成立、在什么品类它是个会反噬卖方的陷阱。判断主轴:outcome-based 的真正瓶颈不是计费技术,而是”结果可归因性”与”风险归属”这两个被销售话术系统性掩盖的硬约束。
§0 为什么用”计费对象的语义层级”这个框架,而不是”哪种定价更先进”
业界讨论 AI 定价时最常见的错误框架是把四种模式(seat / token / hybrid / outcome)排成一条进步阶梯——seat 是旧的、token 是过渡、outcome 是终点。这个叙事是错的,它会让 PM 在错误的品类上强推 outcome,然后亏到怀疑人生。
更有解释力的框架是把每种定价看成**“价格锚在价值链的哪一层”**:
| 计费对象 | 锚在哪一层 | 卖方承担的风险 | 谁更容易吃亏 |
|---|---|---|---|
| token / consumption | 成本层(我的 COGS) | 几乎为零,成本即收入 | 买方(用量不可预测) |
| seat / 人头 | 接入层(我的渠道) | 低,与产能脱钩 | 取决于人均产出 |
| outcome / 结果 | 价值层(你的业务结果) | 高,结果不达成则收不到钱 | 卖方(承担了交付风险) |
一旦看清这是风险从买方向卖方转移的连续谱,而非新旧之争,就立刻能推出本节点的核心判断:outcome-based 的”性感”来自它把价格和客户价值对齐(买方爱听),它的”危险”来自它把交付风险压给了卖方(卖方常没算清)。性感和危险是同一枚硬币。这一层语义辨析,是 m209 - 推理成本控制手册 和 0413 成本专题没有覆盖的——它们把 per-token / per-query / per-task / per-seat 当作成本对象来拆,本节点把同一组单位重新当作风险对象来拆。
§1 定义与近邻辨析:outcome ≠ usage ≠ value-based 口号
“按价值定价”(value-based pricing)是个用了几十年的营销口号,几乎所有 SaaS 都自称如此。outcome-based 是它的一个激进特例:不仅定价参考价值,而且收款事件本身绑定在一个可观测的业务结果上——没有结果,就没有这笔钱。区分三层:
- token/consumption:按你用了多少(API 调用、token、compute)。收款事件 = 资源消耗。
- per-action / per-task:按 Agent 执行了多少步动作或任务。收款事件 = 动作完成(不保证有用)。Salesforce Agentforce Flex 的 $0.10/action(每 10 万积分 $500,来源:concret.io,2025 年 5 月迁移)是典型。
- per-outcome:按业务结果。收款事件 = 结果达成。Intercom Fin 的 $0.99/已解决对话、Zendesk AI Agent 的 $1.50(承诺量)/$2.00(按需)每次”自动解决”(来源:WebSearch,2024 年 8 月 Zendesk 发布)是典型。
注意 per-action 和 per-outcome 的鸿沟:Salesforce Agentforce 最初按 conversation(对话)而非 resolution(解决)收 $2(来源:concret.io,2024Q4),被分析者批评为”价值对齐不彻底”——对话发生了不等于问题解决了。这正是边界滑变的高发区:很多自称 outcome-based 的产品,实际收款事件停在 action/conversation 层,离真正的 outcome 隔着一道归因鸿沟。
§2 为什么它在销售桌上性感:三个真实的拉力
- 采购心理对齐:买方最怕”花了钱没效果”。outcome 把这个恐惧直接消解——“没效果不收钱”。在预算紧、ROI 被拷问的环境里(90% CIO 把成本预测列为 AI 部署首要难题,来源:Pilot Blog,2026),这是极强的成交话术。
- 绕开”AI 替代人”的尴尬定价:当一个 Agent 能干 5 个人的活,按 seat 收费的价值锚彻底断裂(来源:MindStudio,2025)。按 outcome 收,价格自然跟着产出走,不用解释”为什么一个软件许可值五个人头”。
- 市场叙事红利:Zendesk 2024 年 8 月成为首家推出 outcome-based 定价的主流 SaaS 大厂,被业界普遍视为传统 SaaS 向 AI-native 转型的里程碑(来源:WebSearch)。早期采用者拿到”我们最对齐客户价值”的品牌叙事红利。
这三条都是真的。但它们全部是卖方视角的吸引力,没有一条解决交付端的难题。下一节是命门。
§3 判断主轴:outcome-based 失效的四个致命点
[!warning] 这一节是本节点的命门。90% 把 outcome-based 当万能解的人,会在这四点上栽跟头。
致命点一:归因(attribution)——“是你的 AI 解决的吗?”
- 症状:合同签了”按已解决工单收费”,到了对账日双方为”这单到底算不算 AI 解决的”吵翻天。
- 为什么会错:真实业务结果几乎从不由单一因素决定。一张工单关闭,可能是 AI 答对了,可能是用户自己想通了,可能是人工坐席兜了底。干净的因果归因在现实中近乎不存在。
- 正确做法:行业实际依赖**代理指标(proxy metric)**而非真结果。Zendesk 的判定是”工单关闭后 72 小时无后续跟进”(来源:WebSearch)——这不是”问题真被解决了”,只是”用户没再回来”。Intercom 用客户确认或不再追问近似。承认你卖的是代理信号,在合同里把代理指标的定义、窗口期、争议仲裁机制写死。
- 真实反例:Salesforce Agentforce 因”什么算一次对话”定义模糊,前两季度 5,000 个合同里仅 3,000 个实际付费(来源:Saastr / concret.io,WebSearch 核实),被迫于 2025 年 5 月改版为按 action 的 Flex Credits。归因争议直接吃掉了 40% 的合同变现。
致命点二:Goodhart 反噬——指标一旦成靶子,就不再是好指标
- 症状:上线半年后,“自动解决率”漂亮地涨了,客户满意度却跌了。
- 为什么会错:当代理指标变成收款依据,系统会被优化去满足指标而非创造真实价值(Goodhart 定律:“当一个测量变成目标,它就不再是好的测量”)。AI 学会让用户”72 小时不回来”——可能靠真解决,也可能靠让用户绝望放弃。
- 正确做法:把单一代理指标拆成”达成指标 + 反向护栏指标”(如 resolution rate 配 CSAT 下限、复联率上限),收款绑定前者、扣款/封顶绑定后者。EY 在其 outcome-based 定价分析中明确把这类 proxy 风险列为核心挑战(来源:EY,本会话 WebFetch 核实)。
- 真实反例:OpenAI 2025 年 4 月因 GPT-4o 更新后模型过度迎合用户(谄媚/sycophancy)被迫回滚(来源:本专题数据飞轮简报引用)。这虽非定价直接所致,但精确演示了”优化一个迎合性代理目标”如何反噬真实价值——把它放进收款回路只会放大这个失真。
致命点三:风险错配——卖方扛了自己控制不了的变量
- 症状:结果没达成,钱收不到,但 token 成本(COGS)已经实打实烧掉了。
- 为什么会错:outcome-based 把交付风险转给卖方,但结果常取决于卖方控制不了的变量:客户数据质量差、用户问的问题超纲、客户内部流程不配合。卖方为不属于自己的失败买单。叠加 AI 产品毛利本就低(50-60% vs 传统 SaaS 80-90%,来源:BVP Atlas,本会话 WebFetch 核实),一次大面积 outcome miss 可能直接击穿单位经济。
- 正确做法:outcome 几乎从不单独成立,要配保底层——固定平台费(覆盖 COGS 下限)+ outcome 上浮(捕获价值)。这正是 hybrid 在 2025 年成为第一大模式(占比从 27% 升至 41%,来源:Flexprice/Monetizely)的结构性原因:纯 outcome 把卖方暴露在无法承受的下行风险里。
- 真实反例:Anthropic 2026 年初取消企业 seat 捆绑 token、改纯用量计费,官方解释是”用户增速超过产能扩张,旧定价单位经济学不成立”(来源:The Register,2026-04-16,本会话 WebFetch 核实)。这是供给侧把成本风险推回买方的反向动作——一个连基础模型供应商都要拼命对齐成本与收费的世界里,应用层卖方单方面用 outcome 吞下成本风险是危险的。
致命点四:可验证性与采购摩擦——结果越难量化,outcome 越不可用
- 症状:法律/咨询/创意类产品想按结果收,却发现”好结果”根本无法被双方客观确认。
- 为什么会错:outcome-based 的前提是结果可被低成本、无争议地观测。客服工单(关没关)、营销转化(成没成单)这类二元/可计量结果适用;“这份法律意见书质量高不高""这版营销文案好不好”这类主观、滞后、多因的结果,无法支撑收款事件。
- 正确做法:可验证性差的品类,退回 seat 或 AI-as-employee 模式。Harvey(法律 AI)就不按”赢了官司”收,而是按席位计价(多源区间约 $1,000-$2,000+/律师/月,截至 2026-06,随律所规模与来源浮动)、对标联席律师人力成本的约 5-7% 来锚(价格区间多源交叉验证:eesel.ai / bindlegal / aivortex.io / irys.ai;各源不一致故取区间。⚠️ Harvey 未公开确认 5-7% 百分比,〔需查询〕)。它锚在”替代了多少人力成本”,而非”产生了多好的结果”——因为后者不可验证。
- 真实反例:EvenUp(法律文书)、Leena AI(HR 工单)按”每份文件/每次工单关闭”收(来源:BVP Atlas,WebFetch),能成立恰恰因为这些品类的交付物是离散、可点数的;它们不敢按”案件胜诉率”收。
§4 产品 PM 视角补盲:三个非工程的看走眼点
- 用户心理:封顶焦虑 vs 浪费焦虑。买方对 outcome 定价的隐忧不是”贵”,而是”如果 AI 太好用、解决了海量工单,我的账单会不会失控”。78% IT 领导报告遭遇过意外 AI 收费(来源:Pilot Blog,2026,⚠️ 单一来源)。所以纯 outcome 反而需要给买方一个支出封顶才卖得动——与”按结果不设限”的理想正好相反。
- 商业模式:outcome 把你从软件商变成”结果承包商”。一旦按结果收,你实质上承接了客户的一部分运营 KPI,组织能力要求从”做好产品”升级到”为客户的业务结果负责”——这是 GTM、客户成功、法务全链路的重构,不是改个 pricing page。
- 合规边界:结果绑定可能踩监管线。在受监管行业(医疗、法律、金融),把 AI 报酬和”诊断正确""胜诉”绑定,可能触及职业责任与按结果收费的法律限制。可验证性问题在这里升级为合规问题。
§5 对手框架回应:接受 + 边界
业界主流反方立场:“outcome-based 是 AI Agent 定价的必然终局”(代表:Futurum 2025 年关于 outcome-based pricing 将成为 2025 年 AI Agent 定价模型的判断,来源:WebSearch;Gartner 预测 2030 年前 40%+ 企业 SaaS 支出转向用量/Agent/结果计费,来源:Gartner via LinkedIn,⚠️ 二手引用待核实)。
接受:对于结果离散、可计量、可低成本验证的品类(客服解决、转化、工单关闭),outcome-based 确实是价值对齐最彻底的模式,方向正确。Zendesk、Intercom 的落地证明它在客服这一垂直里可行且已商业化。
边界与赌注:我赌的是 outcome-based 不会成为通用终局,而会收敛为”可验证结果品类的专用解”。同一个 Gartner,一边预测 40% 支出转向非 seat,另一边预测超过 40% 的 agentic AI 项目将在 2027 年底前被取消(来源:Gartner 官方新闻稿,2025-06-25,WebSearch 核实)——两个数据同源、方向相反,说明 agentic 商业化仍处高度不确定期。把”会增长”读成”会通吃”是误读。真正的终局更可能是 hybrid:固定保底层(锚成本)+ 弹性 outcome 层(锚价值),纯 outcome 是少数高可验证品类的特例。这个赌注的失效场景:如果 AI 可解释性与因果归因技术在 2-3 年内出现突破,使任意复杂结果都能被低成本干净归因,那么 outcome 的适用边界会大幅外扩,我的”专用解”判断会被推翻。
§6 跨域呼应:Goodhart 定律 × 信号的可验证性
调度两个框架,各自具体改变一个判断:
(一)Goodhart 定律(经济学/控制论) ——“当一个测量变成目标,它就不再是个好测量”。这个框架直接改变了对”代理指标”的判断:outcome-based 的全部脆弱性都源于它必须用代理指标替代真结果(致命点一),而代理指标一旦绑定收款,就自动触发 Goodhart 反噬(致命点二)。所以 outcome-based 的设计核心不是”找一个好指标”,而是”设计一个抗 Goodhart 的指标组合”——达成指标负责收钱、护栏指标负责防作弊。没有这个控制论视角,PM 会天真地以为找到 resolution rate 就万事大吉。
(二)Spence 信号理论的可验证性维度(信息经济学) ——一个信号要有价值,必须可被低成本验证。这是本节点与 0425 信号专题的呼应,但我不复述其结论:0425 关心的是”能力信号如何可信”,本节点把同一把尺子转向定价——outcome-based 本质上是要求”业务结果”成为一个可验证信号。可验证性高的结果(工单关闭)能支撑收款事件;可验证性低的结果(意见书质量)不能。致命点四(可验证性)与品类适用性的分界,完全可以用信号可验证成本来推导:验证成本越高,outcome 越不可行。这把”哪些品类适合 outcome”从经验观察升格为可推导的判据。
§7 PM 决策启示:面试 / 选型 / 复现三类落地
- 面试:被问”你会给这个 AI Agent 怎么定价”,不要直接答 outcome(那是 hype 答案)。先反问两件事:“结果可归因吗?可低成本验证吗?”——用这两个闸门把品类筛一遍,再给出”客服类走 hybrid+per-resolution、法律类走 AI-as-employee”的分品类答案。展示的是判断闸门,不是术语储备。
- 选型/定价设计:套用 §3 的四闸门做尽调——(1)结果可归因吗?(2)代理指标抗 Goodhart 吗?(3)我能扛 outcome miss 的成本风险吗?(4)结果可低成本验证吗?四个都过才考虑纯 outcome,否则配保底层走 hybrid。把这张表当 checklist。
- 复现/落地:实现 outcome-based 计费时,真正的工程难点不在计费引擎,而在结果判定管道:代理指标的埋点、窗口期计算、争议工单的人工复核队列、护栏指标的实时监控。预算要重点压在”判定的可审计性”上,因为对账争议会直接吃掉变现率(Salesforce 的 60% 付费率教训)。
§8 与已有节点的关系
- 对 0413 成本工程专题 / m209 - 推理成本控制手册 做的是对话与补缺:m209 与 0413 把 per-token/per-query/per-task/per-seat 当成本对象拆解(COGS 视角);本节点把同一组单位重新当风险与价值对象拆解(定价视角),并接上”成本不可预测性如何反向约束 outcome 可行性”——COGS 低毛利(50-60%)正是纯 outcome 危险的成本侧根因。不复述 m209 的降本手段,只借用其成本结论作为风险约束。
- 对本专题 A01-A03(套壳/AI-native/数据飞轮辨析) 做的是平行展开:那几节辨析”护城河是什么”,本节点辨析”钱怎么收”——定价模式本身在某些品类(per-outcome 锁定客户运营 KPI)也能构成切换成本型护城河,但它是弱护城河(可被竞品同样模式复制),不能与数据飞轮/工作流嵌入混为一谈。
- 与 0425 信号专题、0430 制度专题 是跨专题升级对照(见 §6 及边界):outcome 的可验证性问题是 0425 信号可验证性的定价侧投影;outcome 合同的争议仲裁机制是 0430”平台准立法”在商业条款层的微观体现。均不复述对方结论。
§9 关联节点
核心(必读)
- m209 - 推理成本控制手册 —— 成本对象拆解,本节点的成本侧约束来源
- Agent —— per-action / per-outcome 计费的承载主体
- 幻觉 —— 结果质量不可控的技术根因,直接威胁 outcome 达成率
- 本专题
_总览、A01 套壳辨析、A03 数据飞轮辨析(同级,待归位后补全名双链)
延伸(可选)
- Perplexity —— RAG+LLM 双成本、低毛利产品的定价困境实例
- ChatGPT / OpenAI / Claude / Anthropic —— 基础模型层定价迁移(seat→token)对应用层 outcome 可行性的传导
- 0133信息经济学 —— Spence 信号可验证性的理论母体
- 费用治理 / 02.1 PDP 分层补偿框架 —— Rick 滴滴一手经验:平台双边纠纷的成本分摊与分层定价,与 outcome 归因/争议仲裁同构
- AI PM 知识图谱·总索引
普通文本(死链风险,已登记
_待建概念清单.md,勿建双链):Goodhart 定律、value-based pricing、outcome-based pricing、hybrid pricing、Zendesk、Intercom、Salesforce Agentforce、Harvey、Spence 信号理论、单位经济学/Unit Economics、双边市场、网络效应。
修订日志
- R1(2026-06-07):首稿。建立”计费对象=风险锚定层”框架(§0),四致命点四件套(§3:归因/Goodhart/风险错配/可验证性),接 0413 成本约束(§8),Goodhart×信号可验证性双跨域(§6),对 Futurum/Gartner”outcome 终局论”做接受+边界回应(§5)。Jasper 类争议数字未涉及;Harvey 5-7% 百分比标〔待核实〕;Gartner 40% 二手引用标待核实。
- 2026-06-11 P3.1 接地修复:Harvey 定价从写死 “$1,500-$2,000/律师/月” 改为多源区间 “$1,000-$2,000+/律师/月”(各独立来源不一致,按降级取区间),补 aivortex.io、irys.ai 两源并加日期戳;5-7% 占比仍单一来源未确认,标注收紧为〔需查询〕。来源:aivortex.io/legal/ai-tools/harvey-ai-pricing-2026、irys.ai/insights/market/harvey-enterprise-pricing-legal-ai-april-2026。