A05 Skill 生态建设作为设计实践
为什么”Rick 为自己造的 skill”是研究 Rick 产品判断的最佳一手数据,而不是研究 Skill 技术的素材?本节点的问题陈述是:当一个 PM 不是给 KPI、不是给老板、不是给匿名用户、而是给只有一个用户(他自己)的产品做设计决策时,所有平时被需求文档、向上管理、A/B 数据稀释掉的产品判断,会以最高浓度暴露出来。本节用的框架不是”评测 skill 好不好”,而是把 skill 设计决策史当作可观察的行为日志(usage-log-as-behavioral-trace)——这是自我民族志里最不需要内省、最经得起证伪的一类数据。
§0 为什么是”设计决策史”这个框架,而不是”工具评测”或”使用频率统计”
读到”研究 Rick 自建的 skill”,脑子里默认会跳出两个错误框架,必须先挡掉。
错误框架一:把 skill 当成功能列表来评测(“trip 套件有 5 个 skill,覆盖发散到收敛,good”)。这是把研究对象搞错了——评测 skill 本身是 Skill 系统的本质、旅行规划 Skill 套件系统设计 那两个节点的工作,本节点不复述它们。本节点研究的是Rick 在造这些 skill 时做了哪些选择、否决了哪些选择、为什么收手。功能列表是结果,决策史是过程;自我民族志要的是过程。
错误框架二:把使用频率当成偏好的代理变量(“哪个 skill 用得多就是好 skill”)。这会落入 §8 事实接地纪律的雷区:使用频率属于 Rick 内省/行为统计数据,本节点没有这份数据,编造它就是一票否决。可观察的是 skill 的设计史(commit 式的迭代轨迹、对话存档里的指令演变),不是它被触发了几次。
正确框架:设计决策 = 偏好显示(revealed preference)。经济学里 revealed preference 的逻辑是”别问人喜欢什么,看他在约束下买了什么”。把这套逻辑搬到 skill 设计上:别问 Rick 觉得什么是好的 AI 协作,看他在”为自己造工具”这个没有外部约束的场景里,实际写进 SKILL.md 的约束、实际删掉的角色、实际收手的地方。这是 von Hippel(1986,The Sources of Innovation)lead-user 方法的一个变体——lead user 因为”比市场早遇到需求且能从解决方案获益”而成为创新源头;Rick 作为自己工具的 lead user,其设计选择直接外化了他对 AI 能力边界的判断。
[!note] 本节点的赌注 赌”为自己造工具暴露的产品判断,比 Rick 在工作中做的任何产品决策都更真实”。因为给自己造工具没有向上管理、没有需求方扯皮、没有”先上线再说”的 deadline 妥协——失效边界见 §4 对手框架回应。
§1 三段可观察的设计决策史(一手数据陈列)
下面三段都来自 vault 真实产物(对话存档时间戳、SKILL.md 文件),不含任何 Rick 内省内容。
| 案例 | 时间 | 可观察的决策动作 | 暴露的产品判断 |
|---|---|---|---|
| trip-* 五件套设计 | 2026-03-31~04-01 | 把”行程规划”拆成 discover/evaluate/macro/structure/qa 五个独立 skill,按”发散—收敛—明确指令—机制核查”四步节奏 | 拒绝”一个大 skill 包打天下”,按认知阶段而非功能切分 |
| trip-structure 收敛 | 2026-04-03 | over-design → 被 Rick 拉回 → 由 skill-creator 元 skill 重写收敛输出格式 | 主动识别并砍掉自己的过度设计;承认”我也会 over-engineer” |
| intellectual-lens 迭代 | 2026-04-05 | 用”竞品输出对照”法做 prompt 工程:拿另一个 AI 的分析当参照系,定位差距在 prompt 哪一步,局部修补 | 把 prompt 工程当成有 baseline 的工程问题,不是玄学调参 |
这三段构成一个完整的”产品判断指纹”:(a) 按真实工作流的认知阶段切分模块(不是按技术功能);(b) 对自己的产物做 over-design 审查(设计者 = 第一个批评者);(c) 把不可观测的”prompt 质量”锚定到可对照的 baseline。这三条恰好是好 PM 与坏 PM 的三条分界线,只不过在为自己造工具时它们被放大到无可遮掩。
§2 trip 套件的切分逻辑:按认知阶段而非功能切分
trip-* 的切分点是本节点最值钱的一处可观察判断。一个”功能导向”的设计者会按对象切分(景点 skill / 酒店 skill / 交通 skill),因为对象是显性的、好命名的。Rick 的切分是按用户在规划时所处的认知阶段:discover(我还不知道有什么)→ evaluate(这个值不值)→ macro(城市间怎么排)→ structure(一天怎么排)→ qa(会不会翻车)。
为什么这暴露了真实判断?因为按认知阶段切分需要先建一个关于”人如何做规划决策”的心智模型,再把工具映射上去。这正是产品设计里最稀缺、最难外包给需求文档的那一步——它要求设计者把自己当成被研究的用户,做了一次微型的工作流民族志。trip-discover 的 SKILL.md 里那句”Do NOT use for deep evaluation of a single item(use trip-evaluate)“是这套心智模型的直接证据:每个 skill 的边界都用”何时不该用我、该转交给谁”来定义——这是分布式系统里的”单一职责 + 显式路由”,被一个 PM 凭工作流直觉复现了出来。
§3 over-design 审查:设计者作为第一个批评者
trip-structure 在 2026-04-03 有一条完整的”过度设计 → 被拉回 → 重写”轨迹。这是本节点里最反常、因此信息量最大的一段:因为 over-design 几乎是所有”为自己造工具”的人共同的失败模式——没人监督你,你就会把工具雕花雕到天上去。Rick 不仅 over-design 了(人之常情),还主动识别并收手了(罕见),并且动用了一个元工具(skill-creator)来执行收敛。
这条轨迹的可观察意义:它证明 Rick 把”约束工具的复杂度”本身当成一个设计目标,而不是事后补救。这与同一作者在 vault AI 协作架构上做的事是同构的——2026-05-21 他主动发起”12 agent 是否 over-engineering”的挑战,用 A/B/C/D 框架(只有真正需要独立 context 隔离的才保留为 agent)把架构从 v1.3 的 12 角色塌缩到 v1.4 的 5 sub-agent + 6 skill。两件事跨越了一个半月、跨越了 trip 工具和 vault 架构两个完全不同的对象,却是同一条产品判断在重复显形:复杂度是成本,不是炫技;能塌缩就塌缩。 自我民族志里把这种”跨情境重复出现的稳定模式”叫作 pattern across episodes,是分析式自我民族志(Anderson 2006,“Analytic Autoethnography”,Journal of Contemporary Ethnography 35(4):373–395)要求的”理论性承诺”——从一手经验里抽出可迁移的命题,而非停留在个人故事。
§4 判断主轴:研究”为自己造工具”时,90% 的人会踩的四个坑
这是本节点的命门。把 skill 设计史当数据来分析时,下面四个错位最容易让分析失真。每点四件套:症状 → 为什么会错 → 正确做法 → 真实反例。
坑一:把”设计得好”当成”判断好”。
- 症状:看到 trip 套件结构漂亮,就写”Rick 产品判断强”。
- 为什么会错:结构漂亮可能只是抄了通用 skill 模板,不构成 Rick 个人判断的证据;自我民族志的效度来自”能否区分研究者特异性与通用性”。
- 正确做法:只把否决动作和收手动作当强证据——over-design 后的收敛、12→5 的塌缩、撤销数量上限的改写,这些是别人不会那样做的地方,才是个人判断指纹。
- 真实反例:trip-discover 的整体骨架很可能来自 skill 通用模板(发散类 skill 都长这样),把它算作”Rick 的判断”就是过度归因。
坑二:用使用频率冒充偏好。
- 症状:写”trip-structure 是最常用的 skill,所以最重要”。
- 为什么会错:本节点没有使用频率数据;这是 Rick 待填的内省/统计项,编造它触发 §8 一票否决。
- 正确做法:留 〔Rick 待填〕 模板,问可观测的引导问题。
- 真实反例:一个 skill 可能设计得最用心却几乎没触发(场景没出现),频率与设计投入未必正相关。
坑三:把”为自己造”等同于”无约束”。
- 症状:断言”给自己造工具完全没有约束,所以判断最纯粹”。
- 为什么会错:仍有约束——时间预算、Claude 当时的能力天花板、Obsidian/skill 系统的机制限制。无约束是理想化假设。
- 正确做法:把约束显式写出来(见 §0 赌注的失效边界),承认”最真实”是相对而非绝对。
- 真实反例:trip-structure 的 over-design 恰恰说明在低外部约束下,设计者反而会制造内部约束失效(雕花),这本身就是约束没消失的证据。
坑四:把单个 skill 的局部修补读成系统级战略。
- 症状:把 intellectual-lens 的一次 prompt 局部修补,拔高成”Rick 的 AI 工程哲学”。
- 为什么会错:局部修补就是局部修补;过度拔高是分析者给数据强加叙事,违背接地纪律。
- 正确做法:单案例只支撑单命题;跨案例重复出现才支撑系统级命题(如 §3 的 over-design 模式,因为出现了两次、跨两个对象,才敢上升为”判断”)。
- 真实反例:竞品对照法只在 intellectual-lens 这一处有明确记录,把它说成 Rick 所有 skill 的通用方法,目前证据不足,应标〔需 Rick 确认是否为通用习惯〕。
§5 产品 PM 视角补盲:自造工具暴露的,恰恰是工作里被压抑的判断
跳出”工程 PM”视角,补三个容易被忽略的点。
(1) 用户心理模型的暴露强度。 在公司做产品,PM 的用户心智模型会被需求评审、数据看板、销售反馈反复”洗”,最后留下的往往是各方妥协的最大公约数。给自己造工具时没有这层稀释——trip 套件按认知阶段切分,直接就是 Rick 脑中”人怎么做旅行决策”那张图的拓印。自造工具 = 用户研究的零失真样本,但样本量 n=1。
(2) 商业模式维度的彻底缺席,反而是信号。 这些 skill 没有任何变现、增长、留存的设计痕迹——纯粹是”把一件事做对”。这在商业产品里几乎不可能存在。它给研究者一个干净的对照组:当一切商业噪声被剥离,Rick 的产品判断收敛到”工作流正确性 + 复杂度控制”两个变量上。 这两个变量是不是他在公司里也真正在乎、只是被 KPI 盖住了——是 Rick 待填的内省项,不替他回答。
(3) 合规/隐私边界在自造工具里以另一种形式出现。 vault CLAUDE.md 原则四(AI 产出先入 _ai_review/ 沙盒,Rick 审阅后才 move)是一个自己给自己设的写权限隔离。在没有任何合规要求的个人 vault 里主动建立 AI 写权限沙盒,这种”对自己的工具也保持不信任”的设计,在业界 AI-augmented PKM 里少见——它暴露的是一种把”信任校准”工程化的倾向(信任应与实际可靠性匹配,见 Lee & See 2004,“Trust in Automation: Designing for Appropriate Reliance”,Human Factors)。
§6 跨域呼应:revealed preference 与”工具是固化的判断”
调度一个跨域资源:经济学的显示性偏好(revealed preference, Samuelson 1938)。它的核心断言是——主观偏好不可直接观测,但可从约束下的选择行为中被”显示”出来。把它接到本节点:Rick 的产品判断同样不可直接观测(且按接地纪律我们禁止去内省/编造它),但 skill 的设计选择是约束下的真实行为,于是判断被”显示”了出来。这就是为什么本节点能在”绝不编造 Rick 内省数据”的硬约束下,仍然产出关于 Rick 判断的实质结论——我们读的是行为,不是自陈。
但要引入一个 Rick 未必读过的对手框架来逼问这个方法的盲点:Winner(1980)“Do Artifacts Have Politics?”(Daedalus)。Winner 论证技术物本身携带政治/价值取向。对照本节点,它提出一个尖锐的反问:trip skill 的设计里,有多少是 Rick 的判断,有多少是 skill 系统这个”技术物”本身(Anthropic 设计的 SKILL.md 范式、frontmatter 约定、router 模式)替 Rick 预先做掉的判断?一个发散类 skill”长成 discover 的样子”,可能是系统的 affordance(可供性)在塑形,而非 Rick 的自由选择。这正是 §4 坑一的理论根基。结论:自造工具是 revealed preference 的好数据,但必须先扣掉”工具系统自带的政治”那一层,剩下的才是 Rick。 这一层扣除目前在本节点只能定性指出,定量区分需要把 Rick 的 skill 与系统默认模板逐行 diff——是一个可执行的后续动作。
§7 对手框架回应:Delamont 的”navel-gazing”指控
业界对自我民族志最锋利的反方立场来自 Sara Delamont(加的夫大学,2007/2012):她直指自我民族志”缺乏学术严谨性”,本质是学术化的自我沉溺(navel-gazing)——研究 n=1 的自己,凭什么产生可推广的知识?
接受它对的部分:本节点确实是 n=1,且研究对象与研究者是同一人(Rick 的 skill、Rick 的分析视角),存在结构性的自我确认风险。把这个风险藏起来才是不诚实。
标注本节点坚持的边界与赌注:(a) 本节点不主张”可推广到所有用户”,只主张”对极端 power user 这一稀有样本的产品判断做高保真记录”——而 power/lead user 恰恰是 von Hippel 方法论里”少数但信息量极高”的样本,n=1 在这里不是缺陷而是设计;(b) 本节点用行为数据(设计史)而非自陈数据(感受)做主证据,把 navel-gazing 最容易出问题的”自我美化”通道堵死——你可以美化感受,很难美化已经落盘的 SKILL.md 和带时间戳的对话存档;(c) 本节点全程对 Rick 内省项留 〔待填〕 而不替他作答,这正是 Anderson(2006)“analytic reflexivity”要求的——研究者可见、但不僭越数据。赌注:赌”高保真的极端个案 + 行为接地 + 反身性留白”三件套,足以让一个 n=1 研究站住脚;如果 Rick 在待填项里填入的内省与本节点的行为推断系统性矛盾,那本方法的效度就要重估(这是显式的 failure scenario)。
§8 PM 决策启示
面试怎么用:当被问”你怎么理解好的产品判断”,不要答方法论,答这个——“我给自己造过一套工具,过程里我做的第一件事是按用户的认知阶段而不是功能切分,第二件事是审查并砍掉自己的过度设计。这两件事在为自己造工具时无法作假,因为没人逼我。” 用 revealed preference 的逻辑把”我判断力强”从自夸变成可验证的行为证据。
选型怎么用:评估任何 AI 协作工具/平台时,问一个 revealed-preference 式的问题——“这个工具的默认设计,替我做掉了哪些判断(坑一/Winner 的盲点)?哪些是我还能自己掌控的?” 区分”工具的政治”与”我的判断”,避免把厂商的 affordance 误当成自己的需求。
复现怎么用:要研究任何一个 power user(包括你自己)的 AI 使用模式,先扒设计史/行为日志,最后才问感受。顺序反了就会被自陈数据污染。本节点示范了一套可复用的接地纪律:可观测的设计动作如实分析,需内省的一律留结构化 〔待填〕 模板。
§9 与已有节点的关系
- 对照 Skill 系统的本质:那个节点回答”Skill 在抽象层级上是什么”(横向辨析);本节点做的是升级对照中的”换轴”——不研究 skill 是什么,而把 skill 的设计史当作研究 Rick 的数据轴。从”研究工具”升到”用工具当镜子研究造工具的人”。
- 对照 旅行规划 Skill 套件系统设计:那个节点是 trip 套件的设计文档(系统怎么搭);本节点不复述它的架构,只把它记录的设计决策当一手数据,做深化——从”设计了什么”问到”这些设计选择显示了 Rick 的什么判断”。
- 对照 trip-structure skill:本节点引用了它 2026-04-03 的 over-design→收敛轨迹作为 §3 的核心证据,是取证关系,不复述其内容。
- 对照 AI 记忆过拟合与泛化能力:那里 Rick 用 ML 术语对 AI 做元层干预;本节点的 §3 over-design 审查与之同构(都是”对自己的 AI 协作产物做诊断式审查”),构成互证。
§10 关联节点
核心(必读)
- Skill 系统的本质 — 本节点的”换轴”对照源
- 旅行规划 Skill 套件系统设计 — trip 套件设计文档,本节点的一手数据源
- trip-structure skill — §3 over-design 证据出处
- AI PM 知识图谱框架设计 — 同类”为自己造学习工具”的设计史,与本节点互证
- Claude routines 调研与 memory allowlist 设计 — memory 治理的设计决策史,同属 revealed-preference 数据
延伸(可选)
- AI 记忆过拟合与泛化能力 — over-design 审查的同构案例
- Polanyi 默会知识与提示工程的认识论张力 — skill 把默会工作流编码为显式 SKILL.md,本质是默会→显性的转译
- Claude Code / Agent / Skill 系统的本质 — 技术底座
- 人类学 / 民族志 — 方法论母体
- AI PM 知识图谱·总索引 — 图谱总入口
升级对照(显式)
| 旧节点/参照 | 本节点做了哪种升级 |
|---|---|
| Skill 系统的本质 | 换轴:从”skill 是什么”换到”skill 设计史作为研究 Rick 的数据” |
| 旅行规划 Skill 套件系统设计 | 深化:从”设计了什么”到”设计选择显示了什么判断” |
| Polanyi 默会知识与提示工程的认识论张力 | 对话:SKILL.md 是默会工作流的显式化,本节点提供其设计史侧证 |
| 0414(Claude Code 体感)〔同专题节点,待建〕 | 互补:0414 记录使用体感,本节点记录设计行为,体感与行为互校 |
| 0418(审阅瓶颈)〔同专题节点,待建〕 | 互补:原则四沙盒(§5.3)是审阅瓶颈的工程化前置,Rick 审阅行为是 0418 一手数据 |
| 0422(民族志方法)〔同专题节点,待建〕 | 方法继承:本节点是 0422 方法论在”自造工具”这一数据源上的具体落地 |
〔Rick 待填〕结构化模板
以下为需 Rick 内省/统计的内容,本节点不替你作答,仅留引导问题。这正是自我民族志的诚实做法。
待填一·使用频率与设计投入的关系
- trip 五件套里,旅途中实际触发最多的是哪个?最少的是哪个?
- 有没有”设计得最用心却几乎没用上”的 skill?是哪个、为什么? 〔Rick 待填:你的实际观察〕
待填二·over-design 收手的主观驱动
- 2026-04-03 把 trip-structure 拉回时,触发”这过度了”的信号是什么?是输出太啰嗦、是机制太绕、还是别的?
- 12→5 agent 塌缩,是效率驱动、架构美感驱动,还是别的? 〔Rick 待填:你的实际观察〕
待填三·“为自己造”是否真的更纯粹
- 给自己造工具时的判断,和你在 DiDi/99 做产品决策时的判断,最大的差别是什么?
- 本节点假设”自造工具暴露最真实判断”——你认同吗?哪里不对? 〔Rick 待填:你的实际观察〕
待填四·竞品对照法是否为通用习惯
- intellectual-lens 用了”竞品 AI 输出对照”做 prompt 工程。这是个例,还是你做 prompt 工程的通用方法? 〔Rick 待填:你的实际观察〕
修订日志
- R1 (2026-06-07):首稿。建立”设计决策史=revealed preference”框架;陈列 trip 套件/over-design/intellectual-lens 三段可观察数据;判断主轴四件套(四坑);跨域调度 revealed preference + 引入对手框架 Winner「技术物的政治」;对手回应 Delamont navel-gazing 指控(接受+边界+赌注+failure scenario);与 Skill 系统的本质/旅行规划 Skill 套件系统设计 显式换轴/深化对照;0414/0418/0422 互补对照;全程对 Rick 内省项留〔待填〕模板,0 处编造内省数据。
- R1 接地核验 (2026-06-07):WebSearch 已核 — Samuelson 1938”A Note on the Pure Theory of Consumer’s Behaviour”,Economica Vol.5(revealed preference 出处,其”摒弃内省式 utility、只用可观测选择”的原意恰好支撑本节点方法论);Winner 1980”Do Artifacts Have Politics?“,Daedalus Vol.109 No.1, pp.121–136(精确)。Anderson 2006 / Lee & See 2004 / von Hippel 1986 经方法论简报交叉确认。Delamont 2007/2012 立场经简报确认。无〔待核实〕悬留。