A05 Skill 生态建设作为设计实践 · 知识库

为什么”Rick 为自己造的 skill”是研究 Rick 产品判断的最佳一手数据，而不是研究 Skill 技术的素材？本节点的问题陈述是：当一个 PM 不是给 KPI、不是给老板、不是给匿名用户、而是给只有一个用户（他自己）的产品做设计决策时，所有平时被需求文档、向上管理、A/B 数据稀释掉的产品判断，会以最高浓度暴露出来。本节用的框架不是”评测 skill 好不好”，而是把 skill 设计决策史当作可观察的行为日志（usage-log-as-behavioral-trace）——这是自我民族志里最不需要内省、最经得起证伪的一类数据。

§0 为什么是”设计决策史”这个框架，而不是”工具评测”或”使用频率统计”

读到”研究 Rick 自建的 skill”，脑子里默认会跳出两个错误框架，必须先挡掉。

错误框架一：把 skill 当成功能列表来评测（“trip 套件有 5 个 skill，覆盖发散到收敛，good”）。这是把研究对象搞错了——评测 skill 本身是 Skill 系统的本质、旅行规划 Skill 套件系统设计那两个节点的工作，本节点不复述它们。本节点研究的是Rick 在造这些 skill 时做了哪些选择、否决了哪些选择、为什么收手。功能列表是结果，决策史是过程；自我民族志要的是过程。

错误框架二：把使用频率当成偏好的代理变量（“哪个 skill 用得多就是好 skill”）。这会落入 §8 事实接地纪律的雷区：使用频率属于 Rick 内省/行为统计数据，本节点没有这份数据，编造它就是一票否决。可观察的是 skill 的设计史（commit 式的迭代轨迹、对话存档里的指令演变），不是它被触发了几次。

正确框架：设计决策 = 偏好显示（revealed preference）。经济学里 revealed preference 的逻辑是”别问人喜欢什么，看他在约束下买了什么”。把这套逻辑搬到 skill 设计上：别问 Rick 觉得什么是好的 AI 协作，看他在”为自己造工具”这个没有外部约束的场景里，实际写进 SKILL.md 的约束、实际删掉的角色、实际收手的地方。这是 von Hippel（1986，The Sources of Innovation）lead-user 方法的一个变体——lead user 因为”比市场早遇到需求且能从解决方案获益”而成为创新源头；Rick 作为自己工具的 lead user，其设计选择直接外化了他对 AI 能力边界的判断。

[!note] 本节点的赌注赌”为自己造工具暴露的产品判断，比 Rick 在工作中做的任何产品决策都更真实”。因为给自己造工具没有向上管理、没有需求方扯皮、没有”先上线再说”的 deadline 妥协——失效边界见 §4 对手框架回应。

§1 三段可观察的设计决策史（一手数据陈列）

下面三段都来自 vault 真实产物（对话存档时间戳、SKILL.md 文件），不含任何 Rick 内省内容。

案例	时间	可观察的决策动作	暴露的产品判断
trip-* 五件套设计	2026-03-31~04-01	把”行程规划”拆成 discover/evaluate/macro/structure/qa 五个独立 skill，按”发散—收敛—明确指令—机制核查”四步节奏	拒绝”一个大 skill 包打天下”，按认知阶段而非功能切分
trip-structure 收敛	2026-04-03	over-design → 被 Rick 拉回 → 由 skill-creator 元 skill 重写收敛输出格式	主动识别并砍掉自己的过度设计；承认”我也会 over-engineer”
intellectual-lens 迭代	2026-04-05	用”竞品输出对照”法做 prompt 工程：拿另一个 AI 的分析当参照系，定位差距在 prompt 哪一步，局部修补	把 prompt 工程当成有 baseline 的工程问题，不是玄学调参

这三段构成一个完整的”产品判断指纹”：(a) 按真实工作流的认知阶段切分模块（不是按技术功能）；(b) 对自己的产物做 over-design 审查（设计者 = 第一个批评者）；(c) 把不可观测的”prompt 质量”锚定到可对照的 baseline。这三条恰好是好 PM 与坏 PM 的三条分界线，只不过在为自己造工具时它们被放大到无可遮掩。

§2 trip 套件的切分逻辑：按认知阶段而非功能切分

trip-* 的切分点是本节点最值钱的一处可观察判断。一个”功能导向”的设计者会按对象切分（景点 skill / 酒店 skill / 交通 skill），因为对象是显性的、好命名的。Rick 的切分是按用户在规划时所处的认知阶段：discover（我还不知道有什么）→ evaluate（这个值不值）→ macro（城市间怎么排）→ structure（一天怎么排）→ qa（会不会翻车）。

为什么这暴露了真实判断？因为按认知阶段切分需要先建一个关于”人如何做规划决策”的心智模型，再把工具映射上去。这正是产品设计里最稀缺、最难外包给需求文档的那一步——它要求设计者把自己当成被研究的用户，做了一次微型的工作流民族志。trip-discover 的 SKILL.md 里那句”Do NOT use for deep evaluation of a single item（use trip-evaluate）“是这套心智模型的直接证据：每个 skill 的边界都用”何时不该用我、该转交给谁”来定义——这是分布式系统里的”单一职责 + 显式路由”，被一个 PM 凭工作流直觉复现了出来。

§3 over-design 审查：设计者作为第一个批评者

trip-structure 在 2026-04-03 有一条完整的”过度设计 → 被拉回 → 重写”轨迹。这是本节点里最反常、因此信息量最大的一段：因为 over-design 几乎是所有”为自己造工具”的人共同的失败模式——没人监督你，你就会把工具雕花雕到天上去。Rick 不仅 over-design 了（人之常情），还主动识别并收手了（罕见），并且动用了一个元工具（skill-creator）来执行收敛。

这条轨迹的可观察意义：它证明 Rick 把”约束工具的复杂度”本身当成一个设计目标，而不是事后补救。这与同一作者在 vault AI 协作架构上做的事是同构的——2026-05-21 他主动发起”12 agent 是否 over-engineering”的挑战，用 A/B/C/D 框架（只有真正需要独立 context 隔离的才保留为 agent）把架构从 v1.3 的 12 角色塌缩到 v1.4 的 5 sub-agent + 6 skill。两件事跨越了一个半月、跨越了 trip 工具和 vault 架构两个完全不同的对象，却是同一条产品判断在重复显形：复杂度是成本，不是炫技；能塌缩就塌缩。 自我民族志里把这种”跨情境重复出现的稳定模式”叫作 pattern across episodes，是分析式自我民族志（Anderson 2006，“Analytic Autoethnography”,Journal of Contemporary Ethnography 35(4):373–395）要求的”理论性承诺”——从一手经验里抽出可迁移的命题，而非停留在个人故事。

§4 判断主轴：研究”为自己造工具”时，90% 的人会踩的四个坑

这是本节点的命门。把 skill 设计史当数据来分析时，下面四个错位最容易让分析失真。每点四件套：症状 → 为什么会错 → 正确做法 → 真实反例。

坑一：把”设计得好”当成”判断好”。

症状：看到 trip 套件结构漂亮，就写”Rick 产品判断强”。
为什么会错：结构漂亮可能只是抄了通用 skill 模板，不构成 Rick 个人判断的证据；自我民族志的效度来自”能否区分研究者特异性与通用性”。
正确做法：只把否决动作和收手动作当强证据——over-design 后的收敛、12→5 的塌缩、撤销数量上限的改写，这些是别人不会那样做的地方，才是个人判断指纹。
真实反例：trip-discover 的整体骨架很可能来自 skill 通用模板（发散类 skill 都长这样），把它算作”Rick 的判断”就是过度归因。

坑二：用使用频率冒充偏好。

症状：写”trip-structure 是最常用的 skill，所以最重要”。
为什么会错：本节点没有使用频率数据；这是 Rick 待填的内省/统计项，编造它触发 §8 一票否决。
正确做法：留〔Rick 待填〕模板，问可观测的引导问题。
真实反例：一个 skill 可能设计得最用心却几乎没触发（场景没出现），频率与设计投入未必正相关。

坑三：把”为自己造”等同于”无约束”。

症状：断言”给自己造工具完全没有约束，所以判断最纯粹”。
为什么会错：仍有约束——时间预算、Claude 当时的能力天花板、Obsidian/skill 系统的机制限制。无约束是理想化假设。
正确做法：把约束显式写出来（见 §0 赌注的失效边界），承认”最真实”是相对而非绝对。
真实反例：trip-structure 的 over-design 恰恰说明在低外部约束下，设计者反而会制造内部约束失效（雕花），这本身就是约束没消失的证据。

坑四：把单个 skill 的局部修补读成系统级战略。

症状：把 intellectual-lens 的一次 prompt 局部修补，拔高成”Rick 的 AI 工程哲学”。
为什么会错：局部修补就是局部修补；过度拔高是分析者给数据强加叙事，违背接地纪律。
正确做法：单案例只支撑单命题；跨案例重复出现才支撑系统级命题（如 §3 的 over-design 模式，因为出现了两次、跨两个对象，才敢上升为”判断”)。
真实反例：竞品对照法只在 intellectual-lens 这一处有明确记录，把它说成 Rick 所有 skill 的通用方法，目前证据不足，应标〔需 Rick 确认是否为通用习惯〕。

§5 产品 PM 视角补盲：自造工具暴露的，恰恰是工作里被压抑的判断

跳出”工程 PM”视角，补三个容易被忽略的点。

(1) 用户心理模型的暴露强度。 在公司做产品，PM 的用户心智模型会被需求评审、数据看板、销售反馈反复”洗”，最后留下的往往是各方妥协的最大公约数。给自己造工具时没有这层稀释——trip 套件按认知阶段切分，直接就是 Rick 脑中”人怎么做旅行决策”那张图的拓印。自造工具 = 用户研究的零失真样本，但样本量 n=1。

(2) 商业模式维度的彻底缺席，反而是信号。 这些 skill 没有任何变现、增长、留存的设计痕迹——纯粹是”把一件事做对”。这在商业产品里几乎不可能存在。它给研究者一个干净的对照组：当一切商业噪声被剥离，Rick 的产品判断收敛到”工作流正确性 + 复杂度控制”两个变量上。 这两个变量是不是他在公司里也真正在乎、只是被 KPI 盖住了——是 Rick 待填的内省项，不替他回答。

(3) 合规/隐私边界在自造工具里以另一种形式出现。 vault CLAUDE.md 原则四（AI 产出先入 _ai_review/ 沙盒，Rick 审阅后才 move）是一个自己给自己设的写权限隔离。在没有任何合规要求的个人 vault 里主动建立 AI 写权限沙盒，这种”对自己的工具也保持不信任”的设计，在业界 AI-augmented PKM 里少见——它暴露的是一种把”信任校准”工程化的倾向（信任应与实际可靠性匹配，见 Lee & See 2004,“Trust in Automation: Designing for Appropriate Reliance”,Human Factors）。

§6 跨域呼应：revealed preference 与”工具是固化的判断”

调度一个跨域资源：经济学的显示性偏好（revealed preference, Samuelson 1938）。它的核心断言是——主观偏好不可直接观测，但可从约束下的选择行为中被”显示”出来。把它接到本节点：Rick 的产品判断同样不可直接观测（且按接地纪律我们禁止去内省/编造它），但 skill 的设计选择是约束下的真实行为，于是判断被”显示”了出来。这就是为什么本节点能在”绝不编造 Rick 内省数据”的硬约束下，仍然产出关于 Rick 判断的实质结论——我们读的是行为，不是自陈。

但要引入一个 Rick 未必读过的对手框架来逼问这个方法的盲点：Winner（1980）“Do Artifacts Have Politics?”（Daedalus）。Winner 论证技术物本身携带政治/价值取向。对照本节点，它提出一个尖锐的反问：trip skill 的设计里，有多少是 Rick 的判断，有多少是 skill 系统这个”技术物”本身（Anthropic 设计的 SKILL.md 范式、frontmatter 约定、router 模式）替 Rick 预先做掉的判断？一个发散类 skill”长成 discover 的样子”，可能是系统的 affordance（可供性）在塑形，而非 Rick 的自由选择。这正是 §4 坑一的理论根基。结论：自造工具是 revealed preference 的好数据，但必须先扣掉”工具系统自带的政治”那一层，剩下的才是 Rick。 这一层扣除目前在本节点只能定性指出，定量区分需要把 Rick 的 skill 与系统默认模板逐行 diff——是一个可执行的后续动作。

§7 对手框架回应：Delamont 的”navel-gazing”指控

业界对自我民族志最锋利的反方立场来自 Sara Delamont（加的夫大学，2007/2012）：她直指自我民族志”缺乏学术严谨性”，本质是学术化的自我沉溺（navel-gazing）——研究 n=1 的自己，凭什么产生可推广的知识？

接受它对的部分：本节点确实是 n=1，且研究对象与研究者是同一人（Rick 的 skill、Rick 的分析视角），存在结构性的自我确认风险。把这个风险藏起来才是不诚实。

标注本节点坚持的边界与赌注：(a) 本节点不主张”可推广到所有用户”，只主张”对极端 power user 这一稀有样本的产品判断做高保真记录”——而 power/lead user 恰恰是 von Hippel 方法论里”少数但信息量极高”的样本，n=1 在这里不是缺陷而是设计；(b) 本节点用行为数据（设计史）而非自陈数据（感受）做主证据，把 navel-gazing 最容易出问题的”自我美化”通道堵死——你可以美化感受，很难美化已经落盘的 SKILL.md 和带时间戳的对话存档;(c) 本节点全程对 Rick 内省项留〔待填〕而不替他作答，这正是 Anderson（2006）“analytic reflexivity”要求的——研究者可见、但不僭越数据。赌注：赌”高保真的极端个案 + 行为接地 + 反身性留白”三件套，足以让一个 n=1 研究站住脚；如果 Rick 在待填项里填入的内省与本节点的行为推断系统性矛盾，那本方法的效度就要重估（这是显式的 failure scenario）。

§8 PM 决策启示

面试怎么用：当被问”你怎么理解好的产品判断”，不要答方法论，答这个——“我给自己造过一套工具，过程里我做的第一件事是按用户的认知阶段而不是功能切分，第二件事是审查并砍掉自己的过度设计。这两件事在为自己造工具时无法作假，因为没人逼我。” 用 revealed preference 的逻辑把”我判断力强”从自夸变成可验证的行为证据。

选型怎么用：评估任何 AI 协作工具/平台时，问一个 revealed-preference 式的问题——“这个工具的默认设计，替我做掉了哪些判断（坑一/Winner 的盲点）？哪些是我还能自己掌控的？” 区分”工具的政治”与”我的判断”，避免把厂商的 affordance 误当成自己的需求。

复现怎么用：要研究任何一个 power user（包括你自己）的 AI 使用模式，先扒设计史/行为日志，最后才问感受。顺序反了就会被自陈数据污染。本节点示范了一套可复用的接地纪律：可观测的设计动作如实分析，需内省的一律留结构化〔待填〕模板。

§9 与已有节点的关系

对照 Skill 系统的本质：那个节点回答”Skill 在抽象层级上是什么”（横向辨析）；本节点做的是升级对照中的”换轴”——不研究 skill 是什么，而把 skill 的设计史当作研究 Rick 的数据轴。从”研究工具”升到”用工具当镜子研究造工具的人”。
对照旅行规划 Skill 套件系统设计：那个节点是 trip 套件的设计文档（系统怎么搭）；本节点不复述它的架构，只把它记录的设计决策当一手数据，做深化——从”设计了什么”问到”这些设计选择显示了 Rick 的什么判断”。
对照 trip-structure skill：本节点引用了它 2026-04-03 的 over-design→收敛轨迹作为 §3 的核心证据，是取证关系，不复述其内容。
对照 AI 记忆过拟合与泛化能力：那里 Rick 用 ML 术语对 AI 做元层干预；本节点的 §3 over-design 审查与之同构（都是”对自己的 AI 协作产物做诊断式审查”），构成互证。

§10 关联节点

核心（必读）

Skill 系统的本质 — 本节点的”换轴”对照源
旅行规划 Skill 套件系统设计 — trip 套件设计文档，本节点的一手数据源
trip-structure skill — §3 over-design 证据出处
AI PM 知识图谱框架设计 — 同类”为自己造学习工具”的设计史，与本节点互证
Claude routines 调研与 memory allowlist 设计 — memory 治理的设计决策史，同属 revealed-preference 数据

延伸（可选）

AI 记忆过拟合与泛化能力 — over-design 审查的同构案例
Polanyi 默会知识与提示工程的认识论张力 — skill 把默会工作流编码为显式 SKILL.md，本质是默会→显性的转译
Claude Code / Agent / Skill 系统的本质 — 技术底座
人类学 / 民族志 — 方法论母体
AI PM 知识图谱·总索引 — 图谱总入口

升级对照（显式）

旧节点/参照	本节点做了哪种升级
Skill 系统的本质	换轴：从”skill 是什么”换到”skill 设计史作为研究 Rick 的数据”
旅行规划 Skill 套件系统设计	深化：从”设计了什么”到”设计选择显示了什么判断”
Polanyi 默会知识与提示工程的认识论张力	对话：SKILL.md 是默会工作流的显式化，本节点提供其设计史侧证
0414（Claude Code 体感）〔同专题节点，待建〕	互补：0414 记录使用体感，本节点记录设计行为，体感与行为互校
0418（审阅瓶颈）〔同专题节点，待建〕	互补：原则四沙盒（§5.3）是审阅瓶颈的工程化前置，Rick 审阅行为是 0418 一手数据
0422（民族志方法）〔同专题节点，待建〕	方法继承：本节点是 0422 方法论在”自造工具”这一数据源上的具体落地

〔Rick 待填〕结构化模板

以下为需 Rick 内省/统计的内容，本节点不替你作答，仅留引导问题。这正是自我民族志的诚实做法。

待填一·使用频率与设计投入的关系

trip 五件套里，旅途中实际触发最多的是哪个？最少的是哪个？
有没有”设计得最用心却几乎没用上”的 skill？是哪个、为什么？〔Rick 待填：你的实际观察〕

待填二·over-design 收手的主观驱动

2026-04-03 把 trip-structure 拉回时，触发”这过度了”的信号是什么？是输出太啰嗦、是机制太绕、还是别的？
12→5 agent 塌缩，是效率驱动、架构美感驱动，还是别的？〔Rick 待填：你的实际观察〕

待填三·“为自己造”是否真的更纯粹

给自己造工具时的判断，和你在 DiDi/99 做产品决策时的判断，最大的差别是什么？
本节点假设”自造工具暴露最真实判断”——你认同吗？哪里不对？〔Rick 待填：你的实际观察〕

待填四·竞品对照法是否为通用习惯

intellectual-lens 用了”竞品 AI 输出对照”做 prompt 工程。这是个例，还是你做 prompt 工程的通用方法？〔Rick 待填：你的实际观察〕

修订日志

R1 (2026-06-07)：首稿。建立”设计决策史=revealed preference”框架；陈列 trip 套件/over-design/intellectual-lens 三段可观察数据；判断主轴四件套（四坑）；跨域调度 revealed preference + 引入对手框架 Winner「技术物的政治」；对手回应 Delamont navel-gazing 指控（接受+边界+赌注+failure scenario）；与 Skill 系统的本质/旅行规划 Skill 套件系统设计显式换轴/深化对照；0414/0418/0422 互补对照；全程对 Rick 内省项留〔待填〕模板，0 处编造内省数据。
R1 接地核验 (2026-06-07)：WebSearch 已核 — Samuelson 1938”A Note on the Pure Theory of Consumer’s Behaviour”,Economica Vol.5（revealed preference 出处，其”摒弃内省式 utility、只用可观测选择”的原意恰好支撑本节点方法论）；Winner 1980”Do Artifacts Have Politics?“,Daedalus Vol.109 No.1, pp.121–136（精确）。Anderson 2006 / Lee & See 2004 / von Hippel 1986 经方法论简报交叉确认。Delamont 2007/2012 立场经简报确认。无〔待核实〕悬留。