R

A05 Skill 生态建设作为设计实践

创建 2026-06-07 更新 2026-06-11 0 条双链 自我民族志 专题 AI 整理

为什么”Rick 为自己造的 skill”是研究 Rick 产品判断的最佳一手数据,而不是研究 Skill 技术的素材?本节点的问题陈述是:当一个 PM 不是给 KPI、不是给老板、不是给匿名用户、而是给只有一个用户(他自己)的产品做设计决策时,所有平时被需求文档、向上管理、A/B 数据稀释掉的产品判断,会以最高浓度暴露出来。本节用的框架不是”评测 skill 好不好”,而是把 skill 设计决策史当作可观察的行为日志(usage-log-as-behavioral-trace)——这是自我民族志里最不需要内省、最经得起证伪的一类数据。

§0 为什么是”设计决策史”这个框架,而不是”工具评测”或”使用频率统计”

读到”研究 Rick 自建的 skill”,脑子里默认会跳出两个错误框架,必须先挡掉。

错误框架一:把 skill 当成功能列表来评测(“trip 套件有 5 个 skill,覆盖发散到收敛,good”)。这是把研究对象搞错了——评测 skill 本身是 Skill 系统的本质旅行规划 Skill 套件系统设计 那两个节点的工作,本节点不复述它们。本节点研究的是Rick 在造这些 skill 时做了哪些选择、否决了哪些选择、为什么收手。功能列表是结果,决策史是过程;自我民族志要的是过程。

错误框架二:把使用频率当成偏好的代理变量(“哪个 skill 用得多就是好 skill”)。这会落入 §8 事实接地纪律的雷区:使用频率属于 Rick 内省/行为统计数据,本节点没有这份数据,编造它就是一票否决。可观察的是 skill 的设计史(commit 式的迭代轨迹、对话存档里的指令演变),不是它被触发了几次。

正确框架:设计决策 = 偏好显示(revealed preference)。经济学里 revealed preference 的逻辑是”别问人喜欢什么,看他在约束下买了什么”。把这套逻辑搬到 skill 设计上:别问 Rick 觉得什么是好的 AI 协作,看他在”为自己造工具”这个没有外部约束的场景里,实际写进 SKILL.md 的约束、实际删掉的角色、实际收手的地方。这是 von Hippel(1986,The Sources of Innovation)lead-user 方法的一个变体——lead user 因为”比市场早遇到需求且能从解决方案获益”而成为创新源头;Rick 作为自己工具的 lead user,其设计选择直接外化了他对 AI 能力边界的判断。

[!note] 本节点的赌注 赌”为自己造工具暴露的产品判断,比 Rick 在工作中做的任何产品决策都更真实”。因为给自己造工具没有向上管理、没有需求方扯皮、没有”先上线再说”的 deadline 妥协——失效边界见 §4 对手框架回应。

§1 三段可观察的设计决策史(一手数据陈列)

下面三段都来自 vault 真实产物(对话存档时间戳、SKILL.md 文件),不含任何 Rick 内省内容。

案例时间可观察的决策动作暴露的产品判断
trip-* 五件套设计2026-03-31~04-01把”行程规划”拆成 discover/evaluate/macro/structure/qa 五个独立 skill,按”发散—收敛—明确指令—机制核查”四步节奏拒绝”一个大 skill 包打天下”,按认知阶段而非功能切分
trip-structure 收敛2026-04-03over-design → 被 Rick 拉回 → 由 skill-creator 元 skill 重写收敛输出格式主动识别并砍掉自己的过度设计;承认”我也会 over-engineer”
intellectual-lens 迭代2026-04-05用”竞品输出对照”法做 prompt 工程:拿另一个 AI 的分析当参照系,定位差距在 prompt 哪一步,局部修补把 prompt 工程当成有 baseline 的工程问题,不是玄学调参

这三段构成一个完整的”产品判断指纹”:(a) 按真实工作流的认知阶段切分模块(不是按技术功能);(b) 对自己的产物做 over-design 审查(设计者 = 第一个批评者);(c) 把不可观测的”prompt 质量”锚定到可对照的 baseline。这三条恰好是好 PM 与坏 PM 的三条分界线,只不过在为自己造工具时它们被放大到无可遮掩。

§2 trip 套件的切分逻辑:按认知阶段而非功能切分

trip-* 的切分点是本节点最值钱的一处可观察判断。一个”功能导向”的设计者会按对象切分(景点 skill / 酒店 skill / 交通 skill),因为对象是显性的、好命名的。Rick 的切分是按用户在规划时所处的认知阶段:discover(我还不知道有什么)→ evaluate(这个值不值)→ macro(城市间怎么排)→ structure(一天怎么排)→ qa(会不会翻车)。

为什么这暴露了真实判断?因为按认知阶段切分需要先建一个关于”人如何做规划决策”的心智模型,再把工具映射上去。这正是产品设计里最稀缺、最难外包给需求文档的那一步——它要求设计者把自己当成被研究的用户,做了一次微型的工作流民族志。trip-discover 的 SKILL.md 里那句”Do NOT use for deep evaluation of a single item(use trip-evaluate)“是这套心智模型的直接证据:每个 skill 的边界都用”何时该用我、该转交给谁”来定义——这是分布式系统里的”单一职责 + 显式路由”,被一个 PM 凭工作流直觉复现了出来。

§3 over-design 审查:设计者作为第一个批评者

trip-structure 在 2026-04-03 有一条完整的”过度设计 → 被拉回 → 重写”轨迹。这是本节点里最反常、因此信息量最大的一段:因为 over-design 几乎是所有”为自己造工具”的人共同的失败模式——没人监督你,你就会把工具雕花雕到天上去。Rick 不仅 over-design 了(人之常情),还主动识别并收手了(罕见),并且动用了一个元工具(skill-creator)来执行收敛。

这条轨迹的可观察意义:它证明 Rick 把”约束工具的复杂度”本身当成一个设计目标,而不是事后补救。这与同一作者在 vault AI 协作架构上做的事是同构的——2026-05-21 他主动发起”12 agent 是否 over-engineering”的挑战,用 A/B/C/D 框架(只有真正需要独立 context 隔离的才保留为 agent)把架构从 v1.3 的 12 角色塌缩到 v1.4 的 5 sub-agent + 6 skill。两件事跨越了一个半月、跨越了 trip 工具和 vault 架构两个完全不同的对象,却是同一条产品判断在重复显形:复杂度是成本,不是炫技;能塌缩就塌缩。 自我民族志里把这种”跨情境重复出现的稳定模式”叫作 pattern across episodes,是分析式自我民族志(Anderson 2006,“Analytic Autoethnography”,Journal of Contemporary Ethnography 35(4):373–395)要求的”理论性承诺”——从一手经验里抽出可迁移的命题,而非停留在个人故事。

§4 判断主轴:研究”为自己造工具”时,90% 的人会踩的四个坑

这是本节点的命门。把 skill 设计史当数据来分析时,下面四个错位最容易让分析失真。每点四件套:症状 → 为什么会错 → 正确做法 → 真实反例。

坑一:把”设计得好”当成”判断好”。

  • 症状:看到 trip 套件结构漂亮,就写”Rick 产品判断强”。
  • 为什么会错:结构漂亮可能只是抄了通用 skill 模板,不构成 Rick 个人判断的证据;自我民族志的效度来自”能否区分研究者特异性与通用性”。
  • 正确做法:只把否决动作收手动作当强证据——over-design 后的收敛、12→5 的塌缩、撤销数量上限的改写,这些是别人不会那样做的地方,才是个人判断指纹。
  • 真实反例:trip-discover 的整体骨架很可能来自 skill 通用模板(发散类 skill 都长这样),把它算作”Rick 的判断”就是过度归因。

坑二:用使用频率冒充偏好。

  • 症状:写”trip-structure 是最常用的 skill,所以最重要”。
  • 为什么会错:本节点没有使用频率数据;这是 Rick 待填的内省/统计项,编造它触发 §8 一票否决。
  • 正确做法:留 〔Rick 待填〕 模板,问可观测的引导问题。
  • 真实反例:一个 skill 可能设计得最用心却几乎没触发(场景没出现),频率与设计投入未必正相关。

坑三:把”为自己造”等同于”无约束”。

  • 症状:断言”给自己造工具完全没有约束,所以判断最纯粹”。
  • 为什么会错:仍有约束——时间预算、Claude 当时的能力天花板、Obsidian/skill 系统的机制限制。无约束是理想化假设。
  • 正确做法:把约束显式写出来(见 §0 赌注的失效边界),承认”最真实”是相对而非绝对。
  • 真实反例:trip-structure 的 over-design 恰恰说明在低外部约束下,设计者反而会制造内部约束失效(雕花),这本身就是约束没消失的证据。

坑四:把单个 skill 的局部修补读成系统级战略。

  • 症状:把 intellectual-lens 的一次 prompt 局部修补,拔高成”Rick 的 AI 工程哲学”。
  • 为什么会错:局部修补就是局部修补;过度拔高是分析者给数据强加叙事,违背接地纪律。
  • 正确做法:单案例只支撑单命题;跨案例重复出现才支撑系统级命题(如 §3 的 over-design 模式,因为出现了两次、跨两个对象,才敢上升为”判断”)。
  • 真实反例:竞品对照法只在 intellectual-lens 这一处有明确记录,把它说成 Rick 所有 skill 的通用方法,目前证据不足,应标〔需 Rick 确认是否为通用习惯〕。

§5 产品 PM 视角补盲:自造工具暴露的,恰恰是工作里被压抑的判断

跳出”工程 PM”视角,补三个容易被忽略的点。

(1) 用户心理模型的暴露强度。 在公司做产品,PM 的用户心智模型会被需求评审、数据看板、销售反馈反复”洗”,最后留下的往往是各方妥协的最大公约数。给自己造工具时没有这层稀释——trip 套件按认知阶段切分,直接就是 Rick 脑中”人怎么做旅行决策”那张图的拓印。自造工具 = 用户研究的零失真样本,但样本量 n=1。

(2) 商业模式维度的彻底缺席,反而是信号。 这些 skill 没有任何变现、增长、留存的设计痕迹——纯粹是”把一件事做对”。这在商业产品里几乎不可能存在。它给研究者一个干净的对照组:当一切商业噪声被剥离,Rick 的产品判断收敛到”工作流正确性 + 复杂度控制”两个变量上。 这两个变量是不是他在公司里也真正在乎、只是被 KPI 盖住了——是 Rick 待填的内省项,不替他回答。

(3) 合规/隐私边界在自造工具里以另一种形式出现。 vault CLAUDE.md 原则四(AI 产出先入 _ai_review/ 沙盒,Rick 审阅后才 move)是一个自己给自己设的写权限隔离。在没有任何合规要求的个人 vault 里主动建立 AI 写权限沙盒,这种”对自己的工具也保持不信任”的设计,在业界 AI-augmented PKM 里少见——它暴露的是一种把”信任校准”工程化的倾向(信任应与实际可靠性匹配,见 Lee & See 2004,“Trust in Automation: Designing for Appropriate Reliance”,Human Factors)。

§6 跨域呼应:revealed preference 与”工具是固化的判断”

调度一个跨域资源:经济学的显示性偏好(revealed preference, Samuelson 1938)。它的核心断言是——主观偏好不可直接观测,但可从约束下的选择行为中被”显示”出来。把它接到本节点:Rick 的产品判断同样不可直接观测(且按接地纪律我们禁止去内省/编造它),但 skill 的设计选择是约束下的真实行为,于是判断被”显示”了出来。这就是为什么本节点能在”绝不编造 Rick 内省数据”的硬约束下,仍然产出关于 Rick 判断的实质结论——我们读的是行为,不是自陈

但要引入一个 Rick 未必读过的对手框架来逼问这个方法的盲点:Winner(1980)“Do Artifacts Have Politics?”Daedalus)。Winner 论证技术物本身携带政治/价值取向。对照本节点,它提出一个尖锐的反问:trip skill 的设计里,有多少是 Rick 的判断,有多少是 skill 系统这个”技术物”本身(Anthropic 设计的 SKILL.md 范式、frontmatter 约定、router 模式)替 Rick 预先做掉的判断?一个发散类 skill”长成 discover 的样子”,可能是系统的 affordance(可供性)在塑形,而非 Rick 的自由选择。这正是 §4 坑一的理论根基。结论:自造工具是 revealed preference 的好数据,但必须先扣掉”工具系统自带的政治”那一层,剩下的才是 Rick。 这一层扣除目前在本节点只能定性指出,定量区分需要把 Rick 的 skill 与系统默认模板逐行 diff——是一个可执行的后续动作。

§7 对手框架回应:Delamont 的”navel-gazing”指控

业界对自我民族志最锋利的反方立场来自 Sara Delamont(加的夫大学,2007/2012):她直指自我民族志”缺乏学术严谨性”,本质是学术化的自我沉溺(navel-gazing)——研究 n=1 的自己,凭什么产生可推广的知识?

接受它对的部分:本节点确实是 n=1,且研究对象与研究者是同一人(Rick 的 skill、Rick 的分析视角),存在结构性的自我确认风险。把这个风险藏起来才是不诚实。

标注本节点坚持的边界与赌注:(a) 本节点不主张”可推广到所有用户”,只主张”对极端 power user 这一稀有样本的产品判断做高保真记录”——而 power/lead user 恰恰是 von Hippel 方法论里”少数但信息量极高”的样本,n=1 在这里不是缺陷而是设计;(b) 本节点用行为数据(设计史)而非自陈数据(感受)做主证据,把 navel-gazing 最容易出问题的”自我美化”通道堵死——你可以美化感受,很难美化已经落盘的 SKILL.md 和带时间戳的对话存档;(c) 本节点全程对 Rick 内省项留 〔待填〕 而不替他作答,这正是 Anderson(2006)“analytic reflexivity”要求的——研究者可见、但不僭越数据。赌注:赌”高保真的极端个案 + 行为接地 + 反身性留白”三件套,足以让一个 n=1 研究站住脚;如果 Rick 在待填项里填入的内省与本节点的行为推断系统性矛盾,那本方法的效度就要重估(这是显式的 failure scenario)。

§8 PM 决策启示

面试怎么用:当被问”你怎么理解好的产品判断”,不要答方法论,答这个——“我给自己造过一套工具,过程里我做的第一件事是按用户的认知阶段而不是功能切分,第二件事是审查并砍掉自己的过度设计。这两件事在为自己造工具时无法作假,因为没人逼我。” 用 revealed preference 的逻辑把”我判断力强”从自夸变成可验证的行为证据。

选型怎么用:评估任何 AI 协作工具/平台时,问一个 revealed-preference 式的问题——“这个工具的默认设计,替我做掉了哪些判断(坑一/Winner 的盲点)?哪些是我还能自己掌控的?” 区分”工具的政治”与”我的判断”,避免把厂商的 affordance 误当成自己的需求。

复现怎么用:要研究任何一个 power user(包括你自己)的 AI 使用模式,先扒设计史/行为日志,最后才问感受。顺序反了就会被自陈数据污染。本节点示范了一套可复用的接地纪律:可观测的设计动作如实分析,需内省的一律留结构化 〔待填〕 模板。

§9 与已有节点的关系

  • 对照 Skill 系统的本质:那个节点回答”Skill 在抽象层级上是什么”(横向辨析);本节点做的是升级对照中的”换轴”——不研究 skill 是什么,而把 skill 的设计史当作研究 Rick 的数据轴。从”研究工具”升到”用工具当镜子研究造工具的人”。
  • 对照 旅行规划 Skill 套件系统设计:那个节点是 trip 套件的设计文档(系统怎么搭);本节点不复述它的架构,只把它记录的设计决策当一手数据,做深化——从”设计了什么”问到”这些设计选择显示了 Rick 的什么判断”。
  • 对照 trip-structure skill:本节点引用了它 2026-04-03 的 over-design→收敛轨迹作为 §3 的核心证据,是取证关系,不复述其内容。
  • 对照 AI 记忆过拟合与泛化能力:那里 Rick 用 ML 术语对 AI 做元层干预;本节点的 §3 over-design 审查与之同构(都是”对自己的 AI 协作产物做诊断式审查”),构成互证

§10 关联节点

核心(必读)

延伸(可选)

升级对照(显式)

旧节点/参照本节点做了哪种升级
Skill 系统的本质换轴:从”skill 是什么”换到”skill 设计史作为研究 Rick 的数据”
旅行规划 Skill 套件系统设计深化:从”设计了什么”到”设计选择显示了什么判断”
Polanyi 默会知识与提示工程的认识论张力对话:SKILL.md 是默会工作流的显式化,本节点提供其设计史侧证
0414(Claude Code 体感)〔同专题节点,待建〕互补:0414 记录使用体感,本节点记录设计行为,体感与行为互校
0418(审阅瓶颈)〔同专题节点,待建〕互补:原则四沙盒(§5.3)是审阅瓶颈的工程化前置,Rick 审阅行为是 0418 一手数据
0422(民族志方法)〔同专题节点,待建〕方法继承:本节点是 0422 方法论在”自造工具”这一数据源上的具体落地

〔Rick 待填〕结构化模板

以下为需 Rick 内省/统计的内容,本节点不替你作答,仅留引导问题。这正是自我民族志的诚实做法。

待填一·使用频率与设计投入的关系

  • trip 五件套里,旅途中实际触发最多的是哪个?最少的是哪个?
  • 有没有”设计得最用心却几乎没用上”的 skill?是哪个、为什么? 〔Rick 待填:你的实际观察〕

待填二·over-design 收手的主观驱动

  • 2026-04-03 把 trip-structure 拉回时,触发”这过度了”的信号是什么?是输出太啰嗦、是机制太绕、还是别的?
  • 12→5 agent 塌缩,是效率驱动、架构美感驱动,还是别的? 〔Rick 待填:你的实际观察〕

待填三·“为自己造”是否真的更纯粹

  • 给自己造工具时的判断,和你在 DiDi/99 做产品决策时的判断,最大的差别是什么?
  • 本节点假设”自造工具暴露最真实判断”——你认同吗?哪里不对? 〔Rick 待填:你的实际观察〕

待填四·竞品对照法是否为通用习惯

  • intellectual-lens 用了”竞品 AI 输出对照”做 prompt 工程。这是个例,还是你做 prompt 工程的通用方法? 〔Rick 待填:你的实际观察〕

修订日志

  • R1 (2026-06-07):首稿。建立”设计决策史=revealed preference”框架;陈列 trip 套件/over-design/intellectual-lens 三段可观察数据;判断主轴四件套(四坑);跨域调度 revealed preference + 引入对手框架 Winner「技术物的政治」;对手回应 Delamont navel-gazing 指控(接受+边界+赌注+failure scenario);与 Skill 系统的本质/旅行规划 Skill 套件系统设计 显式换轴/深化对照;0414/0418/0422 互补对照;全程对 Rick 内省项留〔待填〕模板,0 处编造内省数据。
  • R1 接地核验 (2026-06-07):WebSearch 已核 — Samuelson 1938”A Note on the Pure Theory of Consumer’s Behaviour”,Economica Vol.5(revealed preference 出处,其”摒弃内省式 utility、只用可观测选择”的原意恰好支撑本节点方法论);Winner 1980”Do Artifacts Have Politics?“,Daedalus Vol.109 No.1, pp.121–136(精确)。Anderson 2006 / Lee & See 2004 / von Hippel 1986 经方法论简报交叉确认。Delamont 2007/2012 立场经简报确认。无〔待核实〕悬留。