R

A02 使用即数据·什么算 observation

创建 2026-06-07 更新 2026-06-11 0 条双链 自我民族志 专题 AI 整理

A02 使用即数据·什么算 observation

当一个 power user 每天和 AI 协作几十次,这些交互里哪些算”数据”、哪些只是过眼云烟?本节点要解决的问题不是”如何收集数据”(那是 A03 的事),而是更前置的认识论问题:在自我民族志中,一次 AI 使用要被怎样”看见”,才配称为一个 observation(观察单元)。框架名:使用即数据的”可观察性梯度”——从行为痕迹到内省判断的分层编码。这是一个问题陈述,不是答案:因为自我民族志最大的诱惑,恰恰是事后凭一段流畅的回忆把”我当时是这么想的”写成事实,而那往往是被叙事重构污染的伪数据。


§0 为什么是”可观察性梯度”框架,而不是”全记录”框架

读者脑中的默认错误框架有两个,都要先挡掉。

错误框架一:全记录主义。 “把所有对话存档就有数据了。” 错。对话存档是 raw log,不是 observation。observation 是被编码过的、带语义标签的、指向某个研究问题的最小分析单元。一万条未编码的对话存档,分析价值约等于零——它们噪声大、碎片化、缺乏语义结构(这是大规模 usage log 分析的公认难题,见 OpenRouter 2025 对 100 万亿 token 交互的分析方法说明)。Rick 的 vault 里已有约 40+ 条旅行期对话存档(99Archive/9910 claude 对话存档/,日期戳 20260412–20260423),但只有当它们被 SABCD 评级、被升格为笔记节点时,才从”痕迹”变成”数据”。

错误框架二:内省至上主义。 “最重要的数据是我当时的感受和决策。” 这正是自我民族志被实证派攻击为”navel-gazing(自我沉溺)“的命门(Delamont 2007、2012 的核心批评)。纯内省数据如果不与可观察痕迹锚定,就退化为事后合理化(post-hoc rationalization)——这是出声思考法(think-aloud)回顾式变体早已记录的偏差:参与者会重建而非真实回忆(Ericsson & Simon, Protocol Analysis, 1984;UXPA 关于回顾式 TA 记忆衰减的讨论)。

本节点采用的第三框架——可观察性梯度。 把”什么算 observation”答成一个分层问题:每一类数据按”独立于内省可被核验的程度”排序,越靠近可核验端越可信,越靠近内省端越需要结构化保护机制。这个框架的核心主张是一条可证伪的判断:不结构化记录使用决策,等于把数据生产外包给三周后的回忆,而回忆的系统性偏差会让自我民族志失真到无分析价值

graph LR
  L1["L1 行为痕迹<br/>时间戳·对话存档·token·文件diff"] --> L2["L2 选择痕迹<br/>采纳/拒绝/重写·分支点"]
  L2 --> L3["L3 编码标签<br/>SABCD·任务类型·skill触发"]
  L3 --> L4["L4 内省判断<br/>信任校准·注意力分配·赌注"]
  L1 -.可核验性递减.-> L4
  L4 -.需结构化保护机制.-> L1

§1 五类数据类目:从 L1 到 L4 的可观察性梯度

自我民族志要回答”什么该记”,必须先把”使用”拆成可分层的数据类目。下表是本专题给出的记录类目表——它既是 Rick 的记录清单,也是任何 AI 使用自我民族志的通用骨架。

层级类目具体载体(Rick vault 已有/可加)可观察性偏差风险
L1 行为痕迹交互事件流对话存档时间戳、token 用量、文件 diff、skill 调用记录高(机器自动产生)低,但”只记行为不记意图”
L2 选择痕迹决策分支采纳/拒绝 AI 建议、重写 prompt、塌缩架构(v1.3→v1.4)、反向删除旧 memory中高(事后可从对话重建)中(重建时易补全成”理性叙事”)
L3 编码标签语义分类SABCD 评级、任务类型(探索/利用)、过拟合诊断这类元层干预中(依赖编码者判断)中(编码漂移、标准不一)
L4 内省判断主观状态信任校准、注意力分配、为何此刻跳过/拒绝 AI、塌缩决策的驱动低(仅当事人可及)高(事后合理化、社会期望偏差)

判断密度落点:L1–L2 是 Rick 的”不公平数据优势”。 多数 AI 使用研究者只有 L1(usage log)或被试自报的 L4(访谈),缺中间层。Rick 的 vault 因为有工程化的痕迹留存机制,天然富集 L2:

  • skill 设计史本身是 L2 数据——trip-structure skill 有 over-design→被拉回→收敛的完整迭代轨迹(2026-04-03,由 skill-creator 元 skill 重写);
  • memory 治理转型是 L2 数据——从 blocklist 切换到 allowlist,并反向删除旧记忆条目(2026-05-13),这个”反向修订”动作是可观察的决策痕迹,不需 Rick 内省也能确认发生过;
  • 架构塌缩是 L2 数据——12-agent v1.3 在 2026-05-21 被 Rick 用”是否 over-engineering”挑战后塌缩为 5 sub-agent + 6 skill (v1.4),判别用 A/B/C/D 框架,文档可查。

这些是已经发生、留有产物的决策,属于自我民族志里最硬的那类数据:行为已外化为文件,分析它们不依赖 Rick 三周后的回忆。


§2 怎么编码:三阶编码 + SABCD 作为现成的 L3 标签系统

“怎么记”的核心是编码(coding)。本专题不重新发明轮子,而是借建构主义扎根理论(Charmaz, Constructing Grounded Theory, 2006)的并行编码思路:数据收集、编码、分析并行推进,靠反思性备忘录(reflexive memo)留痕,而非线性的先收集后分析。

关键洞察:Rick 的 SABCD 评级体系,本质上已经是一套运行中的 L3 编码 schema。 99Archive/_README.md 记录的 Phase 1 pipeline 评级分布(S:14 / A:103 / B:194 / C:182)就是一次完整的开放编码(open coding)产物——每条对话被赋予一个质量维度的语义标签。把它接入自我民族志,只需补两件事:

  1. 加轴心编码(axial coding)维度:现在 SABCD 只编”质量高低”,要再加正交的”使用模式”轴——例如认知轴(探索 Exploration vs 利用 Exploitation,这是 Human-LLM 交互模式综述的常用框架)、信任轴(采纳/拒绝/核查)。一条对话同时有 [A级 × 探索 × 拒绝后重写] 三个标签,才能支撑模式发现。
  2. 加 reflexive memo:每次评级时附一句”我为什么给这个分”。这正是把 L4 内省安全锚定到 L3 标签上的机制——内省不再悬空,而是附着在一个可核验的编码动作上。

[!note] 编码漂移是 L3 的头号敌人 14 条 S 级和 182 条 C 级之间的界线,三个月后会不会变?扎根理论的”理论饱和”判断本就依赖编码者主观、可复制性低(这是 GT 的公认软肋)。对策:每批编码留下”边界样本”——那些”差点给 A 又给了 B”的对话,连同犹豫理由一起记。边界样本比典型样本信息量大得多。


§3 判断主轴:什么算 observation,90% 的人会在这四处搞错

这是本节点的命门。把”使用即数据”做成自我民族志时,有四个高频致命错误,每个配症状→为什么会错→正确做法→真实反例。

错位一:把 raw log 当 observation。

  • 症状:以为”存了档=有数据了”,年底打开一万条对话发现无从分析。
  • 为什么会错:混淆了”痕迹”(trace)与”观察单元”(coded unit)。log 是 observation 的原料,不是 observation。
  • 正确做法:observation = 被赋予至少一个语义标签、指向某研究问题的最小单元。存档当下就编码,别攒着。
  • 真实反例:Rick 的旅行期对话若停在 9910 对话存档/,只是 L1;只有被 SABCD 评级 + 升格为 NMAAHC 深度导览与 AI 表达元批评 这样的节点后,才成为可分析的 observation。

错位二:用事后回忆填 L4,却伪装成实时记录。

  • 症状:写”我当时在 review diff 时觉得不放心所以拒绝了”——但这句话是三周后补的。
  • 为什么会错:回顾式自报有记忆衰减和合理化(Ericsson & Simon 1984;think-aloud 回顾变体的已知缺陷)。人会把”碰巧拒绝了”重述成”经过权衡的理性决策”。
  • 正确做法:L4 内省必须事件触发(event-contingent)当场记,或明确标注”此为事后重建”。这正是经验采样法(ESM, Csikszentmihalyi et al. 1977)的核心纪律:信号/事件触发的实时记录,对抗回忆偏差。
  • 真实反例:本专题对 Rick 一切内省项一律留 〔Rick 待填〕 模板而非代填,就是这条纪律的执行——可观察的(塌缩动作发生了)如实写,需内省的(塌缩是疲劳驱动还是美感驱动)绝不替他编造。

错位三:只记成功,不记弃用与摩擦。

  • 症状:自我民族志写成”我的 AI 协作多么高效”的成功学。
  • 为什么会错:这是 confirmation bias 的典型——只采可印证”我是高级用户”的正面案例。
  • 正确做法:把”哪个 skill 被弃用了""三步 ingestion 在哪一步制造了流程阻力""哪条 CLAUDE.md 原则最常被跳过”作为必记类目。负面/摩擦数据的信息密度通常更高。
  • 真实反例:trip 套件里若有 skill 在旅行中实际从未触发,这个”零使用”本身是关键 observation——但它在 L1 log 里表现为”沉默”,最容易被漏记,必须主动设一个”弃用清单”类目去捕捉。

错位四:把”我”当成稳定不变的观察者。

  • 症状:假设三周前评级的我和现在分析的我用同一把尺。
  • 为什么会错:编码漂移 + 研究者自身在演化(memory 治理观、架构观都在变)。
  • 正确做法:给每个编码盖”版本戳”——记下”这是用哪一版评级标准、在认知的哪个阶段做的判断”。分析式自我民族志要求的分析性反身性(analytic reflexivity, Anderson 2006)正是此意:自觉审视”我这个观察工具本身在怎样变化”。
  • 真实反例:Rick 的 memory 观在 2026-03-23(过拟合诊断)→05-13(allowlist 转型)之间明显演化,同一种 AI 行为在这两个时点会被他编码成不同标签。不记版本戳,就会把”我变了”误读成”AI 变了”。

§4 产品 PM 视角补盲:使用即数据不只是研究方法,是产品本能

跳出”研究者”视角,三个 PM 才看得见的盲点:

  1. 数据生产成本 vs 洞察收益的边际权衡。每多一层编码(L1→L4)都增加记录摩擦,摩擦过高则记录行为本身会中断(diary study 的高流失率 attrition 是公认难题)。PM 直觉是:用最低记录成本的层级(L1/L2 自动留痕)承载主分析,把高成本的 L4 留给少数关键事件。Rick 的”三步 ingestion 沙盒”恰好是低成本 L1/L2 自动化的现成基础设施。
  2. 观察者即用户的双重身份风险。Rick 既是被研究的 power user,又是设计 vault 协作系统的 PM——他设计的 SABCD schema 会反过来塑造他怎么使用 AI(被测量者会朝指标优化,这是 Goodhart 风险的微观版)。observation 一旦被定义,就开始改变被观察的行为。
  3. “什么算数据”是个产品决策,不是中立记录。选择记 L1 还是 L4、记成功还是记弃用,等于预先决定了能发现什么模式。这与产品埋点(instrumentation)一模一样:你埋什么点,决定你能回答什么问题。

§5 对手框架回应:接受批评的对的部分,标出本专题的边界

对手立场一(实证派 / Anderson 分析式自我民族志): Leon Anderson(2006, Journal of Contemporary Ethnography, 35(4))批评纯唤起式自我民族志缺乏分析性理论建构,只剩个人故事,无法产生可迁移洞见。

  • 接受:完全接受。本节点之所以坚持分层编码、坚持 L4 必须锚定 L1/L2,正是为了不滑向”只有感受、没有可核验数据”的唤起式陷阱。Anderson 五特征里的”完整成员研究者(CMR)“和”分析性反身性”对本专题适用——Rick 正是他所研究场域(自己的 AI 协作系统)的完整设计者兼成员。
  • 边界与赌注:但本专题不接受 Anderson 对”理论建构”的实证主义化要求所隐含的、对 N=1 的轻视。我赌的是:一个极端 power user 的厚描述,其价值不在统计代表性,而在揭示”使用上限”的边界形态——这与 lead user 研究(von Hippel 1986)的逻辑一致:领先用户比市场早遭遇新问题,研究极少数前沿用户能预见普遍趋势。N=1 的 Rick 不是样本,是探针。

对手立场二(唤起派 / Ellis & Bochner): Carolyn Ellis & Arthur Bochner(Evocative Autoethnography, 2016)认为 Anderson 用实证框架约束本质上后现代的实践,效度应看 verisimilitude(栩栩如生性)而非客观准确。

  • 接受:接受”效度不能只用实证标准”。Richardson 的水晶化(crystallization)隐喻——研究如水晶有无穷折射面、无需固定三角测量——对本专题成立:Rick 的 AI 使用确实是多棱镜。
  • 边界:但在”AI 使用即数据”这个特定题材上,我坚持向 Anderson 一侧倾斜。原因是赌注:本专题的产出要服务 Rick 的 AI PM 求职与决策训练,需要的是可被他人质疑、可被复用的方法论,而非只能共情的私人叙事。verisimilitude 不够,得加可核验性。

[!warning] failure scenario 本节点的”可观察性梯度”框架在一种场景下会失效:当最重要的 observation 恰恰是纯内省、无任何外化痕迹的瞬间(如”我对这个 AI 输出产生了说不清的不信任,于是没采纳,也没留下任何 prompt 痕迹”)。此时 L1/L2 完全空白,框架只能退回到 L4 的事后自报,丧失锚定。对策只能是 ESM 式的实时弹窗自问,但那会严重干扰自然使用——这是本框架无法两全的硬边界。


§6 跨域呼应:Polanyi 默会知识——为什么”使用决策”最难被记成数据

调度一个跨域资源:Polanyi 的默会知识(tacit knowledge)“我们知道的比我们能说出的多”

这条认识论原理直接改变了”什么算 observation”的判断。Rick 决定”此刻信任这个 AI 输出、那刻拒绝”,很大程度是默会的——他能做出正确的信任校准,却未必能完整言说判断依据。这意味着 L4 内省数据有一个原理性的天花板:能被言说记录的,永远小于实际在起作用的

后果有二:

  1. 不能因为 L4 难记就放弃它,但要清醒它的不完整性——这正是为什么本专题坚持用 L1/L2 的行为痕迹去反推默会判断,而非只靠 L4 自报。当 Rick 反复在某类 AI 输出上做”采纳后局部重写”(intellectual-lens skill 用”竞品输出对照”定位 prompt 差距的迭代,2026-04-05),这个行为模式比他口头解释更能揭示他的默会质量标准。
  2. 自我民族志的诚实,恰在于标记默会的边界。本专题对内省项留白 〔Rick 待填〕 而非代填,不只是”不编造”的纪律,更是对默会知识不可完全外化的认识论尊重——硬要把默会的东西写成清晰的事实陈述,本身就是一种造假。

(详见 Polanyi 默会知识与提示工程的认识论张力——本节点把那里的”提示工程”语境,迁移到”使用记录”语境:同一个张力,换了战场。)


§7 PM 决策启示:面试 / 选型 / 复现三类落地

  • 面试怎么用:被问”你怎么评估自己的 AI 协作能力”,不说”我用得很熟”,而说”我把使用拆成四层数据,L1/L2 自动留痕、L4 事件触发记录,并承认默会判断的记录上限”。这是把模糊的”我很会用 AI”升级成可被追问的方法论——直接区分于 hype 式自述。
  • 选型怎么用:评估任何 AI 协作工具时,问一句”它的使用能不能被结构化记录成 L1/L2?“。一个不留 diff、不留调用记录、对话无法导出的工具,等于让你的使用经验无法沉淀为数据——这是隐性的高 switching cost。
  • 复现怎么用:任何团队想做”AI 使用研究”,先建 L1/L2 自动留痕基础设施(埋点 + 沙盒 ingestion),再补 L3 编码 schema,最后才加 L4 内省,且 L4 必须事件触发。顺序颠倒(先做问卷访谈)必然采到被回忆污染的数据。

§8 与已有节点的关系

  • 对照 Skill 系统的本质:那里讲 skill 是”procedural knowledge 的文档化封装”;本节点做深化——指出 skill 的设计史本身就是一类高价值 L2 observation,把”skill 是什么”升级为”skill 设计轨迹怎么被当数据读”。
  • 对照 Polanyi 默会知识与提示工程的认识论张力:那里聚焦提示工程的言说困境;本节点做迁移/对话——把同一默会张力搬到”使用记录”场景,论证 L4 数据的原理性天花板。不复述 Polanyi 原理,只调用其后果。
  • 对照 AI 记忆过拟合与泛化能力:那里是 Rick 对 AI 做过拟合诊断的内容节点;本节点做纠偏视角的补充——把那次”两轮元层干预”重新读作一份 L2/L3 数据样本(决策痕迹 + 元层编码),示范”同一份产物如何被当 observation 二次分析”。
  • 升级对照 0418 审阅瓶颈专题:Rick 的审阅行为(SABCD 评级、三步 ingestion 中的 Rick 审阅环节)是 0418 命题的一手数据。本节点提供方法(怎么把审阅行为记成 L2/L3 数据),0418 提供命题(审阅是瓶颈)——二者构成”方法↔命题”互补。
  • 升级对照 0414 Claude Code 体感:0414 是体感记录(偏 L4 内省);本节点为它补结构化骨架——指出体感若不锚定到 L1/L2 痕迹,会退化为回忆,应按可观察性梯度分层。
  • 升级对照 0422 民族志方法本工厂(0412-0423) meta-case:本工厂这套多 agent 流水线本身就是一个正在运行的、可观察的 AI 使用 observation——它的 round-N critique 留档、SABCD 自评、agent 分工,全是 L1/L2/L3 数据。本节点用它做自指示范:研究”使用即数据”的工具,本身在生产可被同样框架分析的数据。

§9 关联节点

核心(必读)

延伸(可选)


§10 Rick 待填项(结构化模板 · 绝不代填)

以下均为 L4 内省数据,仅 Rick 本人可及。请在实际记录习惯就位后逐条补入,标注”此为实时记录 / 此为事后重建”。

〔Rick 待填:你的实际记录习惯〕

  • 你目前真的会把哪些层级(L1/L2/L3/L4)落到文字?哪一层最常被你跳过、为什么?
  • 引导问题:上一次你”决定不采纳 AI 输出”,有没有留下任何痕迹?如果没有,那个判断为何没被记?

〔Rick 待填:SABCD 评级时的内部标准与犹豫〕

  • 14 条 S 级和 182 条 C 级之间,你自己的价值判断依据是什么?评级时在哪些对话上犹豫过、边界模糊?
  • 引导问题:能否找出 1-2 条”差点给 A 又给了 B”的边界样本,写下当时的纠结?(这是最高价值的 observation)

〔Rick 待填:哪些 skill 被弃用 / 哪条 CLAUDE.md 原则最常被跳过〕

  • 旅行中哪些 skill 频繁触发、哪些实际从未用上或感到不够用?三步 ingestion 在哪一步制造了流程阻力?
  • 引导问题:有没有哪条你自己定的协作原则,你私下经常违反?为什么?

〔Rick 待填:架构塌缩(v1.3→v1.4)的主观驱动〕

  • 那次塌缩是认知疲劳驱动、架构美感驱动,还是纯效率驱动?(动作可观察,驱动只有你知道)

§11 修订日志

  • 2026-06-07 R0 首稿:建立”可观察性梯度 L1–L4”框架;五类数据类目表;三阶编码 + SABCD 作为 L3 schema;判断主轴四错位;Polanyi 跨域呼应;与 0414/0418/0422 及 Skill 系统的本质/Polanyi 默会知识与提示工程的认识论张力 升级对照;Rick 待填 4 项(结构化模板)。待 grounding pass 核 ESM 首创年份、Anderson 期刊卷号、Ericsson & Simon 年份。