R01 建一个 AI 使用日志与编码方案 · 知识库

如果要把”Rick 作为极端 power user 的 AI 使用模式”从一堆散落的对话存档升级成可分析的一手田野数据，第一个工程问题不是”记什么”，而是”用什么编码框架记，才能既不漏掉信任与注意力这些不可观察的内在状态，又不在记录时就把行为本身改掉”。本节给出一套可立即落地的 AI 使用日志模板 + 四轴编码方案（决策／信任／注意力／筛选），并在结尾正面处理这套系统最危险的副作用：记录会改变被记录的行为（反身性）。这不是 bug，是自我民族志的本质，要被设计进来而不是被假装消除。

[!warning] 接地纪律声明（本节点的认识论底线）本节点是方法设计，不是对 Rick 内心的描述。凡是可观察的（skill 设计史、vault 结构、本专题工厂的运作）按事实分析；凡是需要 Rick 内省才能知道的（他 review diff 时的具体感受、信任校准的真实阈值、注意力分配的实际权衡），一律留 〔Rick 待填〕 结构化模板与引导问题，绝不替他编造。这正是分析式自我民族志（Anderson 2006）要求的 narrative visibility——研究者在文本里必须可见，包括”哪些我还不知道”。

§0 为什么是”日志 + 编码”这个框架，而不是别的

研究”一个人怎么用 AI”，有五种主流方法，各有命门。先把它们摆出来，挡掉读者脑中的默认错误框架。

方法	抓什么	命门（为什么单用不够）	来源
Usage Log 行为日志	token 流、命令、时间戳	只记行为，不记意图与情境；日志”噪声大、碎片化、缺语义结构”	OpenRouter State of AI 2025；Human-LLM Interaction Patterns 综述
Diary Study 日记研究	自然情境下的体验与感受	依赖主观自报，有社会期望偏差；长期高流失率（attrition）	Li et al. 2024（DiaryHelper, arXiv:2404.19738，已 WebFetch 核实）
ESM 经验采样	随机信号触发的实时状态	打断强、负担重；信号触发与事件触发覆盖不同	Csikszentmihalyi, Larson, Prescott 1977
Think-Aloud 出声思考	实时认知路径	同步思考是否改变认知过程本身尚无定论；回顾式有 post-hoc 合理化	Ericsson & Simon 1984
Grounded Theory 编码	从原始数据归纳理论	需要先有数据；理论饱和判断主观，可复制性低	Charmaz 2006；Strauss & Corbin

为什么本节点选”行为日志 + 编码方案”这个组合，而不是纯日记或纯 think-aloud：

Rick 的场景天然偏行为日志。他不是普通用户——vault 里已经躺着约 40+ 条带日期戳的对话存档（99Archive/9910 claude 对话存档/，20260412–20260423）、SABCD 评级分类、skill 设计的完整迭代轨迹。一手行为数据已经在自动产生，缺的只是一个把它结构化的编码框架。从零做 ESM 反而是浪费已有资产。
但纯行为日志致命地缺三样东西：信任（为什么这次采纳那次否决）、注意力（哪些 diff 被细看哪些被滑过）、筛选标准（S 级和 C 级对话的内在分界）。这三样恰恰需要内省补充。所以方案是行为日志为骨、轻量内省为血——用最小的 think-aloud 注解给行为数据补语义，而不是反过来。
编码方案先行，是为了对抗 Grounded Theory 的”理论饱和不可复制”。Charmaz 建构主义路径承认编码框架是研究者与数据共同建构的，但 Rick 作为**完整成员研究者（Complete Member Researcher, Anderson 2006 第一特征）**有不公平优势：他既是被研究者又是设计者，可以先用先验框架（Lee & See 的信任校准、Schemmer 的 AoR）做演绎编码，再用开放编码补先验框架漏掉的本土范畴。这是混合编码（hybrid coding），比纯归纳更适合”已有大量数据 + 已有成熟理论”的局面。

[!note] 框架级辨析的赌注我赌”行为日志为骨”对 Rick 成立，是因为他的可观察产物密度异常高。这条对普通用户不成立——普通用户没有 skill 迭代史、没有 40+ 条带评级的存档，对他们应该反过来以 ESM/日记为骨。本节点是为这一个极端 power user 定制的，不假装可泛化。这正是自我民族志的边界：n=1，且这个 n 极不典型。

§1 数据底料盘点：Rick 已经在产生的一手观察（可观察，已接地）

在设计模板之前，先确认哪些数据已经存在、无需 Rick 额外记录。这是本方案区别于”从头建日记”的关键——大量编码对象是回溯性的（retrospective coding），可立即编码。

以下均经本专题工厂的资料采集 Read / 文件系统确认存在：

Skill 设计史（决策轴的金矿）：trip-discover / trip-evaluate / trip-macro / trip-structure skill / trip-qa 五件套，2026-03-31~04-01 的”发散-收敛-明确指令-机制核查”四步节奏；trip-structure 的 over-design→被拉回→收敛轨迹（2026-04-03，skill-creator 元 skill 重写）；intellectual-lens 的”竞品输出对照”prompt 迭代（2026-04-05）。每一次迭代都是一个可编码的决策事件。
Memory 治理转型（信任轴 + 筛选轴）：blocklist→allowlist 的认知转型（2026-05-13），含反向删除旧记忆条目的行为。见 Claude routines 调研与 memory allowlist 设计。
过拟合诊断（信任轴的元层干预）：用 ML 框架（过拟合/泛化）对 AI 做两轮元层干预（2026-03-23），干预文本已归档。见 AI 记忆过拟合与泛化能力。
知识图谱框架操控（决策轴）：两次主动改写 prompt 约束（撤数量上限保完备、把”PM 视角”具体化为场景题），2026-03-05。见 AI PM 知识图谱框架设计、AI PM 知识图谱·总索引。
架构塌缩决策（决策轴的元 case）：12-agent v1.3 → 主动质疑 over-engineering → 塌缩为 5 sub-agent + 6 skill 的 v1.4（2026-05-21），A/B/C/D 判别框架有文档记录。
本专题工厂作为 meta-case（最珍贵的 in-vivo 数据）：0412–0423 旅途中 write-first 多 agent 流水线的实时运行——现场触发对话 → 存档 → SABCD 评级 → 升格为笔记，约 40+ 对话、40+ 节点。SABCD pipeline 评级分布已知（99Archive/_README.md：S:14 / A:103 / B:194 / C:182）。

[!important] 这就是接地的本钱上面每一条都是 Rick 留下的真实数字痕迹。它们让”信任/注意力/筛选”的编码不必从空白开始——14 条 S 级和 182 条 C 级之间，已经有一条 Rick 真实划过的线。本方案要做的，是给这条线配一把可复用的尺。

§2 AI 使用日志模板（可立即抄用）

设计原则：回溯字段自动可填，内省字段最小化。每条记录的”客观三件套”（时间/工具/任务）应该 30 秒内填完；“主观四轴”用受限词表（controlled vocabulary）打钩而非写散文，把 think-aloud 的负担压到最低，从源头减少反身性污染。

2.1 单次会话日志（Session Log）—— 主表

---
log_id: AISL-20260607-001
date: 2026-06-07
tool: [Claude Code | Claude.ai | Cursor | trip-skill | other]
session_type: [创造 | 诊断 | 调研 | 编码代理 | 田野扩展 | 元设计]
task_oneline: <一句话任务>
duration_min: <粗估，10/30/60 分桶即可>
artifact_link: <产出节点或对话存档，填真实节点名>
---

## 客观（回溯可填）
- 触发情境：<在做什么时调起 AI>
- 轮次数：<大致几轮往返>
- 是否动用 skill：<哪个 / 无>

## 主观四轴（受限词表打钩，不写散文）
- 决策模式：⬜委托执行 ⬜协作共创 ⬜对照参照 ⬜元层干预（改 prompt/memory/架构）
- 信任动作：⬜直接采纳 ⬜核查后采纳 ⬜部分采纳 ⬜整体否决 ⬜要求重做
- 注意力投放：⬜逐行细审 ⬜抽样抽查 ⬜只看结论 ⬜未审即用（自承）
- 筛选去向：⬜升格入库 ⬜暂存 _ai_review ⬜丢弃 ⬜评级（S/A/B/C/D）

## 一行注解（可选，≤20 字）
<这次最值得记一笔的判断点。留空也合法。>

2.2 决策事件日志（Decision Event Log）—— 高价值时刻才填

不是每次会话都填这张，只在发生”格式塔切换”时填：当你做了一个会改变后续所有用法的元层决策（如 allowlist 转型、架构塌缩）。这是 critical incident technique 的用法——只采样关键事件，避免全量记录的疲劳。

## 决策事件
- 触发：<什么让你意识到要改>
- 旧做法 → 新做法：<一行对照>
- 判别依据：<你用什么标准做的判断>
- 〔Rick 待填：这个决策是认知疲劳驱动、架构美感驱动，还是纯效率驱动？〕

§3 四轴编码方案（决策 / 信任 / 注意力 / 筛选）

这是本节点的核心交付物。每一轴给：编码值（受限词表）+ 锚定理论 + 可观察的行为证据 + 必须留给 Rick 内省的空白。轴的设计混合了演绎（先验理论给骨架）与归纳（Rick 本土行为补范畴）。

3.1 决策轴（Decision）——“这次我把 AI 放在什么位置”

编码	含义	可观察行为证据（已存在）
`D-委托`	AI 自主执行，我验收结果	Phase 1 批量 pipeline 处理对话入库
`D-协作`	我和 AI 来回共创	trip 套件四步节奏设计
`D-对照`	拿 AI 输出当参照系	intellectual-lens 的”竞品输出对照”法
`D-元层`	我改的是 AI 本身（prompt/memory/架构）	知识图谱两次改约束、12→5 agent 塌缩

锚定理论：Human-LLM 交互的认知轴 Exploration vs Exploitation（Human-LLM Interaction Patterns 综述）。D-对照/D-元层 偏 exploration，D-委托 偏 exploitation。Rick 的可观察特征是 D-元层 异常高频——这是 power user 的标志，普通用户几乎不进入元层。

3.2 信任轴（Trust）——“我给了 AI 多少信任，校准对了吗”

编码	含义	锚定
`T-直采`	不核查直接用	潜在 overtrust 区
`T-核采`	核查后采纳	校准区
`T-部采`	取一部分、改一部分	校准区
`T-否决`	整体拒绝	潜在 undertrust 或 AI 真错
`T-重做`	否决并要求重来	元层不满

锚定理论：信任校准（trust calibration, Lee & See 2004, Human Factors）——信任应与系统实际可靠性匹配，偏高为 overtrust，偏低为 undertrust。关键二阶问题不是”采纳率多少”，而是 AoR（Appropriateness of Reliance, Schemmer et al. 2023, IUI, arXiv:2302.02187）：正确采纳率 × 正确拒绝率。也就是说——T-直采了一个对的答案是好校准，T-直采了一个错的答案才是 overreliance。所以信任轴必须配一列”事后回看 AI 这次到底对没对”。

[!warning] 〔Rick 待填：信任校准的本土阈值〕我无法替你回答下面这些，它们需要你的内省。请用具体会话举例，不要写抽象原则：

在 trip-structure skill 或代码 diff 场景，你何时会跳过核查直接采纳？是任务低风险、还是 AI 历史可靠、还是单纯没时间？

你有没有过 T-直采 后发现 AI 错了的具体一次？那次之后你的核查行为变了吗？

反向：你 T-否决 过一个事后证明 AI 其实对的建议吗？（undertrust 的代价）

引导问题（对照 Bansal et al. 2021 的反直觉发现：AI 给解释会无条件抬高人类采纳率，不管对错）：当 AI 给出”看起来很有道理的解释”时，你是更容易采纳了，还是反而更警惕？

3.3 注意力轴（Attention）——“我把审查火力投到哪里”

编码	含义	锚定
`A-逐行`	逐行细审	高投入
`A-抽样`	抽查关键处	风险加权
`A-结论`	只看结论/摘要	低投入
`A-未审`	未审即用（自承）	自动化自满区

锚定理论：自动化自满与偏差（automation complacency / bias, Parasuraman & Manzey 2010, Human Factors）——注意力分配不足导致漏检，且训练和指令均无法消除。注意力轴是这个专题与 0418（审阅瓶颈）最硬的接口：Rick 的审阅行为本身就是 0418 主张的一手数据。0418 说”审阅是新瓶颈”，本轴提供的是这个瓶颈在 Rick 身上的实测分布——他的审查火力是均匀的还是高度倾斜的。

[!warning] 〔Rick 待填：注意力的真实分配〕这一轴最不可观察，最需要你诚实自承（社会期望偏差会让人高报自己的审查严谨度，请警惕）：

三步 ingestion 里，从 _ai_review 沙盒 move 到主区前，你真的逐条审了，还是 S/A 级粗看、只对 C 级或可疑的细看？

你审 AI 写的散文和审 AI 写的代码/双链，火力一样吗？哪类你更容易 A-结论 滑过去？

引导问题：有没有一类内容你明知该审却系统性地跳过？（这是 0418 审阅瓶颈在你身上最有价值的数据点。）

3.4 筛选轴（Selection）——“我凭什么留下这条、丢掉那条”

编码	含义	可观察证据
`S-升格`	提炼为入库笔记	旅途 40+ 对话→40+ 节点
`S-暂存`	留在 _ai_review 待定	三步 ingestion 中间态
`S-丢弃`	不要	（日志可补）
`S-评级`	打 SABCD	pipeline 评级：S:14/A:103/B:194/C:182

锚定理论：Grounded Theory 的选择性编码（selective coding, Strauss & Corbin）——围绕核心范畴整合。Rick 的 SABCD 评级行为本身就是一套已在运行的本土编码系统，本轴要做的是逆向工程它的隐式标准。

[!warning] 〔Rick 待填：S 与 C 之间那条线〕 pipeline 给出了 S:14 / C:182 的分布，但这条线的判据只有你知道：

14 条 S 级对话，回看有什么共同特征？是判断密度高、是有跨域呼应、还是单纯有可复用产出？

你评级时最犹豫的是哪类（B/C 边界）？犹豫点说明你的标准在哪里模糊。

引导问题：被你 S-丢弃 的对话里，有没有事后觉得”其实不该丢”的？（筛选的假阴性。）

§4 判断主轴：建这套日志时，90% 的人会搞错的 4 个点

⭐ 这是区分”做了个表格”和”做了个能产出洞见的研究工具”的命门。每点带症状 → 为什么会错 → 正确做法 → 真实反例四件套。

错点 1：把日志做成”行为流水账”，以为记得越细越好。

症状：每次会话都填满四轴 + 长注解，三天后弃坑。
为什么会错：误以为数据量 = 数据价值。日记研究的头号杀手是 attrition（长期高流失），DiaryHelper 论文（Li et al. 2024, arXiv:2404.19738）整篇就是在解决”参与者条目不完整、负担过重”。
正确做法：客观字段自动化、主观字段受限词表打钩、决策事件只采样关键时刻（critical incident）。让填日志比不填更省事——比如把 SABCD 评级直接复用为筛选轴，零额外成本。
真实反例：本专题工厂的 pipeline 没有让 Rick 逐条手填评级，而是批量处理后给出分布——这才跑得下来 493 条。手填一定崩。

错点 2：用纯归纳编码（Grounded Theory 原教旨），假装自己没有先验框架。

症状：坚持”让范畴从数据浮现”，拒绝先用 Lee & See / Schemmer 的理论。
为什么会错：Rick 不是中立观察者，他是 CMR（完整成员研究者）。假装没有先验框架是虚假的客观——而且会浪费成熟理论的杠杆。Glaser 派和 Strauss/Corbin 派吵了几十年的就是这个，至今无共识。
正确做法：混合编码。先验框架给骨架（演绎），开放编码补本土范畴（归纳）。比如四轴是先验的，但 D-元层 这个高频值是从 Rick 行为里归纳补进来的——标准 trust calibration 文献里没有”用户改 AI 本身”这一档，因为他们研究的是普通用户。
真实反例：把 12→5 agent 塌缩硬塞进 D-委托/协作/对照 任一档都失真，必须新开 D-元层。数据逼出了框架的修订，这是对的。

错点 3：只记”采纳率”，不记”AI 这次到底对没对”。

症状：日志里有 T-直采 80%，得意于”我和 AI 配合很好”。
为什么会错：高采纳率可能是好校准，也可能是 overreliance——区别在 AI 是否真对。Schemmer 的 AoR 双维度（正确采纳 × 正确拒绝）就是为戳破这个幻觉而生。Bansal et al. 2021 更狠：AI 给解释会无条件抬高采纳率，不论对错。
正确做法：信任轴必须配”事后回看正误”列，且承认这一列有时无法判定（开放问题没有标准答案）。无法判定时标 T-? 而非假装知道。
真实反例：旅途中 AI 对历史的回答（如林肯第二次就职演说的神学解读），“采纳”了不等于”对了”——这类需要事后用学术来源核验，不能凭采纳动作就算校准成功。

错点 4：假装记录不影响行为，追求”自然状态”的纯净数据。

症状：宣称”我只是客观记录，不干预自己的使用”。
为什么会错：这在认识论上是不可能的。详见 §6。记录行为本身是干预，think-aloud 是否改变认知过程（Ericsson & Simon 框架 vs 反应性影响）学界至今无定论。假装纯净是自欺。
正确做法：把反身性写进方法论，明确标注哪些数据是”被记录改造过的”，并把这种改造本身当成研究发现。
真实反例：见结尾 §9。

§5 产品 PM 视角补盲

跳出”研究方法”视角，补三个 PM 容易看走眼的点：

用户心理模型：这套日志若产品化（给所有 Claude Code 用户），最大障碍不是技术而是自我监控的羞耻感——A-未审即用 这个诚实编码值，普通用户不会主动打钩（社会期望偏差）。产品化时必须把”未审”做成无评判的默认态，否则数据全是高报的假数据。
商业模式边界：Anthropic 已对百万级 Claude 对话做隐私保护的 NLP 分析（OpenRouter State of AI 2025 同类做法）。厂商侧的 usage log 是行为流，永远拿不到信任/注意力/筛选这三个内在轴——这恰是 Rick 自我民族志的不可替代价值。PM 启示：厂商遥测和用户自报是互补而非替代，谁声称”日志数据就够了”谁就漏掉了一半。
合规边界：Rick 的对话存档含 DiDi 工作内容（见记忆：DiDi 材料内部但中等敏感，本地处理可、不主动外broadcast）。这套日志若涉及工作场景编码，必须本地化，不能进任何外部分析管线。自我民族志的关系伦理（Ellis, Adams & Bochner 2011）在这里有产品级对应：编码他人（同事）出现的会话时，需做脱敏。

§6 跨域呼应：Polanyi 默会知识——为什么”信任/注意力”轴注定无法被行为日志穷尽

调度一个跨域资源并具体展开它在本节点的作用。

Polanyi 的核心命题”我们知道的比我们能说出的多”（we know more than we can tell），直接判定了本方案的一个根本边界：信任轴和注意力轴想捕捉的”为什么这次我跳过核查”，本质上是默会判断——Rick 在 review diff 时那个”这看着不对”的瞬间，很可能他自己也无法完全言说。Think-Aloud 文献记录的”理论-实践差距”（实践中研究者必须不停提示参与者”你在想什么”）就是默会知识抵抗言语化的实证表现。

这改变了什么技术判断？它让本方案主动降级了野心：四轴编码不是要”完整提取” Rick 的内在状态（那是不可能的，会沦为编造），而是要在默会判断的外缘留下可观察的指纹——采纳/否决是动作（可观察），动作背后的理由是默会（部分不可说）。所以 §3 每一轴都配 〔Rick 待填〕 而非替他填，正是 Polanyi 命题的工程化:能问的问到边界，问不动的诚实留白。这与 Polanyi 默会知识与提示工程的认识论张力是同一张认识论地图——那个节点讲的是”提示工程无法把默会的好品味完全编码进 prompt”，本节点讲的是”自我民族志无法把默会的信任判断完全编码进日志”，两者是同一道墙的两面。

[!note] 跨域呼应的赌注我赌”信任判断有不可言说的默会内核”。反方（强认知主义 / Ericsson & Simon 原教旨）会说：充分的回顾式 think-aloud 加录像回放可以逼近完整提取。我接受这能提升提取率，但坚持存在一个渐近不可达的残差——而且越是 Rick 这种内化极深的 power user，残差越大（专家的判断最默会）。这个赌注可能错；若错，本方案的 〔Rick 待填〕 留白会比预期更可填。

§7 与五个既有节点 / 专题的显式升级对照

不复述这些节点的事实基础，只标本节点对它们做了哪种升级（补缺/纠偏/对话/深化）。

对照对象	旧节点说了什么	本节点的升级动作
0414（Claude Code 体感）	Rick 用 Claude Code 的主观体感记录	结构化升级：把零散体感升级为四轴可编码数据。体感是 raw，本节点给它编码尺。
0418（审阅瓶颈）	审阅是 AI 协作的新瓶颈	一手数据供给：注意力轴（§3.3）就是测量这个瓶颈在 Rick 身上的实际分布。0418 提出命题，R01 提供测量这个命题的仪器。
0422（民族志方法）	民族志作为方法论	操作化升级：把”做民族志”从方法论降到可执行的日志模板 + 编码表。0422 是 why，R01 是 how。
Skill 系统的本质	Skill 是 procedural knowledge 的文档化封装	对话：本节点把 skill 设计史当作决策轴的数据源——Skill 的迭代轨迹 = 可编码的决策事件流。
Polanyi 默会知识与提示工程的认识论张力	默会知识抵抗被编码进 prompt	同构深化：见 §6。同一道认识论墙，从”prompt 编码”那面延伸到”日志编码”这面。

§8 PM 决策启示（面试 / 选型 / 复现三类落地）

面试：当被问”你怎么知道自己 AI 用得好”，多数候选人答”我用得很多/很熟”。Rick 可以答：我把自己当研究对象，用四轴编码（决策/信任/注意力/筛选）+ AoR 指标做了自我民族志，发现我的 overreliance 真实分布在 X 处——用可证伪的自我测量代替自我吹嘘。这是 AI PM 罕见的元能力证据。
选型：评估任何”AI 使用分析”工具（Pendo 式遥测、Anthropic usage log）时，用本节点的”四轴”做检验清单：它能给我决策/信任/注意力/筛选哪几轴？只给行为流的，自动判定”只覆盖 1/4，缺内在三轴”。
复现：本节点本身就是复现指南——任何想研究自己 AI 使用的人，照抄 §2 模板 + §3 编码表即可起步。关键是先做”回溯编码”（你已有的对话存档），别从空白日记开始。

§9 结尾：记录会改变行为——反身性不是 bug，是研究对象本身

最后正面处理 brief 要求的核心命题。

一旦 Rick 开始给”信任动作”打钩，他下一次采纳 AI 建议时，头脑里会多一个监控者：“我等下要把这次标成 T-直采 还是 T-核采？“——这个预期本身会让他更倾向于多核查一点（避免给自己打 A-未审 的难堪）。这就是反身性（reflexivity）：测量行为改变了被测量的行为。Think-Aloud 的”同步思考是否改变认知过程”之争（Ericsson & Simon 框架 vs 反应性影响，至今无定论）是同一现象在认知层的版本。

主流实证研究把这当污染要消除（追求”自然状态”)。自我民族志反过来把它当成第一性的研究对象。Anderson（2006）的分析式自我民族志五特征里，第二条就是 analytic reflexivity——自觉审视”我作为研究者如何影响研究”不是缺陷披露，是知识来源。Carolyn Ellis 的唤起式传统更直接：研究者的主体性不是偏差，是数据。

所以本方案的最终立场，是把反身性设计进编码方案而非假装消除：

[!important] 反身性的工程化处理（三步）

分段标注：日志加一个 观察者效应 元字段——自然态（记录前已稳定的旧习惯，如已成肌肉记忆的三步 ingestion）vs 被改造态（开始记录后明显因记录而变的行为）。承认后者不纯，但后者本身是发现：“记录让我审得更细了多少”是关于 Rick 注意力可塑性的真数据。

基线快照：在开始系统记录之前，先用已有的 40+ 条历史存档做一次回溯编码（retrospective），作为”未被观察的基线”。之后的前瞻记录（prospective）与基线的差，就是反身性效应的量级估计。这是本方案唯一能逼近”自然态”的窗口——而它之所以可行，正因为 Rick 的历史数据足够厚。

把漂移写成结论：若三个月后发现 A-逐行 比例显著上升，不要修正成”我本来就这么认真”，而要写成”记录这件事让我的审阅瓶颈（0418）暂时缓解了 X”——然后追问：停止记录后会回弹吗？ 这恰恰是自我民族志能问出、而厂商遥测永远问不出的问题。

一句话收束：这套日志测不出一个”未被打扰的 Rick”，因为打扰从打第一个钩开始就发生了。但它能测出”被自己注视时的 Rick”如何使用 AI——而对一个正在把自己训练成 AI PM 的人，后者才是更有用的那个数据。诚实地承认”我改变了我所观察的”，是这套方案区别于一份冷冰冰遥测报表的全部尊严所在。

[!warning] 〔Rick 待填：反身性的第一手证据〕这一段需要你在真正开始记录两周后回填，现在留白：

你有没有抓到自己”为了好看而多核查了一次”的具体时刻？

开始打钩后，你对 AI 的整体信任是上升了（更自觉）还是下降了（看到自己 overrely 的次数）？

引导问题：如果让你猜，停止记录一个月后，你的使用模式会回弹到记录前吗？哪一轴最容易回弹？

关联节点

核心（必读）

trip-structure skill — 决策轴的一手数据源（skill 迭代史 = 决策事件流）
Claude routines 调研与 memory allowlist 设计 — 信任轴 + 筛选轴的关键决策事件
AI 记忆过拟合与泛化能力 — 信任轴的元层干预案例
AI PM 知识图谱框架设计 — 决策轴的 prompt 改写证据
Polanyi 默会知识与提示工程的认识论张力 — §6 跨域呼应的同构节点
Skill 系统的本质 — 决策轴数据源的概念基础

延伸（可选）

旅行规划 Skill 套件系统设计 — skill 套件全景，决策轴背景
AI PM 知识图谱·总索引 — 本专题的图谱归属
民族志 / 人类学 — 方法论母体
0117社会学 / 0114认识论 — 反身性与默会知识的学科入口

修订日志

R1 (2026-06-07)：首稿。建立四轴编码方案（决策/信任/注意力/筛选）、双层日志模板（Session Log + Decision Event Log）、§6 Polanyi 跨域呼应、§9 反身性工程化三步。所有 Rick 内省点以 〔Rick 待填〕 结构化模板 + 引导问题留白，未编造。
R1-grounding (2026-06-07)：事实核验 pass 通过。WebFetch 核实 arXiv:2302.02187（Schemmer et al. 2023, ACM IUI，确证 AoR 双维度框架、N=200）与 arXiv:2404.19738（DiaryHelper, Li et al. 2024, CHI 2024，基于情景记忆理论、12 人两周）。WebSearch 核实 Lee & See 2004（Human Factors 46, pp. 50–80）与 Parasuraman & Manzey 2010（Human Factors 52(3), pp. 381–410，“专家与新手皆有、练习不可消除”确证）。Anderson 2006（Journal of Contemporary Ethnography 35(4)，非 Sociological Quarterly）、Bansal et al. 2021 解释抬高无条件采纳、Csikszentmihalyi et al. 1977 ESM 首创，均在资料采集阶段交叉确证。0 处疑似编造。
2026-06-11 P3.4 校链：frontmatter 模板 artifact_link 的占位符 <产出节点或对话存档> 去双链改纯文本（占位符从不是真链接目标）。