R01 建一个 AI 使用日志与编码方案
如果要把”Rick 作为极端 power user 的 AI 使用模式”从一堆散落的对话存档升级成可分析的一手田野数据,第一个工程问题不是”记什么”,而是”用什么编码框架记,才能既不漏掉信任与注意力这些不可观察的内在状态,又不在记录时就把行为本身改掉”。本节给出一套可立即落地的 AI 使用日志模板 + 四轴编码方案(决策/信任/注意力/筛选),并在结尾正面处理这套系统最危险的副作用:记录会改变被记录的行为(反身性)。这不是 bug,是自我民族志的本质,要被设计进来而不是被假装消除。
[!warning] 接地纪律声明(本节点的认识论底线) 本节点是方法设计,不是对 Rick 内心的描述。凡是可观察的(skill 设计史、vault 结构、本专题工厂的运作)按事实分析;凡是需要 Rick 内省才能知道的(他 review diff 时的具体感受、信任校准的真实阈值、注意力分配的实际权衡),一律留
〔Rick 待填〕结构化模板与引导问题,绝不替他编造。这正是分析式自我民族志(Anderson 2006)要求的 narrative visibility——研究者在文本里必须可见,包括”哪些我还不知道”。
§0 为什么是”日志 + 编码”这个框架,而不是别的
研究”一个人怎么用 AI”,有五种主流方法,各有命门。先把它们摆出来,挡掉读者脑中的默认错误框架。
| 方法 | 抓什么 | 命门(为什么单用不够) | 来源 |
|---|---|---|---|
| Usage Log 行为日志 | token 流、命令、时间戳 | 只记行为,不记意图与情境;日志”噪声大、碎片化、缺语义结构” | OpenRouter State of AI 2025;Human-LLM Interaction Patterns 综述 |
| Diary Study 日记研究 | 自然情境下的体验与感受 | 依赖主观自报,有社会期望偏差;长期高流失率(attrition) | Li et al. 2024(DiaryHelper, arXiv:2404.19738,已 WebFetch 核实) |
| ESM 经验采样 | 随机信号触发的实时状态 | 打断强、负担重;信号触发与事件触发覆盖不同 | Csikszentmihalyi, Larson, Prescott 1977 |
| Think-Aloud 出声思考 | 实时认知路径 | 同步思考是否改变认知过程本身尚无定论;回顾式有 post-hoc 合理化 | Ericsson & Simon 1984 |
| Grounded Theory 编码 | 从原始数据归纳理论 | 需要先有数据;理论饱和判断主观,可复制性低 | Charmaz 2006;Strauss & Corbin |
为什么本节点选”行为日志 + 编码方案”这个组合,而不是纯日记或纯 think-aloud:
- Rick 的场景天然偏行为日志。他不是普通用户——vault 里已经躺着约 40+ 条带日期戳的对话存档(
99Archive/9910 claude 对话存档/,20260412–20260423)、SABCD 评级分类、skill 设计的完整迭代轨迹。一手行为数据已经在自动产生,缺的只是一个把它结构化的编码框架。从零做 ESM 反而是浪费已有资产。 - 但纯行为日志致命地缺三样东西:信任(为什么这次采纳那次否决)、注意力(哪些 diff 被细看哪些被滑过)、筛选标准(S 级和 C 级对话的内在分界)。这三样恰恰需要内省补充。所以方案是行为日志为骨、轻量内省为血——用最小的 think-aloud 注解给行为数据补语义,而不是反过来。
- 编码方案先行,是为了对抗 Grounded Theory 的”理论饱和不可复制”。Charmaz 建构主义路径承认编码框架是研究者与数据共同建构的,但 Rick 作为**完整成员研究者(Complete Member Researcher, Anderson 2006 第一特征)**有不公平优势:他既是被研究者又是设计者,可以先用先验框架(Lee & See 的信任校准、Schemmer 的 AoR)做演绎编码,再用开放编码补先验框架漏掉的本土范畴。这是混合编码(hybrid coding),比纯归纳更适合”已有大量数据 + 已有成熟理论”的局面。
[!note] 框架级辨析的赌注 我赌”行为日志为骨”对 Rick 成立,是因为他的可观察产物密度异常高。这条对普通用户不成立——普通用户没有 skill 迭代史、没有 40+ 条带评级的存档,对他们应该反过来以 ESM/日记为骨。本节点是为这一个极端 power user 定制的,不假装可泛化。这正是自我民族志的边界:n=1,且这个 n 极不典型。
§1 数据底料盘点:Rick 已经在产生的一手观察(可观察,已接地)
在设计模板之前,先确认哪些数据已经存在、无需 Rick 额外记录。这是本方案区别于”从头建日记”的关键——大量编码对象是回溯性的(retrospective coding),可立即编码。
以下均经本专题工厂的资料采集 Read / 文件系统确认存在:
- Skill 设计史(决策轴的金矿):trip-discover / trip-evaluate / trip-macro / trip-structure skill / trip-qa 五件套,2026-03-31~04-01 的”发散-收敛-明确指令-机制核查”四步节奏;trip-structure 的 over-design→被拉回→收敛轨迹(2026-04-03,skill-creator 元 skill 重写);intellectual-lens 的”竞品输出对照”prompt 迭代(2026-04-05)。每一次迭代都是一个可编码的决策事件。
- Memory 治理转型(信任轴 + 筛选轴):blocklist→allowlist 的认知转型(2026-05-13),含反向删除旧记忆条目的行为。见 Claude routines 调研与 memory allowlist 设计。
- 过拟合诊断(信任轴的元层干预):用 ML 框架(过拟合/泛化)对 AI 做两轮元层干预(2026-03-23),干预文本已归档。见 AI 记忆过拟合与泛化能力。
- 知识图谱框架操控(决策轴):两次主动改写 prompt 约束(撤数量上限保完备、把”PM 视角”具体化为场景题),2026-03-05。见 AI PM 知识图谱框架设计、AI PM 知识图谱·总索引。
- 架构塌缩决策(决策轴的元 case):12-agent v1.3 → 主动质疑 over-engineering → 塌缩为 5 sub-agent + 6 skill 的 v1.4(2026-05-21),A/B/C/D 判别框架有文档记录。
- 本专题工厂作为 meta-case(最珍贵的 in-vivo 数据):0412–0423 旅途中 write-first 多 agent 流水线的实时运行——现场触发对话 → 存档 → SABCD 评级 → 升格为笔记,约 40+ 对话、40+ 节点。SABCD pipeline 评级分布已知(
99Archive/_README.md:S:14 / A:103 / B:194 / C:182)。
[!important] 这就是接地的本钱 上面每一条都是 Rick 留下的真实数字痕迹。它们让”信任/注意力/筛选”的编码不必从空白开始——14 条 S 级和 182 条 C 级之间,已经有一条 Rick 真实划过的线。本方案要做的,是给这条线配一把可复用的尺。
§2 AI 使用日志模板(可立即抄用)
设计原则:回溯字段自动可填,内省字段最小化。每条记录的”客观三件套”(时间/工具/任务)应该 30 秒内填完;“主观四轴”用受限词表(controlled vocabulary)打钩而非写散文,把 think-aloud 的负担压到最低,从源头减少反身性污染。
2.1 单次会话日志(Session Log)—— 主表
---
log_id: AISL-20260607-001
date: 2026-06-07
tool: [Claude Code | Claude.ai | Cursor | trip-skill | other]
session_type: [创造 | 诊断 | 调研 | 编码代理 | 田野扩展 | 元设计]
task_oneline: <一句话任务>
duration_min: <粗估,10/30/60 分桶即可>
artifact_link: <产出节点或对话存档,填真实节点名>
---
## 客观(回溯可填)
- 触发情境:<在做什么时调起 AI>
- 轮次数:<大致几轮往返>
- 是否动用 skill:<哪个 / 无>
## 主观四轴(受限词表打钩,不写散文)
- 决策模式:⬜委托执行 ⬜协作共创 ⬜对照参照 ⬜元层干预(改 prompt/memory/架构)
- 信任动作:⬜直接采纳 ⬜核查后采纳 ⬜部分采纳 ⬜整体否决 ⬜要求重做
- 注意力投放:⬜逐行细审 ⬜抽样抽查 ⬜只看结论 ⬜未审即用(自承)
- 筛选去向:⬜升格入库 ⬜暂存 _ai_review ⬜丢弃 ⬜评级(S/A/B/C/D)
## 一行注解(可选,≤20 字)
<这次最值得记一笔的判断点。留空也合法。>
2.2 决策事件日志(Decision Event Log)—— 高价值时刻才填
不是每次会话都填这张,只在发生”格式塔切换”时填:当你做了一个会改变后续所有用法的元层决策(如 allowlist 转型、架构塌缩)。这是 critical incident technique 的用法——只采样关键事件,避免全量记录的疲劳。
## 决策事件
- 触发:<什么让你意识到要改>
- 旧做法 → 新做法:<一行对照>
- 判别依据:<你用什么标准做的判断>
- 〔Rick 待填:这个决策是认知疲劳驱动、架构美感驱动,还是纯效率驱动?〕
§3 四轴编码方案(决策 / 信任 / 注意力 / 筛选)
这是本节点的核心交付物。每一轴给:编码值(受限词表)+ 锚定理论 + 可观察的行为证据 + 必须留给 Rick 内省的空白。轴的设计混合了演绎(先验理论给骨架)与归纳(Rick 本土行为补范畴)。
3.1 决策轴(Decision)——“这次我把 AI 放在什么位置”
| 编码 | 含义 | 可观察行为证据(已存在) |
|---|---|---|
D-委托 | AI 自主执行,我验收结果 | Phase 1 批量 pipeline 处理对话入库 |
D-协作 | 我和 AI 来回共创 | trip 套件四步节奏设计 |
D-对照 | 拿 AI 输出当参照系 | intellectual-lens 的”竞品输出对照”法 |
D-元层 | 我改的是 AI 本身(prompt/memory/架构) | 知识图谱两次改约束、12→5 agent 塌缩 |
锚定理论:Human-LLM 交互的认知轴 Exploration vs Exploitation(Human-LLM Interaction Patterns 综述)。D-对照/D-元层 偏 exploration,D-委托 偏 exploitation。Rick 的可观察特征是 D-元层 异常高频——这是 power user 的标志,普通用户几乎不进入元层。
3.2 信任轴(Trust)——“我给了 AI 多少信任,校准对了吗”
| 编码 | 含义 | 锚定 |
|---|---|---|
T-直采 | 不核查直接用 | 潜在 overtrust 区 |
T-核采 | 核查后采纳 | 校准区 |
T-部采 | 取一部分、改一部分 | 校准区 |
T-否决 | 整体拒绝 | 潜在 undertrust 或 AI 真错 |
T-重做 | 否决并要求重来 | 元层不满 |
锚定理论:信任校准(trust calibration, Lee & See 2004, Human Factors)——信任应与系统实际可靠性匹配,偏高为 overtrust,偏低为 undertrust。关键二阶问题不是”采纳率多少”,而是 AoR(Appropriateness of Reliance, Schemmer et al. 2023, IUI, arXiv:2302.02187):正确采纳率 × 正确拒绝率。也就是说——T-直采了一个对的答案是好校准,T-直采了一个错的答案才是 overreliance。所以信任轴必须配一列”事后回看 AI 这次到底对没对”。
[!warning] 〔Rick 待填:信任校准的本土阈值〕 我无法替你回答下面这些,它们需要你的内省。请用具体会话举例,不要写抽象原则:
- 在 trip-structure skill 或代码 diff 场景,你何时会跳过核查直接采纳?是任务低风险、还是 AI 历史可靠、还是单纯没时间?
- 你有没有过
T-直采后发现 AI 错了的具体一次?那次之后你的核查行为变了吗?- 反向:你
T-否决过一个事后证明 AI 其实对的建议吗?(undertrust 的代价)- 引导问题(对照 Bansal et al. 2021 的反直觉发现:AI 给解释会无条件抬高人类采纳率,不管对错):当 AI 给出”看起来很有道理的解释”时,你是更容易采纳了,还是反而更警惕?
3.3 注意力轴(Attention)——“我把审查火力投到哪里”
| 编码 | 含义 | 锚定 |
|---|---|---|
A-逐行 | 逐行细审 | 高投入 |
A-抽样 | 抽查关键处 | 风险加权 |
A-结论 | 只看结论/摘要 | 低投入 |
A-未审 | 未审即用(自承) | 自动化自满区 |
锚定理论:自动化自满与偏差(automation complacency / bias, Parasuraman & Manzey 2010, Human Factors)——注意力分配不足导致漏检,且训练和指令均无法消除。注意力轴是这个专题与 0418(审阅瓶颈)最硬的接口:Rick 的审阅行为本身就是 0418 主张的一手数据。0418 说”审阅是新瓶颈”,本轴提供的是这个瓶颈在 Rick 身上的实测分布——他的审查火力是均匀的还是高度倾斜的。
[!warning] 〔Rick 待填:注意力的真实分配〕 这一轴最不可观察,最需要你诚实自承(社会期望偏差会让人高报自己的审查严谨度,请警惕):
- 三步 ingestion 里,从
_ai_review沙盒 move 到主区前,你真的逐条审了,还是 S/A 级粗看、只对 C 级或可疑的细看?- 你审 AI 写的散文和审 AI 写的代码/双链,火力一样吗?哪类你更容易
A-结论滑过去?- 引导问题:有没有一类内容你明知该审却系统性地跳过?(这是 0418 审阅瓶颈在你身上最有价值的数据点。)
3.4 筛选轴(Selection)——“我凭什么留下这条、丢掉那条”
| 编码 | 含义 | 可观察证据 |
|---|---|---|
S-升格 | 提炼为入库笔记 | 旅途 40+ 对话→40+ 节点 |
S-暂存 | 留在 _ai_review 待定 | 三步 ingestion 中间态 |
S-丢弃 | 不要 | (日志可补) |
S-评级 | 打 SABCD | pipeline 评级:S:14/A:103/B:194/C:182 |
锚定理论:Grounded Theory 的选择性编码(selective coding, Strauss & Corbin)——围绕核心范畴整合。Rick 的 SABCD 评级行为本身就是一套已在运行的本土编码系统,本轴要做的是逆向工程它的隐式标准。
[!warning] 〔Rick 待填:S 与 C 之间那条线〕 pipeline 给出了 S:14 / C:182 的分布,但这条线的判据只有你知道:
- 14 条 S 级对话,回看有什么共同特征?是判断密度高、是有跨域呼应、还是单纯有可复用产出?
- 你评级时最犹豫的是哪类(B/C 边界)?犹豫点说明你的标准在哪里模糊。
- 引导问题:被你
S-丢弃的对话里,有没有事后觉得”其实不该丢”的?(筛选的假阴性。)
§4 判断主轴:建这套日志时,90% 的人会搞错的 4 个点
⭐ 这是区分”做了个表格”和”做了个能产出洞见的研究工具”的命门。每点带症状 → 为什么会错 → 正确做法 → 真实反例四件套。
错点 1:把日志做成”行为流水账”,以为记得越细越好。
- 症状:每次会话都填满四轴 + 长注解,三天后弃坑。
- 为什么会错:误以为数据量 = 数据价值。日记研究的头号杀手是 attrition(长期高流失),DiaryHelper 论文(Li et al. 2024, arXiv:2404.19738)整篇就是在解决”参与者条目不完整、负担过重”。
- 正确做法:客观字段自动化、主观字段受限词表打钩、决策事件只采样关键时刻(critical incident)。让填日志比不填更省事——比如把 SABCD 评级直接复用为筛选轴,零额外成本。
- 真实反例:本专题工厂的 pipeline 没有让 Rick 逐条手填评级,而是批量处理后给出分布——这才跑得下来 493 条。手填一定崩。
错点 2:用纯归纳编码(Grounded Theory 原教旨),假装自己没有先验框架。
- 症状:坚持”让范畴从数据浮现”,拒绝先用 Lee & See / Schemmer 的理论。
- 为什么会错:Rick 不是中立观察者,他是 CMR(完整成员研究者)。假装没有先验框架是虚假的客观——而且会浪费成熟理论的杠杆。Glaser 派和 Strauss/Corbin 派吵了几十年的就是这个,至今无共识。
- 正确做法:混合编码。先验框架给骨架(演绎),开放编码补本土范畴(归纳)。比如四轴是先验的,但
D-元层这个高频值是从 Rick 行为里归纳补进来的——标准 trust calibration 文献里没有”用户改 AI 本身”这一档,因为他们研究的是普通用户。 - 真实反例:把 12→5 agent 塌缩硬塞进
D-委托/协作/对照任一档都失真,必须新开D-元层。数据逼出了框架的修订,这是对的。
错点 3:只记”采纳率”,不记”AI 这次到底对没对”。
- 症状:日志里有
T-直采 80%,得意于”我和 AI 配合很好”。 - 为什么会错:高采纳率可能是好校准,也可能是 overreliance——区别在 AI 是否真对。Schemmer 的 AoR 双维度(正确采纳 × 正确拒绝)就是为戳破这个幻觉而生。Bansal et al. 2021 更狠:AI 给解释会无条件抬高采纳率,不论对错。
- 正确做法:信任轴必须配”事后回看正误”列,且承认这一列有时无法判定(开放问题没有标准答案)。无法判定时标
T-?而非假装知道。 - 真实反例:旅途中 AI 对历史的回答(如林肯第二次就职演说的神学解读),“采纳”了不等于”对了”——这类需要事后用学术来源核验,不能凭采纳动作就算校准成功。
错点 4:假装记录不影响行为,追求”自然状态”的纯净数据。
- 症状:宣称”我只是客观记录,不干预自己的使用”。
- 为什么会错:这在认识论上是不可能的。详见 §6。记录行为本身是干预,think-aloud 是否改变认知过程(Ericsson & Simon 框架 vs 反应性影响)学界至今无定论。假装纯净是自欺。
- 正确做法:把反身性写进方法论,明确标注哪些数据是”被记录改造过的”,并把这种改造本身当成研究发现。
- 真实反例:见结尾 §9。
§5 产品 PM 视角补盲
跳出”研究方法”视角,补三个 PM 容易看走眼的点:
- 用户心理模型:这套日志若产品化(给所有 Claude Code 用户),最大障碍不是技术而是自我监控的羞耻感——
A-未审即用这个诚实编码值,普通用户不会主动打钩(社会期望偏差)。产品化时必须把”未审”做成无评判的默认态,否则数据全是高报的假数据。 - 商业模式边界:Anthropic 已对百万级 Claude 对话做隐私保护的 NLP 分析(OpenRouter State of AI 2025 同类做法)。厂商侧的 usage log 是行为流,永远拿不到信任/注意力/筛选这三个内在轴——这恰是 Rick 自我民族志的不可替代价值。PM 启示:厂商遥测和用户自报是互补而非替代,谁声称”日志数据就够了”谁就漏掉了一半。
- 合规边界:Rick 的对话存档含 DiDi 工作内容(见记忆:DiDi 材料内部但中等敏感,本地处理可、不主动外broadcast)。这套日志若涉及工作场景编码,必须本地化,不能进任何外部分析管线。自我民族志的关系伦理(Ellis, Adams & Bochner 2011)在这里有产品级对应:编码他人(同事)出现的会话时,需做脱敏。
§6 跨域呼应:Polanyi 默会知识——为什么”信任/注意力”轴注定无法被行为日志穷尽
调度一个跨域资源并具体展开它在本节点的作用。
Polanyi 的核心命题”我们知道的比我们能说出的多”(we know more than we can tell),直接判定了本方案的一个根本边界:信任轴和注意力轴想捕捉的”为什么这次我跳过核查”,本质上是默会判断——Rick 在 review diff 时那个”这看着不对”的瞬间,很可能他自己也无法完全言说。Think-Aloud 文献记录的”理论-实践差距”(实践中研究者必须不停提示参与者”你在想什么”)就是默会知识抵抗言语化的实证表现。
这改变了什么技术判断?它让本方案主动降级了野心:四轴编码不是要”完整提取” Rick 的内在状态(那是不可能的,会沦为编造),而是要在默会判断的外缘留下可观察的指纹——采纳/否决是动作(可观察),动作背后的理由是默会(部分不可说)。所以 §3 每一轴都配 〔Rick 待填〕 而非替他填,正是 Polanyi 命题的工程化:能问的问到边界,问不动的诚实留白。这与 Polanyi 默会知识与提示工程的认识论张力 是同一张认识论地图——那个节点讲的是”提示工程无法把默会的好品味完全编码进 prompt”,本节点讲的是”自我民族志无法把默会的信任判断完全编码进日志”,两者是同一道墙的两面。
[!note] 跨域呼应的赌注 我赌”信任判断有不可言说的默会内核”。反方(强认知主义 / Ericsson & Simon 原教旨)会说:充分的回顾式 think-aloud 加录像回放可以逼近完整提取。我接受这能提升提取率,但坚持存在一个渐近不可达的残差——而且越是 Rick 这种内化极深的 power user,残差越大(专家的判断最默会)。这个赌注可能错;若错,本方案的
〔Rick 待填〕留白会比预期更可填。
§7 与五个既有节点 / 专题的显式升级对照
不复述这些节点的事实基础,只标本节点对它们做了哪种升级(补缺/纠偏/对话/深化)。
| 对照对象 | 旧节点说了什么 | 本节点的升级动作 |
|---|---|---|
| 0414(Claude Code 体感) | Rick 用 Claude Code 的主观体感记录 | 结构化升级:把零散体感升级为四轴可编码数据。体感是 raw,本节点给它编码尺。 |
| 0418(审阅瓶颈) | 审阅是 AI 协作的新瓶颈 | 一手数据供给:注意力轴(§3.3)就是测量这个瓶颈在 Rick 身上的实际分布。0418 提出命题,R01 提供测量这个命题的仪器。 |
| 0422(民族志方法) | 民族志作为方法论 | 操作化升级:把”做民族志”从方法论降到可执行的日志模板 + 编码表。0422 是 why,R01 是 how。 |
| Skill 系统的本质 | Skill 是 procedural knowledge 的文档化封装 | 对话:本节点把 skill 设计史当作决策轴的数据源——Skill 的迭代轨迹 = 可编码的决策事件流。 |
| Polanyi 默会知识与提示工程的认识论张力 | 默会知识抵抗被编码进 prompt | 同构深化:见 §6。同一道认识论墙,从”prompt 编码”那面延伸到”日志编码”这面。 |
§8 PM 决策启示(面试 / 选型 / 复现三类落地)
- 面试:当被问”你怎么知道自己 AI 用得好”,多数候选人答”我用得很多/很熟”。Rick 可以答:我把自己当研究对象,用四轴编码(决策/信任/注意力/筛选)+ AoR 指标做了自我民族志,发现我的 overreliance 真实分布在 X 处——用可证伪的自我测量代替自我吹嘘。这是 AI PM 罕见的元能力证据。
- 选型:评估任何”AI 使用分析”工具(Pendo 式遥测、Anthropic usage log)时,用本节点的”四轴”做检验清单:它能给我决策/信任/注意力/筛选哪几轴?只给行为流的,自动判定”只覆盖 1/4,缺内在三轴”。
- 复现:本节点本身就是复现指南——任何想研究自己 AI 使用的人,照抄 §2 模板 + §3 编码表即可起步。关键是先做”回溯编码”(你已有的对话存档),别从空白日记开始。
§9 结尾:记录会改变行为——反身性不是 bug,是研究对象本身
最后正面处理 brief 要求的核心命题。
一旦 Rick 开始给”信任动作”打钩,他下一次采纳 AI 建议时,头脑里会多一个监控者:“我等下要把这次标成 T-直采 还是 T-核采?“——这个预期本身会让他更倾向于多核查一点(避免给自己打 A-未审 的难堪)。这就是反身性(reflexivity):测量行为改变了被测量的行为。Think-Aloud 的”同步思考是否改变认知过程”之争(Ericsson & Simon 框架 vs 反应性影响,至今无定论)是同一现象在认知层的版本。
主流实证研究把这当污染要消除(追求”自然状态”)。自我民族志反过来把它当成第一性的研究对象。Anderson(2006)的分析式自我民族志五特征里,第二条就是 analytic reflexivity——自觉审视”我作为研究者如何影响研究”不是缺陷披露,是知识来源。Carolyn Ellis 的唤起式传统更直接:研究者的主体性不是偏差,是数据。
所以本方案的最终立场,是把反身性设计进编码方案而非假装消除:
[!important] 反身性的工程化处理(三步)
- 分段标注:日志加一个
观察者效应元字段——自然态(记录前已稳定的旧习惯,如已成肌肉记忆的三步 ingestion)vs被改造态(开始记录后明显因记录而变的行为)。承认后者不纯,但后者本身是发现:“记录让我审得更细了多少”是关于 Rick 注意力可塑性的真数据。- 基线快照:在开始系统记录之前,先用已有的 40+ 条历史存档做一次回溯编码(retrospective),作为”未被观察的基线”。之后的前瞻记录(prospective)与基线的差,就是反身性效应的量级估计。这是本方案唯一能逼近”自然态”的窗口——而它之所以可行,正因为 Rick 的历史数据足够厚。
- 把漂移写成结论:若三个月后发现
A-逐行比例显著上升,不要修正成”我本来就这么认真”,而要写成”记录这件事让我的审阅瓶颈(0418)暂时缓解了 X”——然后追问:停止记录后会回弹吗? 这恰恰是自我民族志能问出、而厂商遥测永远问不出的问题。
一句话收束:这套日志测不出一个”未被打扰的 Rick”,因为打扰从打第一个钩开始就发生了。但它能测出”被自己注视时的 Rick”如何使用 AI——而对一个正在把自己训练成 AI PM 的人,后者才是更有用的那个数据。 诚实地承认”我改变了我所观察的”,是这套方案区别于一份冷冰冰遥测报表的全部尊严所在。
[!warning] 〔Rick 待填:反身性的第一手证据〕 这一段需要你在真正开始记录两周后回填,现在留白:
- 你有没有抓到自己”为了好看而多核查了一次”的具体时刻?
- 开始打钩后,你对 AI 的整体信任是上升了(更自觉)还是下降了(看到自己 overrely 的次数)?
- 引导问题:如果让你猜,停止记录一个月后,你的使用模式会回弹到记录前吗?哪一轴最容易回弹?
关联节点
核心(必读)
- trip-structure skill — 决策轴的一手数据源(skill 迭代史 = 决策事件流)
- Claude routines 调研与 memory allowlist 设计 — 信任轴 + 筛选轴的关键决策事件
- AI 记忆过拟合与泛化能力 — 信任轴的元层干预案例
- AI PM 知识图谱框架设计 — 决策轴的 prompt 改写证据
- Polanyi 默会知识与提示工程的认识论张力 — §6 跨域呼应的同构节点
- Skill 系统的本质 — 决策轴数据源的概念基础
延伸(可选)
- 旅行规划 Skill 套件系统设计 — skill 套件全景,决策轴背景
- AI PM 知识图谱·总索引 — 本专题的图谱归属
- 民族志 / 人类学 — 方法论母体
- 0117社会学 / 0114认识论 — 反身性与默会知识的学科入口
修订日志
- R1 (2026-06-07):首稿。建立四轴编码方案(决策/信任/注意力/筛选)、双层日志模板(Session Log + Decision Event Log)、§6 Polanyi 跨域呼应、§9 反身性工程化三步。所有 Rick 内省点以
〔Rick 待填〕结构化模板 + 引导问题留白,未编造。 - R1-grounding (2026-06-07):事实核验 pass 通过。WebFetch 核实 arXiv:2302.02187(Schemmer et al. 2023, ACM IUI,确证 AoR 双维度框架、N=200)与 arXiv:2404.19738(DiaryHelper, Li et al. 2024, CHI 2024,基于情景记忆理论、12 人两周)。WebSearch 核实 Lee & See 2004(Human Factors 46, pp. 50–80)与 Parasuraman & Manzey 2010(Human Factors 52(3), pp. 381–410,“专家与新手皆有、练习不可消除”确证)。Anderson 2006(Journal of Contemporary Ethnography 35(4),非 Sociological Quarterly)、Bansal et al. 2021 解释抬高无条件采纳、Csikszentmihalyi et al. 1977 ESM 首创,均在资料采集阶段交叉确证。0 处疑似编造。
- 2026-06-11 P3.4 校链:frontmatter 模板
artifact_link的占位符<产出节点或对话存档>去双链改纯文本(占位符从不是真链接目标)。