R

README·0412·多视图阅读指南

创建 2026-06-06 更新 2026-06-12 4 条双链 评测 专题 AI 整理

README · 多视图阅读指南

这是 0412 评测系统化专题操作台,不是目录复述。总览(MOC)回答”这个专题为什么存在、由什么组成、对自己有多诚实”;本页只回答一件事——你现在是哪种身份、有多少时间、要拿到什么,应该按什么顺序读、读完怎么自测、上桌怎么扛住反方拷问。 三类人会从这扇门进来:在准备面试的人、在选型会/上线评审上要做决定的人、被一个分数绕晕了想就地拆穿的人。三条路径分别为这三种人铺好。

一句话使用法:先在 §1 三条路径里对号入座选一条走完,再用 §2 的 ≥10 道自测题量一次自己到了哪条线,最后把 §3 反方对话训练当成”上桌前的最后一次陪练”。


§0 怎么用这张地图

这个专题是一张网,不是一条线。20 个节点(19 内容 + 总览)分布在六个模块上,依赖主链是 概念辨析 → 架构剖面 → 实例剖解 → 复现指南代际演化(G01 总图 + G02 逐代详解)横切提供时间维度,A06 Goodhart 作为判断主轴贯穿全专题。你不需要、也不应该从 A01 顺着读到 R03——那是把网读成线,浪费它的结构。

下面三条路径是为三种真实场景预编译好的遍历顺序

路径给谁入口问题一句话产出
A 求职速通准备 AI PM 面试的人”30 秒说清你怎么评估一个 AI 产品”一套能扛追问的评测话术 + 一个能讲 5 分钟的真实案例
B 决策链(M1–M5)在选型会/验收评审上要拍板的人”拿到这个分数,我该不该信、该不该上”按决策链节点逐层质询任何分数的能力
C 紧迫度(红橙黄蓝)时间有限、想按”会被坑的概率”排序的人”我手上的活儿,最先该补哪一块评测知识”按风险敞口排序的阅读队列

[!note] 三条路径不是互斥的 它们是同一张网的三种切法。A 是”为说话准备”,B 是”为决策准备”,C 是”为止血准备”。建议:求职阶段走 A,入职后走 B,遇到具体事故时用 C 定位。三条都把 S01A06 当必经枢纽——前者是承重梁,后者是判断主轴。


§1 三条阅读路径

路径 A:求职速通(面试桌)

给谁:正在准备 AI PM 面试、需要在白板和追问下当场展开的人。 前置:无硬前置。有 c14 的底子更顺,但不读也能进。 总时长:约 2.5–3.5 小时(精读 4 个节点 + 背熟话术骨架)。 产出:30 秒说清”我怎么评估一个 AI 产品”,且被面试官往任何一层追问都能展开;外加一个能讲 5 分钟、有具名证据的真实案例。

步骤读什么时长你要带走的”一句话弹药”
A1A01 概念史与语义流变30–40 min”eval 通过了”有四种互不兼容的所指——先反问”哪一层、什么集、谁评的、带区间吗”
A2S01 分层剖面(★旗舰,最厚)50–70 min评测是六层堆栈(数据集/指标/评判器/流程/归因/治理),被追问任何一层都能展开;事故能定位到具体接口违约
A3A06 Goodhart(判断主轴)25–35 min”任何 eval 被纳入优化目标就开始失效”——评测要当投资组合管理,不是一次性达标
A4E02 SWE-bench30–40 min一个能讲 5 分钟的真实案例:93.9% 的 Verified 分到真实工单只剩四成,落差本身是质量判别器;榜单是政治经济学产物

走完 A 的周节奏(一周冲刺版)

任务自检信号
周一精读 A01,写下”eval 四种所指”卡片能不看笔记复述四种所指及各自的验收含义
周二精读 S01 上半(六层 + 接口契约表)能在白板上默画六层,说出每层的输入输出
周三精读 S01 下半(三个致命耦合点 + 跨域呼应)能说清”为什么换更难的 benchmark 没用”——病在治理层不在数据集层
周四精读 A06,把 Goodhart 接到 S01 的 L2×L6 接口能用一句话把”指标失效”重诊为治理问题而非测量难度
周五精读 E02,整理成 5 分钟案例脚本能脱稿讲完案例,且回答”那你会怎么验收”——业务 holdout
周末用 §2 自测题前 6 题给自己打分;做一次 §3 反方对话陪练自测 ≥4 题到”及格线”以上,反方追问能接住 ≥4 个

每周面试问题(用专题节点回答,自检话术成型度)

  1. “你会怎么评估一个 RAG 产品?”→ 先用 A02 定层(你问的是检索系统还是用户结果),再用 E01 给指标,强调”RAGAS 全绿≠好用”。
  2. “benchmark 分数高就代表模型好吗?”→ 用 A03(饱和+污染+构念效度)+ A06 回答。
  3. “你怎么知道一个评测靠不靠谱?”→ 用 A01 的维特根斯坦”标准 vs 症状” + 构念效度框架。
  4. “上线前的验收标准你怎么定?”→ A08(eval 前置到 PRD)+ S03(CI 回归门禁)。
  5. “如果只能搭一套最简评测,你先搭什么?”→ S01 的 failure scenario:早期只建 L1(数据集)+ L5(归因),别上来铺六层。

路径 B:按 M1–M5 决策链跳转(选型会/在岗)

给谁:手上有真实决策、要在评审桌上拍板”信不信这个分、上不上这个版本”的人。 前置:建议先扫过路径 A 的 A01 + S01(约 1.5h),建立词典层与承重梁;否则跳读时会缺骨架。 总时长非线性,按你当前卡在哪个决策节点对症查阅,单节点 30–50 min。 产出:拿到任何一个分数,都能沿决策链逐层质询、说清”为什么我信/不信、上/不上”。

这条路径按 总索引 的 M1–M5 决策链组织——评测穿过其中五个节点(这正是它配独立建库的中心性证据):

决策链节点你的真实问题主读辅读产出
M1 选型(信哪个分)“三个模型,榜单各有高低,信谁?“A02 对象四层 → S02 流派矩阵G01(这次换靶是进步还是退化)、A03按”任务×约束”选出方法组合,不被单一榜单牵着走
M2 验收(什么算通过)“算法说 eval 过了,能上线吗?“A08 → S03A02(别拿模型 benchmark 当产品验收)、A05一套”哪一层、什么集、谁评的、带区间吗”的验收门禁
M3 迭代(bad case 怎么回灌)“线上出问题了,怎么归因、怎么不再犯?“S03(归因聚类 + eval drift)S01(L5 归因层)、A07把 bad case 变成可回归的评测样本,建腐烂监测
M4 对外宣称(话术红线)“销售要把 SWE-bench 分写进标书,拦不拦?“E02 → E03A06、A01知道每个对外数字”丢了什么”,划出不可宣称的红线
M5 合规举证(安全怎么证)“监管/客户要安全证据,拿什么交?“A07A05(人评是 gold)、S02一套对抗性评测 + 可枚举合规走规则法的举证组合

[!tip] B 路径的通用动作 不管卡在哪个 M,都先做同一件事:用 A02 定层(你评的是模型能力、RAG/Agent 系统、产品体验、还是用户结果?),再用 S01 把分数挂到具体某一层。四层混用、层级错配,是选型/验收事故的根源。


路径 C:按红橙黄蓝紧迫度(复现台/止血)

给谁:时间有限,想按”踩坑概率”而不是”知识完整度”来排序的人。 前置:无。每个紧迫度档位都是自包含的就地止血。 总时长:红档单读约 1–1.5h,全档跑完约同路径 A。 产出:按风险敞口排序的阅读队列——先补最可能让你当场翻车的那块。

含义触发场景先读时长产出
🔴 红·立即不补就会当场出事你正在用一个分数做决定/写进标书/当验收线A01 + A061–1.5h立刻能反问”哪一层、谁评的、被优化过吗”,挡住最常见的滑变事故
🟠 橙·本周近期一定会撞上你要搭/接手一套评测体系S01 + S032–2.5h能把评测当可分层、可定位责任、会腐烂的系统来搭,而非堆指标
🟡 黄·本月会影响判断质量但不致命你在判断某个具体评测系统可不可信对症选 E01 / E02 / E031–1.5h/篇对你天天用的那套评测做构念效度审计
🔵 蓝·有空长期内功,不急但提升上限你想从”会用评测”升到”会造评测”R01 → R02 → R03 + G01 → G024–6h把判断变成可贴 PR 的数字 + 在代际谱系里定位任何新范式(G02 逐代病历卡)

[!warning] 紧迫度不等于重要度 蓝档(复现指南 + 代际谱系)紧迫度最低,但它是把”嘴上会说”变成”手上真做过”的唯一通道——面试里区分”读过”和”搭过”就靠这块。别因为它”不急”就永远不读。红档解决”今天别翻车”,蓝档决定”半年后你的判断上限”。


§2 自测题(每题:及格线 / 优秀线 / 反例)

读完不等于学会。下面 12 道题覆盖六个模块,每题给三条线——及格线(基本判断力到位)、优秀线(能扛追问、带证据)、反例(错答会怎样、会被反方怎么打)。建议:路径 A 走完测前 6 题,全专题读完测全部。自评 ≥9 题到及格线、≥5 题到优秀线,才算这专题”读进去了”。

Q1(A01)“eval 通过了”到底意味着什么?

  • 及格线:能指出”eval”一词有多种所指,不能直接等于”可以上线”。
  • 优秀线:能列出四种互不兼容所指(学界竞赛分提升 / 软件测试通过 / 产品体验达标 / 用户结果改善),并指出说话人与听话人各默认了不同一种、事故发生在缝里;能反问”哪一层、什么集、谁评的、带区间吗”。
  • 反例(错答会怎样):把”eval 过了”直接理解成”可以上线”——这正是 §0 序里销售把 SWE-bench 分写进标书、客户验收只剩四成的同款事故。

Q2(A06)为什么”换一个更难的 benchmark”治不了评测失效?

  • 及格线:能说出 Goodhart——“当指标成为目标即不再是好指标”。
  • 优秀线:能把它从”题不够难”的测量问题,重诊为”指标被纳入优化即失效”的治理问题;能定位到 L2×L6 接口(指标层与治理层的耦合),并引 ICML 2025 ‘Emperor’s New Clothes’(20 种去污染策略无一显著优于不处理)。
  • 反例:回答”那就用最新最难的 benchmark”——把饱和时钟往后拨几个月而已,Goodhart 在治理层、污染在数据集×评判器接口上,换十个 benchmark 也修不掉。

Q3(A02)“模型 benchmark 分高的就是好产品”错在哪?

  • 及格线:能区分”评模型能力”和”评产品体验”不是一回事。
  • 优秀线:能讲清四层(模型 / 系统 / 产品 / 用户结果)及”系统层→结果层不传递”的盲区;能举”拿模型 benchmark 当产品验收”为典型错配事故。
  • 反例:直接拿 MMLU/榜单分给产品上线开绿灯——粗筛尺度相关,但决赛/验收尺度层间相关性会塌。

Q4(A03)静态 benchmark 最致命的三个问题是什么?

  • 及格线:能说出污染(contamination)这一项。
  • 优秀线:能讲饱和(saturation)、数据污染、过拟合 leaderboard 三者,并补构念效度——“高信度可以掩盖低效度”,MMLU 的问题精确表述为”构念效度失败”。
  • 反例:只会说”benchmark 会被刷分”,说不清污染发生在 L1→L4 哪个接口、也分不清污染与过拟合。

Q5(A04)LLM-as-Judge 什么时候不能信?

  • 及格线:能指出它有系统性偏差,不能无条件信。
  • 优秀线:能点名 position / verbosity / self-preference 三种 bias,说清”用 judge 评 judge”的循环风险,并给缓解(顺序交换缓解位置偏差、rubric 化打分、与人工小样本比对)。
  • 反例:“LLM 打分客观高效,可以全量替代人工”——这恰是 §3 反方追问 R2 要打的点。

Q6(A05)“两个标注员都说好”就够了吗?

  • 及格线:知道要看标注一致性,不能只看单人。
  • 优秀线:能讲 IAA、Cohen’s Kappa/Fleiss/Krippendorff alpha,给出可操作熔断信号(如 κ<0.6 停采信),并强调黄金集治理 + 标注指南是前提。
  • 反例:直接平均两人打分当 ground truth,不算 κ——一致性可能只是偶然,黄金集本身不可信。

Q7(S01)请在白板上画出评测体系的分层。

  • 及格线:能画出 3 层以上,区分”数据/指标/流程”。
  • 优秀线:能默画六层(数据集 / 指标 / 评判器 / 流程 / 归因 / 治理),说出每层输入输出 + 至少一个致命耦合点(如 L2 指标×L6 治理 = Goodhart、L1 数据×L4 评判器 = 污染),并标 failure scenario(MVP 别建六层,先 L1+L5)。
  • 反例:把评测说成”就是跑个分”——无法给失真分数做责任定位,事故只能归咎”模型不行”。

Q8(S02)“哪种评测方法最好?”

  • 及格线:能说”看场景,没有绝对最好”。
  • 优秀线:能用六法 × 六维矩阵(规则/参考/语义/LLM-judge/人评/Arena × 成本/可扩展/可靠性/可解释/抗污染/适用对象)回答,并用 MCDA 框架指出”最好的评测法”是病态问题——只有给定约束下最合适的组合。
  • 反例:脱口而出”LLM-as-Judge 最好,又快又便宜”——忽略它把”裁判质量”换成了”裁判泛化”问题。

Q9(E03)Chatbot Arena 排名能直接当选型依据吗?

  • 及格线:知道 Arena 排名有偏差,不能盲信。
  • 优秀线:能讲 Bradley-Terry/Elo、style/length bias 与 style-control 争议,并用社会选择理论(Arrow 不可能定理)说明任何偏好聚合都必然牺牲某条性质(BT 牺牲 IIA,故废弃模型会扰动排名);能补”偏好≠质量”。
  • 反例:“Arena 是真人盲投,最可信”——这正是本专题对 c14 乐观的纠偏点(Arena 自带 WEIRD 样本 / gaming / BT 传递性脆弱)。

Q10(E02)SWE-bench 高分等于工程能力强吗?

  • 及格线:知道榜单分数与真实工程能力有 gap。
  • 优秀线:能讲 SWE-bench / Verified 的设计、污染与 gaming,把”标准化 harness 缺失”重诊为权力问题(谁出题、谁建 harness、谁有数据特权),并知道 OpenAI 2026-02-23 弃用 Verified 的技术理由(59.4% 失败子集有测试缺陷)。
  • 反例:把 93.9% 直接安到自己产品上、或编造”普遍腰斩 48 点”叙事(这正是 §7 砍除清单里被纠正的 confirmation bias——落差因模型而异)。

Q11(G01/G02)评测是不是越测越准、一代更比一代强?

  • 及格线:知道不是简单的线性进步。
  • 优秀线:能用库恩范式更替 + 拉卡托斯纲领退化两把尺(G01 拿框架、G02 拿逐代病历卡与反例),区分这次换靶是进步性(测到新维度)还是退化性(只堵旧漏洞),并指出多数代际更替是退化性的、每一代都配反例。
  • 反例:把六代谱系讲成”能力天梯”线性进步史——这是宪章明令的反模式,会被问”那 perplexity 时代测不到的、现在也测不到的是什么”当场卡住。

Q12(R01/R03)你”亲手”搭过评测吗?

  • 及格线:能描述一个最小评测流程(取样本 / 定指标 / 打分 / 比对人工)。
  • 优秀线:能讲清亲手复现位置偏差(R01:pairwise judge + 顺序交换看分数真会变)、或 τ-bench 风格轨迹评测(R03:step-level + outcome-level,区分”做对的”和”蒙对的”轨迹、silent drift detection)。
  • 反例:只会复述论文百分比、说不出任何一行自己跑过的东西——面试里”读过”和”搭过”就在这里分野。

§3 反方对话训练(评测领域 6 个高频反方追问)

原则(接宪章 §7):用反对的声音陪练,不是用赞同的声音壮胆。 下面 6 个是评测领域最常被甩到 PM 脸上的反方追问。每个给”反方在说什么 + 答题要点(接受+边界,不是反驳)+ 弹药节点”。上桌前把这 6 个过一遍——它们就是会真打你的那些拳。


R1. “benchmark 不都被污染了吗,你还信那个分数?”

  • 反方在说什么:既然训练数据可能包含测试集、leaderboard 又能被过拟合,那任何 benchmark 分数都是注水的,谈评测没意义。
  • 答题要点:
    • 接受:污染是真问题,闭源模型应默认”污染状态不可知”(接 A03);连”换更难的 benchmark”也治不了(ICML 2025 ‘Emperor’s New Clothes’:20 种去污染策略无一显著优于不处理)。
    • 边界:但”分数没用”是过度推论。第一,污染是接口问题(L1 数据×L4 评判器),可以靠私有 holdout / 业务集隔离来缓解,不是无解;第二,承认 Scale AI 的 GSM1K 低落差是事实(前沿模型未普遍过拟合)。
    • 反打:真正该换的不是”信不信分数”,而是”信哪一层的分数”——公开榜做粗筛、私有 holdout 做验收,两层分开(接 A02)。
  • 弹药:A03 + E02 + A06

R2. “LLM-as-judge 不就是 AI 自己给自己打分吗,这能信?”

  • 反方在说什么:用一个模型评另一个模型(甚至评自己),既有自我偏好、又是循环论证,本质是左手评右手。
  • 答题要点:
    • 接受:偏差是真的——position bias、verbosity bias、self-preference bias 都有实证;“用 judge 评 judge”确实有循环风险(接 A04)。
    • 边界:但”不能信”太绝对。第一,偏差可缓解可量化(顺序交换缓解位置偏差、rubric 化打分、与人工小样本比对求一致性);第二,关键是把它放在对的位置——judge 适合大规模初筛、不适合高风险终判,安全/合规仍以人评为 gold(接 S02 / A05)。
    • 反打:根问题不是”AI 评 AI”,而是”用任何单一尺子当唯一裁判”。正确做法是 judge + 人评小样本校准 + κ 熔断(κ<0.6 停采信),把 judge 当传感器不当法官。
  • 弹药:A04 + A05 + R01(亲手复现偏差)

R3. “Arena 排名有 style bias,你还拿它做决策?”

  • 反方在说什么:Chatbot Arena 的真人投票被回答长度、排版、语气这些风格因素带偏,排名反映的是”讨人喜欢”不是”质量”,不能用。
  • 答题要点:
    • 接受:style/length bias 是实证存在的,LMArena 自己上了 style-control 就是承认;更深一层,社会选择理论(Arrow 1951)证明任何偏好聚合都必然牺牲某条合理性质,BT/Elo 牺牲的恰是 IIA——所以废弃模型会扰动排名、几百张票能撬动全局(接 E03)。
    • 边界:但这不是”扔掉 Arena”,而是”知道它测的是什么”。Arena 测的是人类即时偏好,在消费级对话场景里偏好≈产品价值,是有效信号;它失效在高风险场景(即时偏好与长期价值系统性背离)。
    • 反打:用 style-control 后的排名、且只用作”是否进入候选池”的粗筛,不用作终审;终审回到业务 holdout(接 A02)。这也是对 c14”Arena 盲测相对可信”乐观立场的纠偏。
  • 弹药:E03 + A04(偏好≠质量)

R4. “线上 A/B 才是真理,离线评测都是自嗨,你搞这一套有什么用?”

  • 反方在说什么(精益创业 / 持续部署谱系):用户真实行为才是最高效度的信号,离线 benchmark 和黄金集都是闭门造车,不如直接上线跑 A/B。
  • 答题要点:
    • 接受:线上 A/B 确实是最高效度的偏好信号,这点不争(接 S02 对手立场 B)。
    • 边界:但它有三条硬边界把它挡在”唯一答案”之外——① 延迟归因(线上看到掉点时已经伤了用户,且不知道哪一步坏的);② 不可枚举的尾部失败(A/B 测不出低频但致命的 case,比如安全/合规事故);③ 伦理不可逆(有些失败不能拿真实用户当试验品)。离线评测的价值正是在上线拦住这三类。
    • 反打:两者不是替代是接力——离线评测做上线门禁(拦尾部失败),线上 A/B 做上线后校准(修偏好漂移)。S03 讲的就是这条 offline→online 闭环 + eval drift 监测。
  • 弹药:S02 + S03 + A07(不可枚举的尾部 = 对抗性评测的战场)

R5. “你定的这些指标,团队照着优化几个月不就刷上去了?那评测还有意义吗?”

  • 反方在说什么:只要指标公开、又进了 OKR,团队自然会针对指标优化,分数涨了能力没涨,评测自我瓦解。
  • 答题要点:
    • 接受:这正是 Goodhart——指标一旦成为优化目标就开始失效,这不是 bug 是规律(接 A06);甚至 Strathern 的审计社会学说得更狠:问题不在指标难度,在度量与晋升/预算/对外宣称的挂钩本身
    • 边界:但结论不是”评测无意义”,而是”评测要当投资组合管理,不是一次性达标”。具体三招:① 指标轮换/保鲜(把 eval set 当消耗品,定期换血);② 私有 + 一次性集做关键验收(用过即弃,免疫优化压力);③ 指标与激励解耦(评测结果不直接进个人 KPI)。
    • 反打:承认一个 failure scenario——若未来出现”原理上免疫优化压力”的评测机制(私有/一次性/即时销毁),则”生命周期管理”立场要降级,测量难度框架重新占上风。这是我赌的边界。
  • 弹药:A06 + A08 + G01

R6. “Agent 这种多步任务,结果对了不就行了,还分什么过程评测,是不是过度工程?”

  • 反方在说什么:只要 Agent 最后把活干成了(outcome 对),中间怎么走的不重要,搞 step-level 轨迹评测是 PM 没事找事。
  • 答题要点:
    • 接受:outcome-level 是最终标准,结果错了过程再漂亮也没用,这点对(接 R03)。
    • 边界:但”只看结果”会漏两类致命情况——① 蒙对(错误路径偶然得到对的结果,下次就翻车,无法区分”做对的”和”蒙对的”轨迹);② silent drift(结果暂时还对,但工具调用已经开始悄悄退化,结果掉点是滞后信号)。所以要 step-level(工具调用正确性)+ outcome-level 双轨
    • 反打:这不是过度工程,是归因前置——m207 的六类失败模式,只有在轨迹层才能聚类归因;只看结果,bad case 永远复盘不出根因(接 S01 的 L5 归因层)。
  • 弹药:R03 + S01 + m207

[!tip] 反方训练的元规则 这 6 个回答全部遵循同一个工艺:先接受反方对的部分,再用”边界/赌注”划出本专题坚持的地方,最后给一个可操作的”那应该怎么做”。 这比”直接反驳”强,因为面试官/评审甩反方追问,考的从来不是”你能不能赢这场辩论”,而是”你知不知道自己判断的边界在哪”。这也是 SABCD 里 E 维(对手拷问能力)的核心——用反对的声音建造。


§4 关联节点

本专题入口(必经枢纽)

概念辨析(路径 A/C 词典层)

代际演化 / 架构剖面 / 实例剖解 / 复现指南

升级对照 / 对话的既有节点

跨专题 + 方法论 + 总索引


§5 修订日志

  • R0(2026-06-06,综合初稿):基于 总览 与全部 17 个内容节点的节点索引,按宪章 §4/§12 README 规格写成。含 §0 用法说明;§1 三条路径(A 求职速通含一周冲刺周节奏表 + 5 道每周面试问题、B 按 M1–M5 决策链跳转含五节点主读/辅读/产出表、C 红橙黄蓝紧迫度含触发场景/时长/产出表),每条标时长/前置/产出;§2 12 道自测题(覆盖六模块,每题及格线/优秀线/反例三线);§3 评测领域 6 个高频反方追问的对话训练(污染/LLM-as-judge 自评/Arena style bias/线上 A/B 派/Goodhart 刷分/Agent 过程评测),每个走”接受+边界+反打”工艺并挂弹药节点;§4 关联节点(双链密度 ≈40,全部用真实节点名);§5 本日志。待后续轮次:①入库 move 到 final_path 后复检全部专题内双链 resolve;②若 G02 落稿,路径 C 蓝档与 §2 Q11 补 G02 链接;③终轮 grounding pass 复核 §2/§3 引用的具体数字(ICML 2025 ‘Emperor’s New Clothes’、GSM1K、OpenAI 2026-02-23 弃用 Verified、59.4% 失败子集)是否与各节点 R1 接地一致。
  • 2026-06-12 内审修复:G02《评测代际演化详解》已落稿(27477 字节),兑现 R0 待办②③——(1) §0 导语节点计数 18 个节点(17 内容)→20 个节点(19 内容),并把代际演化补成”G01 总图 + G02 逐代详解”;(2) 路径 C 蓝档读链补 G01 → [G02](/kb/专题-评测与度量/g02-评测代际演化详解/);(3) §2 Q11 标题改 G01/G02、答案补 G02 链与”G01 拿框架、G02 拿病历卡反例”分工;(4) §4 关联节点代际演化行补 G02 评测代际演化详解。此前 G02 为全库零入链孤儿,本次补链消灭之。R0 日志内历史”17”按 append-only 保留。