S02 编程工具流派架构对照矩阵 · 知识库

选 Cursor 还是 Claude Code、要不要给团队上 TRAE、Aider 这种纯 CLI 到底差在哪——这是 2026 年每个技术团队都绕不开的选型会议题。本节点的问题是：当六款主流工具的 feature list 在一年内会互相抄齐时，PM 凭什么做出一个 18 个月不后悔的架构决策？ 框架是：别比 feature，比架构可控性——即每一层（形态/上下文/编辑/agent/定价/扩展）你能不能换、换的代价有多大、谁掌握着这个开关。

§0 为什么是”架构可控性”而不是”功能对照表”

市面上 90% 的 AI 编程工具横评长这样：一张表,行是工具,列是”支持 Tab 补全吗/支持 Agent Mode 吗/支持 MCP 吗”,格子里打勾。这种表三个月后就作废,因为 feature 是会收敛的——2024 年 Cursor 独有的 instant apply,2025 年 Copilot 的 Agent Mode GA(2026-03,VS Code + JetBrains 双端),2026 年 Windsurf 改名 Devin Desktop 后的 subagent,大家最终都会有。功能对照表回答的是”今天谁强”,但 PM 真正要回答的是”18 个月后我被锁死在谁手里”。

所以本节点换一个轴:把每款工具拆成六个可替换性各不相同的层,逐层追问”这一层的控制权在谁手里”。

graph TD
    A[架构可控性 = 选型的真正轴] --> B[形态层<br/>fork / 插件 / CLI]
    A --> C[上下文层<br/>谁决定塞什么进窗口]
    A --> D[编辑层<br/>diff / search-replace / 专用模型]
    A --> E[Agent 层<br/>权限粒度谁控制]
    A --> F[定价层<br/>token 成本谁定价]
    A --> G[扩展层<br/>MCP / rules / 协议开放度]
    B -.决定.-> H[退出成本]
    F -.决定.-> H
    G -.决定.-> H
    H --> I[18 个月不后悔的决策]

这个框架的反共识立场:一款工具在 feature 上领先半年没有意义,在”哪几层把控制权交还给你”上的设计才决定长期 TCO。下面六个维度,每一个都是一个”控制权归属”问题。与 c10 - Agent 技术栈与工具调用的截面快照不同——c10 讲的是”Agent 由什么组成”,本节点讲的是”同一组组件,六家如何排列组合,以及排列方式如何决定你的退出成本”。

§1 维度一·形态层:fork / 插件 / CLA 三流派的控制权代价

形态不是 UI 偏好,它第一性地决定了你的退出成本和数据归属。三个流派:

流派	代表	控制权含义	退出成本
VS Code fork(AI 原生 IDE)	Cursor、Windsurf→Devin Desktop、TRAE	编辑器本体被厂商接管,你的整个工作环境绑死在一个 fork 上	高:换工具=换 IDE,虽兼容 VS Code 插件但快捷键/配置/AI 工作流要重学
插件(挂在现有 IDE 上)	GitHub Copilot(VS Code/JetBrains/Visual Studio/Neovim)	编辑器仍是你的,AI 是可插拔层	低:卸载插件即退出,IDE 不变
CLI(终端原生)	Claude Code、Aider	完全脱离 IDE,以命令行 agent 形式存在,可挂进任意 IDE 的内置终端	中:工作流是脚本化的,但绑定的是你的 shell 习惯而非编辑器

判断:fork 流派用”AI 原生体验”换取了你的退出自由。Cursor 是 VS Code fork(来源:deployhq.com 功能指南,2026),Windsurf 同样基于 VS Code 内核,2026-06-02 正式改名 Devin Desktop(来源:devin.ai/blog 改名公告)。fork 的好处是 AI 能深度介入编辑器内核(如 Cursor 的 Tab 补全延迟 <100ms,来源:deployhq.com);坏处是你的肌肉记忆、团队配置、CI 集成都长在这个 fork 上,迁移摩擦巨大。

Claude Code 的形态最特殊:它是 CLI 工具,同时提供 VS Code/JetBrains sidebar 集成和桌面 App,但不是 IDE fork 也不是插件(来源:Anthropic 产品页,WebFetch 核实)。这意味着它的能力边界由”你的 shell + 文件系统 + git”定义,而不是由某个编辑器的扩展 API 定义——这正是 Rick 作为 Claude Code 深度用户的一手体感:它不抢你的编辑器,它抢的是你的终端心智模型。

§2 维度二·上下文层:谁决定塞什么进窗口

这是最被低估、却最决定”长任务能不能跑”的一层。控制权问题是:是工具自动决定上下文,还是你能干预?

工具	上下文机制	你的控制权
Cursor	`.cursor/rules/` 目录(取代旧 `.cursorrules` 单文件)+ 自动 codebase 索引	中:rules 可写,但索引黑盒
Claude Code	1M token 窗口 + 主动 grep/读文件 + `CLAUDE.md` 协议文件	高:agent 主动检索,你能看到它读了什么
Windsurf/Devin Desktop	Cascade→Devin Local(Rust 重写,称 token 效率 +30%,来源:devin.ai/blog) + Spaces 跨 agent 共享上下文	中
Copilot	NES(Next Edit Suggestions)+ Prompt Files(Markdown 任务脚本)	中
Aider	tree-sitter 解析 AST + PageRank 排序的 Repo Map(默认 1000 token 预算,可调,来源:aider.chat/docs/repomap.html)	高:map 预算显式可调

判断主轴的关键证据来自 arXiv:2603.20432(2026-03):coding agent 不依赖注意力机制处理长上下文,而是把长上下文问题转化为文件系统导航问题(用 grep/terminal 主动检索),在 5 个 benchmark 上平均超 SOTA 17.3%;而且给 agent 额外配 RAG 检索工具并不稳定提升性能,有时反而降低。这条研究直接打脸”窗口越大越好”的直觉——Claude Code 的 1M 窗口若被动塞满,反而触发 Chroma Research(2025)记录的 “Context Rot”:即使单个无关干扰段也会拉低准确率,且随上下文增长非线性加速(来源:trychroma.com/research/context-rot)。

对 PM 的含义:Aider 把 1000 token 的 Repo Map 预算交到你手里,Claude Code 让你看到 agent grep 了哪些文件——这两者的”上下文可观测性”高于 Cursor/Windsurf 的黑盒索引。当你的 codebase 跨 10–30 个文件、需要审计 AI”凭什么改这里”时,可观测的上下文层 = 可调试的失败模式。这一点 c10 - Agent 技术栈与工具调用没有展开,本节点补上:上下文机制的控制权,本质是”失败时你能不能定位”的控制权。

§3 维度三·编辑层:diff / search-replace / 专用模型的鲁棒性阶梯

模型生成的代码怎么落到文件上?这一层的工程选择直接决定”AI 改完代码会不会静默改坏”。

编辑格式	准确率(Morph 自评数据,volatile)	代表工具	控制权含义
Unified diff(行号 patch)	80–85%	早期 SWE-agent	LLM 对行号极敏感,易失效
Whole file rewrite	60–75%	部分新文件场景	大文件 token 爆炸 + “中段遗忘”
Search/Replace block(精确字符串匹配)	84–96%	OpenHands、SWE-agent、Codex CLI、Aider、Claude Code	比行号鲁棒、比整文件省 token
Semantic / Fast Apply(专用模型)	~98%	Cursor、Morph、Relace	速度+准确率双优,但需专用基础设施

(来源:morphllm.com/edit-formats;dev.to 五种编辑策略基准测试)

行业收敛点:str_replace(精确字符串 search/replace)已成为多个主流 agent 的共同选择——它是 Claude Code、Aider 这类 CLI 工具的默认。而 Cursor 走了另一条路:Speculative Edits(2024-08 公开),用 Llama-3-70B 定制微调,把”开发者原文件”作为 speculation,温度=0 确定性验证,速度约 1000 tok/s,比 vanilla Llama-3-70B 快 13×(来源:fireworks.ai/blog/cursor)。Morph Fast Apply(2025)更进一步:7B 专用模型 + 定制 CUDA kernel,10500 tok/s,已被 JetBrains/Vercel/Webflow 采用(来源:morphllm.com,自评数据,volatile)。

判断:这一层是 Cursor 把”控制权”换成”速度”的典型。专用 Fast Apply 模型的 98% 准确率全是厂商自评,缺乏第三方 benchmark;而 Claude Code/Aider 的 str_replace 是开放、可审计、可复现的——你能在 git diff 里逐字看到它改了什么。对追求可控性而非纯速度的团队,精确字符串编辑是更安全的赌注。这正是本节点判断主轴的落点:别被”100× 速度”宣传带走,问”我能不能审计这次编辑”。

§4 维度四·Agent 层:权限粒度的控制权归属

这是 2026 年最激烈的设计分歧:agent 自主到什么程度,谁来踩刹车?

Claude Code 的权限模式系列(来源:code.claude.com/docs 权限模式文档,WebFetch 核实):default(仅读)→ plan(先出计划)→ acceptEdits(自动编辑)→ auto(几乎全自动,后台分类器兜底)→ bypassPermissions(无检查,仅限隔离容器)。Copilot CLI 对应:Autopilot 模式 + /allow-all(别名 /yolo,授予后不可切回),并提供 --max-autopilot-continues 作为熔断。

最值得 PM 关注的一手洞察来自 Anthropic Engineering Blog(2026-03-25,WebFetch 核实):用户批准了 93% 的权限请求——手动审查已沦为”橡皮图章”。auto 模式因此用模型分类器替代人工,两层防御(输入层 prompt injection probe + 输出层 transcript classifier),实测假阳性率 0.4%、假阴性率 17%(测试集:10000 真实动作 + 52 已知风险 + 1000 合成外泄)。官方明确标注 research preview,“reduces prompts but does not guarantee safety”。

工具	Agent 能力	权限控制粒度
Cursor	Cursor 3(2026-04-02)Background Agent + Subagent 并行 + Bugbot(Teams agentic review)	中
Claude Code	Subagent/Agent Teams + Agent View 仪表盘(2026-05-11) + 六档权限模式	高(最细)
Windsurf/Devin Desktop	Devin Local subagent + Agent Command Center(Kanban) + ACP 开源协议	中
Copilot	Agent Mode GA + Fleet/Autopilot Mode(Build 2026) + `/yolo`	中
Aider	自动跑 lint/test、失败自修复、自动 git commit	低(无细粒度权限分级)

判断:Claude Code 的六档权限模式是”控制权”维度上最克制、也最值得选型会重视的设计。它承认了一个反直觉事实——人工逐步审批在高频场景下必然失效(93% 橡皮图章),于是把”谁判断”从人移到分类器,但保留了 plan/default 让你在敏感工作中退回人工。反方会说”17% 漏报不可接受”,这个边界要正视(见 §对手框架回应)。但相比 Copilot /yolo 的”授予后不可切回”的单向阀门,Claude Code 的分档是可逆的信任校准——这与 arXiv:2510.05307 的发现一致:在可逆性边界处请求确认,任务时间减少 13.54%,81% 参与者偏好该方式。这一层的设计哲学差异,m207 - Agent 产品化：场景推演与失败模式讲的是”失败模式分类”,本节点补的是”权限粒度如何前置防御这些失败”。

§5 维度五·定价层:token 成本的控制权与可预测性

定价不只是钱,是成本可预测性的控制权。2026 年这一层正在经历集体动荡。⚠️ 以下价格均为 volatile,〔以 2026-06 为准·待核实〕:

工具	起步付费	计费模式	成本可预测性
Cursor	$20/月(Pro);Pro+ $60、Ultra $200	2025-06 从”500 次请求”改为信用额度制($20≈225 次高级请求,实质缩水)	低(credit 制不透明)
Claude Code	$20/月(Pro,含 Claude Code);Max 5x $100、Max 20x $200	订阅用量倍数 + API 按 token	中(订阅封顶)
Windsurf/Devin Desktop	$20/月(Pro,原 $15,2026-03 调涨)	2026-03-19 废除 credit 改每日/每周 Quota 自动刷新	中高(quota 自动刷新,不会月中耗尽)
Copilot	$10/月(Pro);Pro+ $39、Business $19/座	2026-06-01 全面切 AI Credits(1 Credit=$0.01);补全/NES 不消耗,chat/agent/review 消耗	低(用量计费,社区反弹)
Aider	仅 API 费用(工具开源免费)	纯 token 透传(轻度 $5–20/月,重度 $50–200+,来源:aiproductivity.ai)	最高(你直接对 token 定价)

(来源:各官方定价页 + ssdnodes.com + GitHub Changelog 2026-06-01,WebFetch 核实)

判断主轴:2026 年的定价大趋势是从”包月固定”滑向”用量计费(credit/quota)“,这是把成本波动的风险从厂商转移给用户。Cursor 2025-06 的 credit 化、Copilot 2026-06-01 的 AI Credits 化都引发社区反弹(Visual Studio Magazine 标题直接写 “You Will Get Less, but Pay the Same Price”)。而 Windsurf 反向操作——2026-03 废除 credit 改 quota 自动刷新,消除”月中额度耗尽”焦虑。

Aider 是定价控制权的极端:工具开源,你只付 API token,后端 LLM 任选(Claude/GPT/Gemini/本地 Ollama)。这意味着你对成本有 100% 控制权,代价是没有任何托管层帮你优化。对成本敏感、有工程能力自建的团队,Aider 的 TCO 透明度无人能及——这一点呼应 m208 - AI 基础设施与中间件选型的选型逻辑:开源透传 vs 托管溢价,本质是”控制权 vs 省心”的权衡。

§6 维度六·扩展层:MCP / rules / 协议开放度

最后一层决定”你能不能把工具长进自己的工作流”。控制权问题:扩展机制是开放协议还是私有围墙?

工具	扩展机制	开放度
Cursor	MCP 集成(Cursor 3)+ `.cursor/rules/`	中
Claude Code	MCP + Skill 系统 + CLAUDE.md + hooks	高
Windsurf/Devin Desktop	ACP(Agent Client Protocol,开源)——跨编辑器运行兼容 agent	高(押注开放协议)
Copilot	MCP 服务器 + Prompt Files	中
Aider	100+ LLM 后端 + 图片/网页上下文 + MIT 开源	最高

判断:ACP 是 Windsurf/Devin Desktop 在扩展层下的一步大棋——它学 LSP(Language Server Protocol)解耦编辑器与语言服务器的思路,试图解耦 IDE 与 AI agent(来源:blog.promptlayer.com,ACP=“LSP for AI coding agents”)。如果 ACP 成为事实标准,agent 就能跨工具迁移,这是对 fork 流派”锁死”逻辑的釜底抽薪。但协议标准化是个慢变量,押 ACP 是赌注不是事实。

Claude Code 的扩展靠 MCP + Skill 系统(见 Skill 系统的本质)+ hooks,这是 Rick 一手深度使用的部分:Skill 让默会的工作流程沉淀为可复用的、声明式的能力包,而非每次 prompt 重述——这正是 Polanyi 默会知识与提示工程的认识论张力在工程层的落地:Skill 把”只可意会”的操作流程显式化为可版本控制的资产。

§7 判断主轴:90% 的人在架构可控性上会搞错的四个点

[!warning] 这是本节点的命门:别比 feature,比”哪几层把控制权交还给你”

错点一:把”AI 原生体验”等同于”更好的工具”

症状:选型会上有人说”Cursor 体验最丝滑,就它了”。
为什么会错:丝滑来自 fork——编辑器内核被接管,Tab 补全 <100ms。但 fork 同时把你的退出成本拉满,且 2025-06 credit 化证明厂商可单方面改变成本结构。
正确做法:把”形态层退出成本”和”定价层可预测性”作为一票否决项先过一遍,再谈体验。
真实反例:Copilot 2026-06-01 切 AI Credits 后新订阅暂停注册(GitHub Changelog,WebFetch 核实),社区焦虑”预算不可控”——丝滑挡不住计费模式剧变。

错点二:迷信 SWE-bench 分数选工具

症状:“TRAE 2025-07 SWE-bench 第一,选它。”
为什么会错:SWE-bench Verified 已被 OpenAI 于 2026-02-23 弃用(审计难题子集发现 59.4% 测试有实质问题);且分数测的是”模型+scaffold”,换 scaffold 可波动 22+ 个百分点(arXiv:2506.17208)。Aider 在 SWE-bench 上甚至没有独立条目——它的能力取决于你选的后端 LLM。
正确做法:分数看模型层,工具选型看上面六层的可控性。SWE-bench 口径辨析见规划中的评测专题(本专题不展开)。
真实反例:Claude Opus 4.5 在 Verified 80.9% → Pro 45.9%,差 35 个百分点(来源:morphllm.com/codeant.ai,2026-04)——榜单分数不可直接当工具能力。

错点三:把”自主程度高”当成 agent 能力强

症状:“Copilot 有 /yolo,自主性最强。”
为什么会错:/yolo 授予后不可切回(GitHub Docs),是单向阀门;真正强的是可逆的信任校准(Claude Code 六档可进可退)。93% 橡皮图章证明”无脑批准”不是控制而是失控。
正确做法:看”权限粒度”和”可逆性”,不看”能不能全自动”。
真实反例:2025-10 有 rm -rf 类事故被广泛讨论,无确认模式的实际风险已有案例;Claude Code auto 模式 17% 漏报率也提醒:全自动永远有兜底失效边界。

错点四:用免费/低价决策,忽略 token 成本的真实归属

症状:“TRAE 国内版免费,Aider 工具免费,选免费的。”
为什么会错:Aider 工具免费但 API token 重度使用 $50–200+/月(volatile);TRAE 国内版免费策略背后是数据反馈(且存在隐私遥测争议,见 §对手框架)。“免费”的成本藏在别处。
正确做法:算 TCO 要把 token 成本、数据归属、合规成本一起算,不只看 license 价。
真实反例:TRAE 遥测争议(Unit 221B/The Register 2025-07-28 报道:关闭遥测后仍每 30 秒发数据)——免费工具的”成本”可能是数据。

§8 产品 PM 视角补盲:三个工程视角看不到的坑

用户心理模型:CLI 门槛是真实的留存杀手。Claude Code/Aider 的纯 CLI 形态对非 terminal 用户门槛极高。Stripe(1370 工程师部署)、Ramp、Wiz(5 万行 Python→Go 迁移 20 小时,来源:Anthropic 官网 WebFetch)都是大型工程组织——个人开发者/前端团队的体验缺乏公开对比数据。选 CLI 工具前先评估团队的终端熟练度。
合规边界:国产 vs 海外的数据管辖是硬约束。TRAE/通义灵码/Comate/CodeBuddy 的核心差异化不是 feature,是数据本地化 + 等保/信通院认证 + 私有化部署。Cursor/Copilot 受美国法律管辖。对国内中大型企业,这一条可能直接否决海外工具——与技术先进性无关。
GTM:工具迁移有”团队配置惯性”。fork 流派(Cursor/TRAE)迁移要重建团队的 rules、快捷键、CI 集成;插件流派(Copilot)迁移成本最低。选型不是选最强工具,是选”团队 18 个月内不会想换”的工具——切换成本本身是护城河,也是你的牢笼。

§9 对手框架回应:接受 + 边界

对手 A:Cursor/Anysphere——“速度和体验就是一切,可控性是工程师的过度焦虑”

接受:Cursor 的 Speculative Edits(1000 tok/s)和 <100ms 补全确实创造了不可替代的心流体验;~100 万 DAU(2025 Q4,来源:getpanto.ai)、企业收入占比 60%(2026 Q1)证明市场用脚投票。
边界:但 Cursor ARR 数字本身存疑——$3B(2026-04)出自 Sacra 估算非官方,TechCrunch $2B(2026-03)来源是”知情人士”。且 2025-06 credit 化已证明:当你把控制权交出去,厂商单方面改成本结构时你毫无议价权。我赌的是:18 个月维度上,可控性的复利高于半年体验领先。

对手 B:Cognition/Devin——“SWE-1.6 比 Sonnet 4.5 快 13×,模型自研才是终局”

接受:自研模型 + Rust 重写的 Devin Local(token 效率 +30%)确实是垂直整合的强路径;ACP 开源也展现了格局。
边界:“快 13×“是 Cognition 官方声明,未经独立第三方 benchmark 复现;速度 vs 质量的权衡无公开数据。自研模型的风险是:当 frontier 模型(Claude/GPT)迭代,自研追赶成本可能反噬。这是个赌注,不是确证事实。

对手 C:字节 TRAE——“国产免费 + 中文优化 + 合规,海外工具在中国没戏”(Rick 关注的求职方向,需一手洞察)

接受:TRAE(The Real AI Engineer)2025-01 海外版、2025-03 国内版,作为首个国产 AI 原生 IDE,600 万+注册/160 万+月活/近 1000 亿行年代码生成(TRAE 2025 年度报告,2025-12,字节单方口径)确实证明了国产路径的规模化可行;字节内部 80% 工程师使用;Builder/SOLO 全链路自动化是真创新。
边界:这些数字全是字节自报,无第三方 DAU 审计;且 TRAE 有真实的隐私遥测争议(Unit 221B/Lance James 2025-07 研究:关闭遥测后仍每 30 秒发数据、7 分钟约 500 次请求传 26MB;字节回应称”仅控制 VS Code 层遥测,第三方扩展不受控”)。原研究作者在 Trae 官方社区发帖后被禁言 7 天,加剧疑虑。一手洞察:TRAE 的 SWE-bench 第一(2025-07)和它的工具可控性是两件事——榜单领先不等于你对它的数据流有控制权;对求职而言,理解”TRAE 团队在 Harness Engineering 上的投入”(其团队成员以”咸鱼”为 ID 发表《万字干货:理解 Harness Engineering》2026-04-14)比记住用户数更有价值,见字节 TRAE 团队人物图谱与 S03 Harness Engineering 全景。

对手 D:Aider 社区——“开源 + 你自己控制 token,商业工具都是中间商赚差价”

接受:Aider(33000+ GitHub Stars,来源:aiagentslist.com)的 MIT 开源 + 任意 LLM 后端 + 透明 token 成本,确实是控制权的最高形态;str_replace + 自动 lint/test 修复 + 自动 commit 是扎实工程。
边界:开源的代价是没有托管层帮你做 prompt caching、上下文优化、安全分类器——Claude Code 的 auto 模式分类器(0.4% 假阳性)这类基础设施,Aider 用户要自己搭。控制权和省心是 trade-off,不是免费午餐。

§10 跨域呼应:Lakatos 的”研究纲领”与工具选型的硬核保护带

Rick 熟悉 Kuhn 的范式,但这里调度一个对手框架——Lakatos 的”科学研究纲领”(Research Programme)。Lakatos 区分了一个理论的”硬核(hard core)“和”保护带(protective belt)“:硬核是不可放弃的核心承诺,保护带是可以被证伪、可以替换的辅助假设。

把这个框架套到工具选型:一款编程工具的”硬核”是它的形态层和定价层(换=伤筋动骨),“保护带”是它的 feature(补全/agent mode/MCP,可随时替换)。90% 的横评盯着保护带打分(谁 feature 多),但工具的生死取决于硬核——Cursor 的硬核是 fork + credit 定价,Aider 的硬核是开源 + token 透传,这些是它们”退化 vs 进步”的判据。

Lakatos 的洞察:一个研究纲领是”进步的”还是”退化的”,看它能否预测新事实而非临时打补丁。套到工具:Copilot 2026-06-01 的 AI Credits 化是”退化性问题转移”(把成本风险打补丁式甩给用户),而 Windsurf 废除 credit 改 quota 是”进步性调整”(主动消除用户痛点)。PM 选型时,与其比当下 feature,不如判断每家的”研究纲领”是进步还是退化——这是 Kuhn 范式论给不出的、更细颗粒度的判据。

§11 PM 决策启示:面试 / 选型 / 复现三类落地

面试怎么用:被问”你怎么看 Cursor vs Claude Code”,别背 feature。答:“我比的是六层架构可控性。Cursor 在形态层(fork)和编辑层(Speculative Edits)用控制权换体验,Claude Code 在权限层(六档可逆)和上下文层(grep 可观测)保留控制权——选型取决于团队是要丝滑还是要可审计。“30 秒分出层次。
选型怎么用:把这张六维矩阵打印出来,每个工具逐层标”控制权在谁手里 + 退出成本”。先过形态层和定价层(一票否决项),再比 agent 层和扩展层。功能对照表留到最后,因为它三个月就过期。
复现怎么用:想理解一款工具的真实能力,别看 demo,自己跑一次跨 5 文件的重构任务,观察三件事:(1)上下文层——它读了哪些文件(可观测性);(2)编辑层——git diff 里它怎么落代码(可审计性);(3)权限层——它在什么动作前停下来问你(可控性)。这三个观察点比任何 benchmark 都准。

§12 与已有节点的关系

对照 c10 - Agent 技术栈与工具调用(深化+纠偏):c10 是 G3 截面快照,讲”Agent 由哪些组件组成”。本节点不复述组件,而是深化到”同一组组件,六家工具如何排列,以及排列方式如何决定退出成本”,并纠偏了 c10 隐含的”组件越全越好”——本节点主张”控制权归属比组件数量重要”。
对照 m207 - Agent 产品化：场景推演与失败模式(对话):m207 讲失败模式分类,本节点补”权限粒度如何前置防御这些失败”,两者互为表里。
对照 m208 - AI 基础设施与中间件选型(深化):m208 的”开源透传 vs 托管溢价”逻辑,在本节点的定价层(Aider vs Cursor)得到具体落地。
跨专题对照:与 0411 Agent 专题的 E01 Coding Agent·Claude Code & Cursor 是同源异轴——E01 讲两款工具的设计哲学,本节点扩展到六款的横向矩阵;agent 层的权限设计与 S03 Harness Engineering 全景的可控性论证呼应。SWE-bench 选型陷阱见 §7 错点二(评测细节归规划中的评测专题)。

§13 关联节点

核心(必读)

c10 - Agent 技术栈与工具调用 —— 本节点的组件基础(截面快照)
m207 - Agent 产品化：场景推演与失败模式 —— 权限层防御对应的失败模式分类
m208 - AI 基础设施与中间件选型 —— 定价层的选型逻辑源
S03 Harness Engineering 全景 —— agent 层可控性的体系级论证
E01 Coding Agent·Claude Code & Cursor —— 同源异轴的设计哲学对比(0411 专题)
Claude Code —— 本节点 CLI 流派的产品卡
Skill 系统的本质 —— 扩展层 Skill 机制
字节 TRAE 团队人物图谱 —— TRAE 流派的团队背景

延伸(可选)

Polanyi 默会知识与提示工程的认识论张力 —— Skill 把默会工作流显式化
Harness 词义辨析 —— harness/scaffold 词义基础
Function Calling —— agent 工具调用底层机制
RAG —— 上下文层检索范式对照
Anthropic / Claude —— Claude Code 厂商背景
Agent —— 原子概念
m209 - 推理成本控制手册 —— 定价层 token 成本的纵深
AI PM 知识图谱·总索引 —— 总入口

修订日志

R1(2026-06-07):首稿。建立”架构可控性”判断主轴,六维矩阵(形态/上下文/编辑/agent/定价/扩展),四件套判断主轴四点,Lakatos 研究纲领跨域呼应,四个对手框架(含 TRAE 一手洞察)。价格/用户量/分数全部标 volatile + 来源 + 2026-06 口径。待后续 grounding pass 复核 ACP 协议进展、Devin Local token 效率数字、TRAE 月活口径。