E02 ChatGPT Search 与 Gemini 剖解 · 知识库

本节点要解决的问题是：当大厂（OpenAI、Google）和搜索原生公司（Perplexity）都在做”AI 回答 + 引用”，为什么它们造出来的东西在产品形态上根本不是同一种生物？表面上三者都是”问一个问题，得到一段带引用的答案”，但拆开看，检索在它们的产品架构里占据的本体论位置完全不同——对 Perplexity，检索是本体（产品就是搜索）；对 ChatGPT 和 Gemini，检索是功能（产品是对话助手 / 是搜索引擎，AI 回答是叠加层）。本节用”检索作为功能 vs 检索作为本体”这一判断主轴，剖解三者的检索触发、引用模型、来源策略三个剖面的设计哲学分歧，并把它接到知识产品的可信度设计上。这是病理学切面——不是讲技术怎么实现（那是 c09 - RAG 架构和 m205 - RAG 生产环境：索引运维与评估体系的事），而是讲真实产品的设计选择如何走样、为什么走样、PM 该从中读出什么。

§0 为什么是”本体 vs 功能”这个框架，而不是”谁的引用更准”

读者脑中的默认框架大概率是一张”评测打分表”：把 ChatGPT Search、Gemini、Perplexity 摆在一起，比引用准确率、比答案质量、比速度，谁分高谁赢。这个框架是错的——不是因为评测不重要（见评测系统化专题那套方法论），而是因为它预设了三者在做同一件事，于是把产品差异降维成了性能差异。

真正的分野在更上一层：检索在产品架构里的位置。Perplexity 是 answer-first、search-native 的——产品的存在理由就是”用检索回答问题”，拿掉检索它什么都不是（来源：Perplexity 架构分析，frugaltesting.com，WebFetch 核实）。ChatGPT 是对话生成为主、浏览为辅——它的存在理由是”和你对话、帮你干活”，Search 是 2024 年 11 月才挂上去的一个功能（来源：OpenAI, Introducing ChatGPT Search, 2024-11）。Gemini / Google AI Overviews 则是把 AI 回答缝进一个已经运转了 20 多年的搜索引擎里，AI 是搜索结果页的一个新模块。

这三种”位置”决定了一切下游设计：检索什么时候触发、引用长什么样、来源从哪来、出错了谁背锅。所以本节点不打”谁更准”的擂台（那只是症状），而是问”为什么它们的病灶不同”。一句话定位：Perplexity 的引用错位是它的核心功能在出血；ChatGPT/Gemini 的引用错位是它的附加功能在打补丁。 同样 37% 的失败率，对前者是产品危机，对后者是可接受的功能瑕疵——这就是本体与功能的差别。

§1 检索触发：每次都查 vs 按需才查 vs 永远在查

第一个剖面是”什么时候去检索”。这是三者最早分岔的地方。

维度	Perplexity	ChatGPT Search	Gemini / Google AI Overviews
触发逻辑	每次查询自动实时爬取 + API 摄入	模型按需决定是否调搜索（可手动强制）	嵌在搜索引擎里，查询即检索
默认行为	总是检索	多数对话不检索（靠参数记忆）	总是有有机搜索结果做底座
设计后果	时效性强，但简单问题也付检索成本	省成本，但”该查没查”时幻觉无外部纠偏	AI 与传统排名共用一套检索基础设施

来源：frugaltesting.com（Perplexity）、OpenAI 官方公告（ChatGPT Search）、Whitehat SEO 研究 2025（Gemini AI Overviews 与有机结果重叠度）。

这张表里藏着第一个判断：ChatGPT 的”按需检索”是把 c13 - 幻觉的不可消除性里讲的风险显性化了。 它默认信任参数记忆，只在模型自己判断”该查”时才去查。问题是——模型最不该自信的时候，恰恰是它最自信的时候（校准失配，见 c13）。所以 ChatGPT Search 的失败模式是结构性的：一个本该触发检索的查询，模型误判为”我知道”，于是给出一个流畅、自信、错误且无引用的答案。Perplexity 用”每次都查”在架构层堵死了这条路，代价是为大量本不需要检索的简单问题付了检索成本（这也是它单位经济亏损的一部分原因，见 Perplexity 节点的商业张力分析）。

这就是”本体 vs 功能”在触发层的第一次显形：Perplexity 不敢不查，因为不查它就不是搜索产品了；ChatGPT 敢不查，因为它本来就是个对话助手。

§2 引用模型：内嵌生成流 vs 事后叠加 vs 与排名融合

第二个剖面是”引用怎么生成、长什么样”。这是产品可信度设计的核心战场。

Perplexity：句子级 inline 引用，每条声明旁附编号上标 [1][2]，引用内嵌于生成流程（entity linking + contextual reranking）。平均每条响应 21.87 条引用，95% 的响应含可见来源（来源：Whitehat SEO 研究 2025；DiscoveredLabs 2026）。引用是 UI 的主角，不是脚注。
ChatGPT Search：编号引用置于响应末尾（而非 inline），平均 7.92 条引用/响应，仅 60% 的响应含可见来源（来源：Whitehat SEO 2025）。引用是叠加层——先生成答案，再把来源贴上去。
Gemini / Google AI Overviews：段落级引用（而非句子级），视觉上与有机搜索结果整合，54% 的 AI Overview 引用与 top-20 有机结果重叠，78% 的特色来源含文字+图片+结构化数据（来源：Whitehat SEO 2025）。引用与传统搜索排名融合，借力 Google 知识图谱做语义增强。

这里的判断主轴在引用的粒度上：Perplexity 的句子级 inline 引用，是把”可溯源到具体声明”作为产品承诺；ChatGPT 的末尾引用，是把”答案优先、来源备查”作为产品承诺；Gemini 的段落级引用，是把”AI 回答嫁接到既有搜索信任”作为产品承诺。

[!note] 数量 ≠ 质量的陷阱 Perplexity 引用最多（21.87 条），但 Tow Center 2025 年 3 月研究测试 8 个 AI 搜索引擎、200 条新闻查询发现：超过 60% 的查询返回不正确引用，Perplexity 失败率”最低”也有 37%，Grok-3 Search 高达 94%（来源：Columbia Journalism Review / Tow Center，经 Nieman Lab 报道 2025-03）。更早的 Liu et al.（EMNLP 2023，arXiv:2304.09848）已发现：仅 51.5% 的生成句子完全被引用支撑，斯坦福 HAI 称这些系统具有”虚假可信度的表象”（facade of trustworthiness）。引用数量是产品诚意的信号，但绝不是准确性的代理指标。 PM 若把”引用条数”做成 KPI，会直接造出认知噪音工厂。

§3 来源策略：自有索引 vs 第三方+合作 vs 自家排名

第三个剖面是”来源从哪来”，这暴露了三者最底层的资产差异。

维度	Perplexity	ChatGPT Search	Gemini / AI Overviews
底层检索	自有爬虫 + 信任 API（200B+ URLs）	第三方引擎（含 Bing）+ 出版商合作	自家 Google 索引 + 知识图谱
来源偏好	Reddit 占引用 46.7%（约 Wikipedia 两倍），30 天内内容引用率 82%	Wikipedia 最高频（7.8%），优先 top-tier 权威源（76–81%）	与自家有机排名高度重叠（54%）
跨平台共享域名	与 ChatGPT 仅 11% 重叠——证明检索架构根本不同	同左	与有机搜索结果融合

来源：DiscoveredLabs 2026（Reddit 偏置、新鲜度偏置）、Whitehat SEO 2025（跨平台域名重叠 11%、ChatGPT 权威源偏好）。

这张表里最锋利的一条数字是 11%：Perplexity 与 ChatGPT 引用的域名只有 11% 重叠。这不是调参差异，这是两套根本不同的检索本体——一个靠自有索引 + Reddit 强新鲜度偏置（赌”真实用户经验 > 权威页面”），一个靠第三方 + Wikipedia/权威源（赌”权威 > 鲜活”）。Gemini 则走第三条路：它不需要新建检索资产，因为它就是那个资产——把 AI 回答缝进自己运转 20 年的索引和知识图谱。

这就是本体与功能在资产层的终极差异：Perplexity 必须自建索引（这是它最重的成本，也是它的护城河）；ChatGPT 借别人的索引（它的核心资产是模型，不是检索）；Gemini 复用自己的索引（它的核心资产本来就是检索，AI 只是新皮肤）。

§4 判断主轴 — 90% 的人会在这四个点上搞错”功能 vs 本体”

这是本节点的命门。剖解真实产品时，最常见的四个认知错位：

错位一：把”引用准确率”当成产品好坏的总分。

症状：拿 Tow Center 那张表，得出”Perplexity 37% 最准所以最好，Gemini 引用少所以差”。
为什么会错：忽略了三者的产品目标不同。Perplexity 把检索当本体，37% 失败率是它的核心功能在出血，是生死线；ChatGPT 把检索当功能，引用瑕疵是可接受的附加成本，因为它的主战场是对话生产力，不是”做最准的搜索”。同一个数字对两个产品的杀伤力完全不同。
正确做法：先问”检索在这个产品里是本体还是功能”，再决定引用准确率的权重。
真实反例：JMIR 2024（e53164，Chelli et al.）在医学系统综述任务里测得参考文献幻觉率：Bard 高达 91.4%、GPT-3.5 39.6%、GPT-4 28.6%（该研究对象为 ChatGPT 与 Bard）——看起来灾难性。但这是特殊任务（系统综述的参考文献核验），不是通用搜索场景，直接泛化到”某模型搜索很差”是测量语境错误。

错位二：以为”引用越多 = 越可信”。

症状：照搬 Perplexity 的”句子级 21.87 条引用”做自家产品的标杆。
为什么会错：引用是认知负担。arXiv 2601.14611（He & Liu, Seeing to Think?, 2026）实验对比四种引用界面（Collapsible / Hover Card / Footer / Aligned Sidebar）发现核心矛盾是”流畅性 vs 强制反思验证”——过度引用并不增加信任，反而可能制造认知噪音。
正确做法：把引用密度当成与任务匹配的设计变量，不是越多越好的 KPI。
真实反例：Granola（会议笔记）用”原文片段悬停预览”而非堆砌编号；Copy.ai 用”末尾列全部 URL”优先透明度——不同任务用不同引用粒度（来源：ShapeofAI.com 引用 UX 模式库）。

错位三：以为大厂”按需检索”是更聪明的省钱设计。

症状：认为 ChatGPT”模型自己判断要不要查”比 Perplexity”每次都查”更先进。
为什么会错：按需检索把幻觉风险从架构层下放到了模型判断层，而模型的判断恰恰在它该谦虚时最自信（c13 - 幻觉的不可消除性的校准失配）。这是省成本，但用可信度做了抵押。
正确做法：理解这是成本-可信度的权衡，不是单纯的技术先进性。对消费搜索（用户来就为找答案），Perplexity 的”每次都查”是对的；对生产力对话（多数轮次不需检索），ChatGPT 的”按需”是对的。
真实反例：ChatGPT 不开 Search 模式时，对训练截止日之后的事件会给出自信的过期答案——这正是”按需”的代价。

错位四：把 Gemini 的”引用少”误读为偷懒，忽略了它的融合策略。

症状：抱怨 Gemini AI Overviews 引用稀疏、不如 Perplexity 透明。
为什么会错：Gemini 的设计目标不是”做一个独立的答案引擎”，而是”在不破坏既有搜索体验的前提下，加一层 AI 摘要”。它的引用与有机排名融合（54% 重叠）是刻意的——既给 AI 答案，又把流量导回传统结果（缓和 zero-click 对出版商的冲击）。
正确做法：理解 Gemini 在”AI 答案”和”既有搜索生态/出版商关系”之间做的是政治平衡，不是技术取舍。
真实反例：Google 在 AI Overviews 上的克制（段落级而非句子级、与有机结果整合），部分是为了避免重蹈”AI 抢走出版商流量”的舆论危机——这是商业-合规约束，不是能力不足。

§5 产品 PM 视角补盲：用户心理、商业模式、合规三个看走眼点

跳出工程视角，三个容易被技术 PM 漏掉的点：

用户心理模型的错配。 Perplexity 用户来的时候预期就是搜索，所以它的句子级引用是”满足验证需求”；ChatGPT 用户来的时候预期是助手对话，末尾引用足够，强行 inline 反而打断流畅感。同一个引用设计，移植到错误的用户心理模型上就是灾难。“借鉴 Perplexity 的引用”前先问：我的用户是带着”搜索者心态”还是”对话者心态”来的？
商业模式决定检索强度。 Perplexity”每次都查”导致搜索 + LLM 双成本，毛利低、单位经济亏损（见 Perplexity 节点）。ChatGPT”按需查”省了大量检索成本，因为它的主营收是订阅 + API，搜索不是利润中心。检索触发策略不是纯技术决策，是被商业模式倒逼的。 一个 PM 若不算检索的边际成本就照抄”每次都查”，会把毛利做穿。
合规与出版商关系。 zero-click 搜索增长下，“AI 引用但用户不点击”会切断信息验证链，也切断出版商的流量收入——这是 2025–2026 持续的行业争议（来源：aiopsschool.com 2026）。Gemini 的”与有机结果融合”是对这个矛盾的产品级回应。做知识产品时，引用设计不只是 UX，是与内容方的利益分配协议。

§6 对手框架回应 — 接受 + 边界

业界对手立场一：“大厂迟早碾压 Perplexity——检索是功能，OpenAI/Google 把它做进自己的护城河产品里，Perplexity 这种单点产品没有未来。”

接受的部分：这个判断有真实依据。Gemini 复用 Google 20 年的索引和知识图谱，ChatGPT 复用 GPT 的对话黏性和数亿用户，分发和资产都碾压 Perplexity；Perplexity 自建索引成本极高、单位经济亏损，确实脆弱。

坚持的边界与赌注：但”检索作为本体”恰恰是 Perplexity 在做、而大厂结构上做不彻底的事。 大厂的检索永远要服从更大的产品目标——ChatGPT 不能为了搜索准确率牺牲对话流畅，Gemini 不能为了 AI 答案牺牲出版商关系和有机流量。Perplexity 没有这些包袱，它可以把”每次都查、句子级引用、追问推荐”做到极致。本专题赌的是：在”专业、严肃、需要逐句溯源的知识检索”这个细分场景，本体化产品仍有结构性优势——直到大厂愿意为这个场景单独建一个不受主产品约束的子产品（如 OpenAI/Perplexity 各自的 Deep Research，已经是这个方向）。这个赌注的失效场景见下。

业界对手立场二（引入 Rick 未读的对手框架——出版商 / 媒体经济学视角，如 Tow Center / Press Gazette 一派）：“AI 搜索的真问题不是技术准确率，而是它系统性地把价值从内容创造者转移给了答案聚合者——这是一种新的’圈地’。”

接受的部分：这个批判击中了三个产品共同的盲区。Tow Center 研究和学术出版污染数据（Lancet 2026：每 277 篇 PubMed 论文有 1 篇含幻觉引用，较 2023 年增长 12 倍）都指向同一件事——AI 引用正在制造一个”看起来有溯源、实际溯源链断裂”的信息生态。从内容经济学看，三个产品都在消费别人生产的内容、却把用户留在自己界面。

坚持的边界：但这不改变”本体 vs 功能”的产品判断，反而强化它——正因为 Perplexity 把检索当本体，它对出版商的依赖最深、争议最大（版权抓取诉讼）；正因为 Gemini 把 AI 当搜索的新皮肤，它最有动机用”融合有机结果”来缓和这个矛盾。这个对手框架不推翻本节的分类，而是给每一类标出了它的伦理代价。 这正是本专题需要的：用反对的声音逼出每个设计选择背后的权力转移。

§7 跨域呼应 — 麦克卢汉”媒介即讯息”与检索的本体论位置

调度一个跨域资源：麦克卢汉（Marshall McLuhan）的”媒介即讯息”（the medium is the message）。

麦氏的核心洞见是：一个媒介真正改变社会的，不是它传递的内容，而是它作为媒介本身的结构——它如何组织感知、如何重排人际尺度。把这个框架对准本节的技术问题，立刻改变判断：我们一直在比”三个产品的答案内容谁更准”，但麦克卢汉提醒，真正决定它们是什么的，是检索在产品中的结构位置，而不是它吐出的答案。

具体改变了什么判断：Perplexity 把检索当本体，意味着它的”讯息”是”世界是可被即时检索回答的”——它训练用户期待”一切问题都有一个带引用的即时答案”，这种感知重排本身就是产品的真正影响，远超任何单条答案的准确率。ChatGPT 把检索当功能，它的”讯息”是”AI 是个会聊天的助手，偶尔会查资料”——用户对它的信任建立在对话关系上，不在检索精度上。Gemini 把 AI 当搜索新皮肤，它的”讯息”是”搜索还是那个搜索，只是上面多了层摘要”——它刻意不重排用户的搜索心智。

这就是为什么”谁的引用更准”是个浅问题：三个产品在重塑的是三种不同的”人与知识的关系结构”，准确率只是这个结构里的一个参数。一个知识产品 PM 若只盯着准确率，就是麦克卢汉说的”只看内容、看不见媒介”。链入 0117社会学。

§8 PM 决策启示

面试怎么用：被问”如何评价 ChatGPT Search / Perplexity / Gemini 的搜索”，不要背评测分数。先抛出”检索作为功能 vs 作为本体”的框架，再用”触发 / 引用 / 来源”三剖面 + 11% 域名重叠 + 37% 失败率落地，最后用麦克卢汉收口”它们重塑的是三种人-知识关系”。30 秒展示出”我看到的是产品结构，不是 feature list”。
选型怎么用：给团队做”AI 搜索能力”集成选型时，先定位”我的产品里检索是本体还是功能”。是本体（产品就是答案引擎）→ 参考 Perplexity 的每次都查 + 句子级引用，但要算清检索的边际成本和毛利。是功能（AI 是助手的一项能力）→ 参考 ChatGPT 的按需检索 + 末尾引用，把成本和流畅感放在准确率之前。
复现怎么用：做自家 RAG 产品的引用 UX 时，别默认抄”引用越多越好”。按 arXiv 2601.14611 的发现，先确定任务是”需要流畅”（用 Hover Card）还是”需要强制验证”（用 Aligned Sidebar），再定引用粒度。引用密度是设计变量，不是 KPI。

§9 与已有节点的关系

对照 Perplexity（entity）：本节点做了深化与对话。Perplexity 节点把它讲成”RAG → C 端产品的教科书案例”，本节点把它放回与大厂的三方对照里，回答”为什么大厂做不出一样的东西”——补了”本体 vs 功能”这个 Perplexity 单节点没有的对照维度。不复述 Perplexity 的 SKU 层次和商业张力（那是 Perplexity 节点的事）。
对照 c13 - 幻觉的不可消除性（concept）：本节点是 c13 理论的产品层实证。c13 讲幻觉是架构性的、引用幻觉是五类之一、校准失配；本节点用 ChatGPT”按需检索”和 Tow Center 37% 失败率，把 c13 的抽象判断落到三个真实产品的设计选择上。不复述 c13 的 Softmax / RLHF 对齐税机制。
对照 c09 - RAG 架构 / m205 - RAG 生产环境：索引运维与评估体系（技术/工程层）：本节点是这两个节点的视角升高。c09/m205 讲 RAG 怎么实现、怎么运维评估（Reranker、RAGAS 四指标、混合检索）；本节点讲”同样的 RAG 技术，被三家公司放在不同的产品本体位置，长成了三种产品”。技术细节直接双链引用，不重述。

§10 关联节点

核心（必读）

Perplexity — 本节点的第三方参照基线，“检索作为本体”的样板
ChatGPT — 本节点剖解对象之一，“检索作为功能”的代表
Gemini — 本节点剖解对象之一，“AI 作为搜索新皮肤”的代表
c13 - 幻觉的不可消除性 — 引用幻觉与校准失配的理论基础
c09 - RAG 架构 — 三者共享的底层检索技术
E01 Perplexity 剖解·引用前置模式 — 同模块姊妹节点，单独深剖 Perplexity 设计哲学
A02 检索去向决策·search KG parametric RAG — 本节点的概念上位框架

延伸（可选）

m205 - RAG 生产环境：索引运维与评估体系 — 检索质量的工程评估视角
m203 - RAG 生产环境：Embedding 与文档解析 — 来源摄入的技术底层
m204 - RAG 生产环境：Chunking 与范式演进 — 引用粒度的技术约束
c14 - 模型评估体系与 Goodhart 陷阱 — “引用条数当 KPI”的 Goodhart 化风险
A04 Grounding 与 Hallucination 产品策略 — 引用/溯源作为信任设计的产品方法
A03 Citation 与 Attribution 产品设计 — 引用 UX 模式的专门节点
OpenAI / Anthropic — 检索产品背后的公司战略
0117社会学 — 麦克卢汉媒介理论的入口
AI PM 知识图谱·总索引 — 全库导航入口

修订日志

2026-06-12 内审·arXiv 联网核实：清了 1 个（存疑 0）。WebFetch 确证 arXiv:2601.14611 = He & Liu, Seeing to Think? How Source Transparency Design Shapes Interactive Information Seeking and Evaluation in Conversational AI, 2026（提交 2026-01-21）存在且主题吻合；订正正文错位二旧写年份”2025”→“2026”并补作者/标题；arXiv 存在性〔已核实(2026-06-12)〕，仍为预印本、同行评审状态未定的限定保留。
2026-06-11 P0 收口：将 R0 日志里”待 grounding pass 复核 JMIR 76% 数据”的过期待办标为”✅ 已解决”——正文 JMIR 反例旧捏造值早已订正为真值（依据：正文 §「真实反例」已无 76%/20%，A04/R01/R03 同步订正日志）；arXiv 2601.14611 arXiv 存在性已于 2026-06-12 内审 WebFetch 确证，唯同行评审状态未定。
R0（2026-06-07）：首稿。建立”检索作为功能 vs 本体”判断主轴；三剖面（触发/引用/来源）对照表；四点判断主轴四件套；接入麦克卢汉媒介理论与出版商经济学对手框架；与 Perplexity/c13/c09/m205 升级对照。接地证据均来自简报核实材料（Tow Center 2025-03、Whitehat SEO 2025、DiscoveredLabs 2026、JMIR 2024 e53164、Liu et al. EMNLP 2023 arXiv:2304.09848、arXiv 2601.14611、OpenAI 2024-11、frugaltesting.com）。待 grounding pass 复核：~~JMIR 76% 数据的任务语境标注~~（✅ 已解决（2026-06-11）：旧”76%“系捏造值，正文已订正为 Chelli et al. 2024 真值 Bard 91.4%/GPT-3.5 39.6%/GPT-4 28.6%）、arXiv 2601.14611 arXiv 存在性〔已核实(2026-06-12)〕，仅同行评审状态未定。