E02 ChatGPT Search 与 Gemini 剖解
本节点要解决的问题是:当大厂(OpenAI、Google)和搜索原生公司(Perplexity)都在做”AI 回答 + 引用”,为什么它们造出来的东西在产品形态上根本不是同一种生物?表面上三者都是”问一个问题,得到一段带引用的答案”,但拆开看,检索在它们的产品架构里占据的本体论位置完全不同——对 Perplexity,检索是本体(产品就是搜索);对 ChatGPT 和 Gemini,检索是功能(产品是对话助手 / 是搜索引擎,AI 回答是叠加层)。本节用”检索作为功能 vs 检索作为本体”这一判断主轴,剖解三者的检索触发、引用模型、来源策略三个剖面的设计哲学分歧,并把它接到知识产品的可信度设计上。这是病理学切面——不是讲技术怎么实现(那是 c09 - RAG 架构 和 m205 - RAG 生产环境:索引运维与评估体系 的事),而是讲真实产品的设计选择如何走样、为什么走样、PM 该从中读出什么。
§0 为什么是”本体 vs 功能”这个框架,而不是”谁的引用更准”
读者脑中的默认框架大概率是一张”评测打分表”:把 ChatGPT Search、Gemini、Perplexity 摆在一起,比引用准确率、比答案质量、比速度,谁分高谁赢。这个框架是错的——不是因为评测不重要(见 评测系统化专题 那套方法论),而是因为它预设了三者在做同一件事,于是把产品差异降维成了性能差异。
真正的分野在更上一层:检索在产品架构里的位置。Perplexity 是 answer-first、search-native 的——产品的存在理由就是”用检索回答问题”,拿掉检索它什么都不是(来源:Perplexity 架构分析,frugaltesting.com,WebFetch 核实)。ChatGPT 是对话生成为主、浏览为辅——它的存在理由是”和你对话、帮你干活”,Search 是 2024 年 11 月才挂上去的一个功能(来源:OpenAI, Introducing ChatGPT Search, 2024-11)。Gemini / Google AI Overviews 则是把 AI 回答缝进一个已经运转了 20 多年的搜索引擎里,AI 是搜索结果页的一个新模块。
这三种”位置”决定了一切下游设计:检索什么时候触发、引用长什么样、来源从哪来、出错了谁背锅。所以本节点不打”谁更准”的擂台(那只是症状),而是问”为什么它们的病灶不同”。一句话定位:Perplexity 的引用错位是它的核心功能在出血;ChatGPT/Gemini 的引用错位是它的附加功能在打补丁。 同样 37% 的失败率,对前者是产品危机,对后者是可接受的功能瑕疵——这就是本体与功能的差别。
§1 检索触发:每次都查 vs 按需才查 vs 永远在查
第一个剖面是”什么时候去检索”。这是三者最早分岔的地方。
| 维度 | Perplexity | ChatGPT Search | Gemini / Google AI Overviews |
|---|---|---|---|
| 触发逻辑 | 每次查询自动实时爬取 + API 摄入 | 模型按需决定是否调搜索(可手动强制) | 嵌在搜索引擎里,查询即检索 |
| 默认行为 | 总是检索 | 多数对话不检索(靠参数记忆) | 总是有有机搜索结果做底座 |
| 设计后果 | 时效性强,但简单问题也付检索成本 | 省成本,但”该查没查”时幻觉无外部纠偏 | AI 与传统排名共用一套检索基础设施 |
来源:frugaltesting.com(Perplexity)、OpenAI 官方公告(ChatGPT Search)、Whitehat SEO 研究 2025(Gemini AI Overviews 与有机结果重叠度)。
这张表里藏着第一个判断:ChatGPT 的”按需检索”是把 c13 - 幻觉的不可消除性 里讲的风险显性化了。 它默认信任参数记忆,只在模型自己判断”该查”时才去查。问题是——模型最不该自信的时候,恰恰是它最自信的时候(校准失配,见 c13)。所以 ChatGPT Search 的失败模式是结构性的:一个本该触发检索的查询,模型误判为”我知道”,于是给出一个流畅、自信、错误且无引用的答案。Perplexity 用”每次都查”在架构层堵死了这条路,代价是为大量本不需要检索的简单问题付了检索成本(这也是它单位经济亏损的一部分原因,见 Perplexity 节点的商业张力分析)。
这就是”本体 vs 功能”在触发层的第一次显形:Perplexity 不敢不查,因为不查它就不是搜索产品了;ChatGPT 敢不查,因为它本来就是个对话助手。
§2 引用模型:内嵌生成流 vs 事后叠加 vs 与排名融合
第二个剖面是”引用怎么生成、长什么样”。这是产品可信度设计的核心战场。
- Perplexity:句子级 inline 引用,每条声明旁附编号上标
[1][2],引用内嵌于生成流程(entity linking + contextual reranking)。平均每条响应 21.87 条引用,95% 的响应含可见来源(来源:Whitehat SEO 研究 2025;DiscoveredLabs 2026)。引用是 UI 的主角,不是脚注。 - ChatGPT Search:编号引用置于响应末尾(而非 inline),平均 7.92 条引用/响应,仅 60% 的响应含可见来源(来源:Whitehat SEO 2025)。引用是叠加层——先生成答案,再把来源贴上去。
- Gemini / Google AI Overviews:段落级引用(而非句子级),视觉上与有机搜索结果整合,54% 的 AI Overview 引用与 top-20 有机结果重叠,78% 的特色来源含文字+图片+结构化数据(来源:Whitehat SEO 2025)。引用与传统搜索排名融合,借力 Google 知识图谱做语义增强。
这里的判断主轴在引用的粒度上:Perplexity 的句子级 inline 引用,是把”可溯源到具体声明”作为产品承诺;ChatGPT 的末尾引用,是把”答案优先、来源备查”作为产品承诺;Gemini 的段落级引用,是把”AI 回答嫁接到既有搜索信任”作为产品承诺。
[!note] 数量 ≠ 质量的陷阱 Perplexity 引用最多(21.87 条),但 Tow Center 2025 年 3 月研究测试 8 个 AI 搜索引擎、200 条新闻查询发现:超过 60% 的查询返回不正确引用,Perplexity 失败率”最低”也有 37%,Grok-3 Search 高达 94%(来源:Columbia Journalism Review / Tow Center,经 Nieman Lab 报道 2025-03)。更早的 Liu et al.(EMNLP 2023,arXiv:2304.09848)已发现:仅 51.5% 的生成句子完全被引用支撑,斯坦福 HAI 称这些系统具有”虚假可信度的表象”(facade of trustworthiness)。引用数量是产品诚意的信号,但绝不是准确性的代理指标。 PM 若把”引用条数”做成 KPI,会直接造出认知噪音工厂。
§3 来源策略:自有索引 vs 第三方+合作 vs 自家排名
第三个剖面是”来源从哪来”,这暴露了三者最底层的资产差异。
| 维度 | Perplexity | ChatGPT Search | Gemini / AI Overviews |
|---|---|---|---|
| 底层检索 | 自有爬虫 + 信任 API(200B+ URLs) | 第三方引擎(含 Bing)+ 出版商合作 | 自家 Google 索引 + 知识图谱 |
| 来源偏好 | Reddit 占引用 46.7%(约 Wikipedia 两倍),30 天内内容引用率 82% | Wikipedia 最高频(7.8%),优先 top-tier 权威源(76–81%) | 与自家有机排名高度重叠(54%) |
| 跨平台共享域名 | 与 ChatGPT 仅 11% 重叠——证明检索架构根本不同 | 同左 | 与有机搜索结果融合 |
来源:DiscoveredLabs 2026(Reddit 偏置、新鲜度偏置)、Whitehat SEO 2025(跨平台域名重叠 11%、ChatGPT 权威源偏好)。
这张表里最锋利的一条数字是 11%:Perplexity 与 ChatGPT 引用的域名只有 11% 重叠。这不是调参差异,这是两套根本不同的检索本体——一个靠自有索引 + Reddit 强新鲜度偏置(赌”真实用户经验 > 权威页面”),一个靠第三方 + Wikipedia/权威源(赌”权威 > 鲜活”)。Gemini 则走第三条路:它不需要新建检索资产,因为它就是那个资产——把 AI 回答缝进自己运转 20 年的索引和知识图谱。
这就是本体与功能在资产层的终极差异:Perplexity 必须自建索引(这是它最重的成本,也是它的护城河);ChatGPT 借别人的索引(它的核心资产是模型,不是检索);Gemini 复用自己的索引(它的核心资产本来就是检索,AI 只是新皮肤)。
§4 判断主轴 — 90% 的人会在这四个点上搞错”功能 vs 本体”
这是本节点的命门。剖解真实产品时,最常见的四个认知错位:
错位一:把”引用准确率”当成产品好坏的总分。
- 症状:拿 Tow Center 那张表,得出”Perplexity 37% 最准所以最好,Gemini 引用少所以差”。
- 为什么会错:忽略了三者的产品目标不同。Perplexity 把检索当本体,37% 失败率是它的核心功能在出血,是生死线;ChatGPT 把检索当功能,引用瑕疵是可接受的附加成本,因为它的主战场是对话生产力,不是”做最准的搜索”。同一个数字对两个产品的杀伤力完全不同。
- 正确做法:先问”检索在这个产品里是本体还是功能”,再决定引用准确率的权重。
- 真实反例:JMIR 2024(e53164,Chelli et al.)在医学系统综述任务里测得参考文献幻觉率:Bard 高达 91.4%、GPT-3.5 39.6%、GPT-4 28.6%(该研究对象为 ChatGPT 与 Bard)——看起来灾难性。但这是特殊任务(系统综述的参考文献核验),不是通用搜索场景,直接泛化到”某模型搜索很差”是测量语境错误。
错位二:以为”引用越多 = 越可信”。
- 症状:照搬 Perplexity 的”句子级 21.87 条引用”做自家产品的标杆。
- 为什么会错:引用是认知负担。arXiv 2601.14611(He & Liu, Seeing to Think?, 2026)实验对比四种引用界面(Collapsible / Hover Card / Footer / Aligned Sidebar)发现核心矛盾是”流畅性 vs 强制反思验证”——过度引用并不增加信任,反而可能制造认知噪音。
- 正确做法:把引用密度当成与任务匹配的设计变量,不是越多越好的 KPI。
- 真实反例:Granola(会议笔记)用”原文片段悬停预览”而非堆砌编号;Copy.ai 用”末尾列全部 URL”优先透明度——不同任务用不同引用粒度(来源:ShapeofAI.com 引用 UX 模式库)。
错位三:以为大厂”按需检索”是更聪明的省钱设计。
- 症状:认为 ChatGPT”模型自己判断要不要查”比 Perplexity”每次都查”更先进。
- 为什么会错:按需检索把幻觉风险从架构层下放到了模型判断层,而模型的判断恰恰在它该谦虚时最自信(c13 - 幻觉的不可消除性 的校准失配)。这是省成本,但用可信度做了抵押。
- 正确做法:理解这是成本-可信度的权衡,不是单纯的技术先进性。对消费搜索(用户来就为找答案),Perplexity 的”每次都查”是对的;对生产力对话(多数轮次不需检索),ChatGPT 的”按需”是对的。
- 真实反例:ChatGPT 不开 Search 模式时,对训练截止日之后的事件会给出自信的过期答案——这正是”按需”的代价。
错位四:把 Gemini 的”引用少”误读为偷懒,忽略了它的融合策略。
- 症状:抱怨 Gemini AI Overviews 引用稀疏、不如 Perplexity 透明。
- 为什么会错:Gemini 的设计目标不是”做一个独立的答案引擎”,而是”在不破坏既有搜索体验的前提下,加一层 AI 摘要”。它的引用与有机排名融合(54% 重叠)是刻意的——既给 AI 答案,又把流量导回传统结果(缓和 zero-click 对出版商的冲击)。
- 正确做法:理解 Gemini 在”AI 答案”和”既有搜索生态/出版商关系”之间做的是政治平衡,不是技术取舍。
- 真实反例:Google 在 AI Overviews 上的克制(段落级而非句子级、与有机结果整合),部分是为了避免重蹈”AI 抢走出版商流量”的舆论危机——这是商业-合规约束,不是能力不足。
§5 产品 PM 视角补盲:用户心理、商业模式、合规三个看走眼点
跳出工程视角,三个容易被技术 PM 漏掉的点:
-
用户心理模型的错配。 Perplexity 用户来的时候预期就是搜索,所以它的句子级引用是”满足验证需求”;ChatGPT 用户来的时候预期是助手对话,末尾引用足够,强行 inline 反而打断流畅感。同一个引用设计,移植到错误的用户心理模型上就是灾难。“借鉴 Perplexity 的引用”前先问:我的用户是带着”搜索者心态”还是”对话者心态”来的?
-
商业模式决定检索强度。 Perplexity”每次都查”导致搜索 + LLM 双成本,毛利低、单位经济亏损(见 Perplexity 节点)。ChatGPT”按需查”省了大量检索成本,因为它的主营收是订阅 + API,搜索不是利润中心。检索触发策略不是纯技术决策,是被商业模式倒逼的。 一个 PM 若不算检索的边际成本就照抄”每次都查”,会把毛利做穿。
-
合规与出版商关系。 zero-click 搜索增长下,“AI 引用但用户不点击”会切断信息验证链,也切断出版商的流量收入——这是 2025–2026 持续的行业争议(来源:aiopsschool.com 2026)。Gemini 的”与有机结果融合”是对这个矛盾的产品级回应。做知识产品时,引用设计不只是 UX,是与内容方的利益分配协议。
§6 对手框架回应 — 接受 + 边界
业界对手立场一:“大厂迟早碾压 Perplexity——检索是功能,OpenAI/Google 把它做进自己的护城河产品里,Perplexity 这种单点产品没有未来。”
接受的部分:这个判断有真实依据。Gemini 复用 Google 20 年的索引和知识图谱,ChatGPT 复用 GPT 的对话黏性和数亿用户,分发和资产都碾压 Perplexity;Perplexity 自建索引成本极高、单位经济亏损,确实脆弱。
坚持的边界与赌注:但”检索作为本体”恰恰是 Perplexity 在做、而大厂结构上做不彻底的事。 大厂的检索永远要服从更大的产品目标——ChatGPT 不能为了搜索准确率牺牲对话流畅,Gemini 不能为了 AI 答案牺牲出版商关系和有机流量。Perplexity 没有这些包袱,它可以把”每次都查、句子级引用、追问推荐”做到极致。本专题赌的是:在”专业、严肃、需要逐句溯源的知识检索”这个细分场景,本体化产品仍有结构性优势——直到大厂愿意为这个场景单独建一个不受主产品约束的子产品(如 OpenAI/Perplexity 各自的 Deep Research,已经是这个方向)。这个赌注的失效场景见下。
业界对手立场二(引入 Rick 未读的对手框架——出版商 / 媒体经济学视角,如 Tow Center / Press Gazette 一派):“AI 搜索的真问题不是技术准确率,而是它系统性地把价值从内容创造者转移给了答案聚合者——这是一种新的’圈地’。”
接受的部分:这个批判击中了三个产品共同的盲区。Tow Center 研究和学术出版污染数据(Lancet 2026:每 277 篇 PubMed 论文有 1 篇含幻觉引用,较 2023 年增长 12 倍)都指向同一件事——AI 引用正在制造一个”看起来有溯源、实际溯源链断裂”的信息生态。从内容经济学看,三个产品都在消费别人生产的内容、却把用户留在自己界面。
坚持的边界:但这不改变”本体 vs 功能”的产品判断,反而强化它——正因为 Perplexity 把检索当本体,它对出版商的依赖最深、争议最大(版权抓取诉讼);正因为 Gemini 把 AI 当搜索的新皮肤,它最有动机用”融合有机结果”来缓和这个矛盾。这个对手框架不推翻本节的分类,而是给每一类标出了它的伦理代价。 这正是本专题需要的:用反对的声音逼出每个设计选择背后的权力转移。
§7 跨域呼应 — 麦克卢汉”媒介即讯息”与检索的本体论位置
调度一个跨域资源:麦克卢汉(Marshall McLuhan)的”媒介即讯息”(the medium is the message)。
麦氏的核心洞见是:一个媒介真正改变社会的,不是它传递的内容,而是它作为媒介本身的结构——它如何组织感知、如何重排人际尺度。把这个框架对准本节的技术问题,立刻改变判断:我们一直在比”三个产品的答案内容谁更准”,但麦克卢汉提醒,真正决定它们是什么的,是检索在产品中的结构位置,而不是它吐出的答案。
具体改变了什么判断:Perplexity 把检索当本体,意味着它的”讯息”是”世界是可被即时检索回答的”——它训练用户期待”一切问题都有一个带引用的即时答案”,这种感知重排本身就是产品的真正影响,远超任何单条答案的准确率。ChatGPT 把检索当功能,它的”讯息”是”AI 是个会聊天的助手,偶尔会查资料”——用户对它的信任建立在对话关系上,不在检索精度上。Gemini 把 AI 当搜索新皮肤,它的”讯息”是”搜索还是那个搜索,只是上面多了层摘要”——它刻意不重排用户的搜索心智。
这就是为什么”谁的引用更准”是个浅问题:三个产品在重塑的是三种不同的”人与知识的关系结构”,准确率只是这个结构里的一个参数。一个知识产品 PM 若只盯着准确率,就是麦克卢汉说的”只看内容、看不见媒介”。链入 0117社会学。
§8 PM 决策启示
- 面试怎么用:被问”如何评价 ChatGPT Search / Perplexity / Gemini 的搜索”,不要背评测分数。先抛出”检索作为功能 vs 作为本体”的框架,再用”触发 / 引用 / 来源”三剖面 + 11% 域名重叠 + 37% 失败率落地,最后用麦克卢汉收口”它们重塑的是三种人-知识关系”。30 秒展示出”我看到的是产品结构,不是 feature list”。
- 选型怎么用:给团队做”AI 搜索能力”集成选型时,先定位”我的产品里检索是本体还是功能”。是本体(产品就是答案引擎)→ 参考 Perplexity 的每次都查 + 句子级引用,但要算清检索的边际成本和毛利。是功能(AI 是助手的一项能力)→ 参考 ChatGPT 的按需检索 + 末尾引用,把成本和流畅感放在准确率之前。
- 复现怎么用:做自家 RAG 产品的引用 UX 时,别默认抄”引用越多越好”。按 arXiv 2601.14611 的发现,先确定任务是”需要流畅”(用 Hover Card)还是”需要强制验证”(用 Aligned Sidebar),再定引用粒度。引用密度是设计变量,不是 KPI。
§9 与已有节点的关系
- 对照 Perplexity(entity):本节点做了深化与对话。Perplexity 节点把它讲成”RAG → C 端产品的教科书案例”,本节点把它放回与大厂的三方对照里,回答”为什么大厂做不出一样的东西”——补了”本体 vs 功能”这个 Perplexity 单节点没有的对照维度。不复述 Perplexity 的 SKU 层次和商业张力(那是 Perplexity 节点的事)。
- 对照 c13 - 幻觉的不可消除性(concept):本节点是 c13 理论的产品层实证。c13 讲幻觉是架构性的、引用幻觉是五类之一、校准失配;本节点用 ChatGPT”按需检索”和 Tow Center 37% 失败率,把 c13 的抽象判断落到三个真实产品的设计选择上。不复述 c13 的 Softmax / RLHF 对齐税机制。
- 对照 c09 - RAG 架构 / m205 - RAG 生产环境:索引运维与评估体系(技术/工程层):本节点是这两个节点的视角升高。c09/m205 讲 RAG 怎么实现、怎么运维评估(Reranker、RAGAS 四指标、混合检索);本节点讲”同样的 RAG 技术,被三家公司放在不同的产品本体位置,长成了三种产品”。技术细节直接双链引用,不重述。
§10 关联节点
核心(必读)
- Perplexity — 本节点的第三方参照基线,“检索作为本体”的样板
- ChatGPT — 本节点剖解对象之一,“检索作为功能”的代表
- Gemini — 本节点剖解对象之一,“AI 作为搜索新皮肤”的代表
- c13 - 幻觉的不可消除性 — 引用幻觉与校准失配的理论基础
- c09 - RAG 架构 — 三者共享的底层检索技术
- E01 Perplexity 剖解·引用前置模式 — 同模块姊妹节点,单独深剖 Perplexity 设计哲学
- A02 检索去向决策·search KG parametric RAG — 本节点的概念上位框架
延伸(可选)
- m205 - RAG 生产环境:索引运维与评估体系 — 检索质量的工程评估视角
- m203 - RAG 生产环境:Embedding 与文档解析 — 来源摄入的技术底层
- m204 - RAG 生产环境:Chunking 与范式演进 — 引用粒度的技术约束
- c14 - 模型评估体系与 Goodhart 陷阱 — “引用条数当 KPI”的 Goodhart 化风险
- A04 Grounding 与 Hallucination 产品策略 — 引用/溯源作为信任设计的产品方法
- A03 Citation 与 Attribution 产品设计 — 引用 UX 模式的专门节点
- OpenAI / Anthropic — 检索产品背后的公司战略
- 0117社会学 — 麦克卢汉媒介理论的入口
- AI PM 知识图谱·总索引 — 全库导航入口
修订日志
- 2026-06-12 内审·arXiv 联网核实:清了 1 个(存疑 0)。WebFetch 确证 arXiv:2601.14611 = He & Liu, Seeing to Think? How Source Transparency Design Shapes Interactive Information Seeking and Evaluation in Conversational AI, 2026(提交 2026-01-21)存在且主题吻合;订正正文错位二旧写年份”2025”→“2026”并补作者/标题;arXiv 存在性〔已核实(2026-06-12)〕,仍为预印本、同行评审状态未定的限定保留。
- 2026-06-11 P0 收口:将 R0 日志里”待 grounding pass 复核 JMIR 76% 数据”的过期待办标为”✅ 已解决”——正文 JMIR 反例旧捏造值早已订正为真值(依据:正文 §「真实反例」已无 76%/20%,A04/R01/R03 同步订正日志);arXiv 2601.14611 arXiv 存在性已于 2026-06-12 内审 WebFetch 确证,唯同行评审状态未定。
- R0(2026-06-07):首稿。建立”检索作为功能 vs 本体”判断主轴;三剖面(触发/引用/来源)对照表;四点判断主轴四件套;接入麦克卢汉媒介理论与出版商经济学对手框架;与 Perplexity/c13/c09/m205 升级对照。接地证据均来自简报核实材料(Tow Center 2025-03、Whitehat SEO 2025、DiscoveredLabs 2026、JMIR 2024 e53164、Liu et al. EMNLP 2023 arXiv:2304.09848、arXiv 2601.14611、OpenAI 2024-11、frugaltesting.com)。待 grounding pass 复核:
JMIR 76% 数据的任务语境标注(✅ 已解决(2026-06-11):旧”76%“系捏造值,正文已订正为 Chelli et al. 2024 真值 Bard 91.4%/GPT-3.5 39.6%/GPT-4 28.6%)、arXiv 2601.14611 arXiv 存在性〔已核实(2026-06-12)〕,仅同行评审状态未定。