m203. RAG 生产环境：Embedding 模型选型与文档解析

RAG 的架构原理（混合检索、HyDE、Reranker、评估解耦）已在 c09 RAG 架构覆盖。本章深入模块一未涉及的工程落地层——从地基（Embedding 模型）到第一道关卡（文档解析）。

2.3.1 Embedding 模型选型

Embedding 模型是 RAG 系统的地基——它决定了”语义相似”的定义。选错 Embedding 模型，后续的检索、重排、生成全部建立在错误的基础上。

维度	关键问题
精度	MTEB 排行榜是标准参考，但 MTEB 是通用基准。必须在自己的数据上做评测，不能直接搬榜单结论
向量维度	更高维度（如 3072）→ 更精细的语义表达 → 更大的存储和检索成本。支持可变维度的模型可截断到低维做精度优雅降级（Matryoshka Embedding）
多语言能力	中英文混合场景极常见，必须选择多语言模型。Tokenization 对小语种不友好的问题（见 c02 §2.3）在 Embedding 层同样存在
最大输入长度	标准模型支持 512 tokens；新一代支持 8K+ tokens，影响分块策略（chunk 可以更大、更完整）
推理速度与成本	参数量越大、维度越高，推理越慢、存储越贵

Matryoshka Embedding（嵌套表示）：新一代 Embedding 模型支持维度截断——768 维模型的前 256 维本身就是一个有效的 256 维 embedding。这允许用低维度做粗筛（速度快），再用完整维度做精排（质量高），是成本-质量分级优化的新利器。

核心洞察：RAG 的检索质量上限由文档解析质量决定。数据进来时就是乱的，后面做再多也无济于事。

PDF 本质是渲染指令（“在坐标 (x,y) 处绘制字符 A”），不含语义结构。具体表现：

方案	原理	优势	劣势	代表工具
规则式解析器	基于 PDF 内部坐标提取文本	快、确定性高	无法处理扫描件和复杂排版	PyPDF2, pdfplumber
OCR + 版面分析	OCR + 视觉模型识别布局	能处理扫描件	速度慢、OCR 错误传播	Tesseract + LayoutParser
专用文档智能模型	融合文本+视觉+布局的专用模型	平衡精度与效率	需针对文档类型优化	Docling (IBM)、Marker、Unstructured.io
多模态模型直接理解	PDF 页面 → 图片 → 多模态 LLM 提取	处理复杂版面最强	成本极高（图像 token 代价，见 c12 §12.4）	GPT-4V, Claude Vision

2025 年推荐：Docling（IBM 开源）

将 OCR、版面分析、表格识别整合为一个端到端 pipeline，输出结构化 Markdown/JSON。与直接用多模态 LLM 相比，成本低两个数量级，适合大规模文档处理。

表格处理：

图表处理：

格式	主要挑战	推荐方案
Word/DOCX	样式信息丰富，但结构相对规整	python-docx + 样式感知解析
Excel/XLSX	多工作表、合并单元格、数据类型混合	按工作表分块 + 表头重复注入
HTML	导航栏、广告等噪声	BeautifulSoup + 正文提取（Trafilatura）
Markdown	结构天然友好	按标题层级递归切分