拓展：多模态统一 Tokenizer 空间 · 知识库

前沿模型正在突破”tokenization 只处理文本”的框架。GPT-4o 采用了统一 token 流，将文本、图像 patch、音频帧全部编码进同一个 token 空间，用 / 等控制 token 标识模态切换。这在架构上意味着：

对于构建多模态产品的 PM，图像输入的 token 成本往往被严重低估——一张图可能等价于 500–1000 个文本 token。