硅基温度 —牛导力荐 I一张图压千字： DeepSeek —OCR 如何用视觉为大模型 “减负”？

首页
>>新闻动态

硅基温度 —牛导力荐 I一张图压千字： DeepSeek —OCR 如何用视觉为大模型 “减负”？
2025-11-11

信息来源：人大高瓴人工智能学院发布时间：2025年11月10日

「硅基温度-牛导力荐」栏目，每周力邀一位AI领域的顶尖导师，从浩如烟海的论文中，亲自为您挑选一篇“必读好文”。它或许预示着一个崭新的方向，或许内藏着一个精妙的巧思。

在这里，让最具慧眼的领路人，带你穿透信息的迷雾，触摸AI未来的脉搏。

推荐人：魏哲巍

中国人民大学高瓴人工智能学院

教授国家高层次人才专家

魏哲巍老师主要关注人工智能与大数据基础算法，致力于为人工智能与大数据中的核心问题设计简洁、高效且具备理论保证的算法与模型。先后获得PODS 2022时间检验奖、2023年世界人工智能大会青年优秀论文提名奖、VLDB 2024最佳论文提名奖。现任IEEE TPAMI编委、FCS青年编委；曾任PODS、ICDT等国际会议论文集主席，并担任ICML、NeurIPS、ICLR等国际顶级会议领域主席。

全文共7813字，预计阅读时间为20分钟。

“一图胜千言”——这句古老的谚语，

正在被大模型时代赋予全新的工程含义。

(图片由ChatGPT-5生成)

近期，DeepSeek 团队开源了 DeepSeek-OCR，一个能将长文本“压缩”进一张图片、再由视觉语言模型（VLM）高效还原的端到端系统。在 10× 压缩比（即 1000 个文本 token 仅用 100 个视觉 token 表示）下，其 OCR 精度高达 97%；即使压缩到 20×，精度仍能维持在 60% 左右。更令人惊讶的是，它仅用 100 个视觉 token 就超越了 GOT-OCR2.0（256 token），用不到 800 token 击败了 MinerU2.0（需 6790 token）。

这一成果引发了社区广泛讨论：
有人认为这是“视觉驱动大模型”的曙光；
也有人指出——问题从来不在输入，而在输出端。

那么，DeepSeek-OCR 究竟是颠覆性突破，还是工程上的巧妙折中？
它对多模态大模型、长上下文处理乃至智能体记忆系统，又意味着什么？

本文将从五个维度深入解析 DeepSeek-OCR 的技术本质与价值。

为什么需要“光学压缩”？

——从 LLM 的长上下文困境说起

当前大语言模型（LLM）在处理长文本时面临两大瓶颈：

1. 计算成本高：Attention 机制的复杂度为 O(N²)，上下文越长，推理越慢；

2. 显存压力大：KV Cache 随 token 数线性增长，万级上下文动辄占用数十 GB 显存。

而人类处理长信息的方式却截然不同：我们不会逐字记忆整本书，而是通过笔记、图表、摘要等视觉媒介进行压缩存储，需要时再“看图回忆”。

DeepSeek 团队敏锐地捕捉到这一类比，提出一个大胆假设：能否将视觉模态作为 LLM 的“高效压缩缓存”？

视觉的天然优势在于：一张 1024×1024 的文档图像，可承载上千字文本，但经视觉编码后，仅需数百个 token 即可表示——这正是“光学压缩”（Optical Compression）的核心思想。

值得注意的是，DeepSeek-OCR 并非要构建“大视觉模型”，而是从 LLM 中心视角重新设计 VLM：视觉不是目的，而是提升语言模型效率的工具。

技术架构详解：DeepEncoder

如何实现“低激活、高压缩”？

DeepSeek-OCR 由两部分组成：DeepEncoder（视觉编码器） + DeepSeek-3B-MoE（文本解码器）。其中，DeepEncoder 是创新核心。

图1 主流 VLM 中的典型视觉编码器。图中列出了当前开源 VLM 中常用的三种类型的编码器，它们都存在各自的缺陷。（图片来源：DeepSeek-OCR技术报告）

1. 为什么现有 VLM 编码器不够用？

如图1所示，当前主流 VLM 视觉编码器存在三大缺陷：

双塔架构（如 Vary）：需并行处理两路图像，部署复杂，难以并行训练；

Tile-based 方法（如 InternVL2.0）：将大图切块处理，导致 token 数爆炸（>6000）；

自适应分辨率（如 Qwen2-VL）：虽支持任意分辨率，但高分辨率下激活内存极易溢出。

这些方案均无法同时满足：高分辨率输入 + 低激活内存 + 少视觉 token + 多分辨率支持。

2. DeepEncoder 的创新设计

DeepEncoder 采用串行混合架构（见图2）：

前半段：SAM-base（80M）

以窗口注意力（window attention）为主，擅长处理高分辨率细节，激活内存可控；

中间：16× 卷积压缩器

两层卷积（kernel=3, stride=2），将 4096 个 patch token 压缩至 256；

后半段：CLIP-large（300M）

以全局注意力提取高层语义，受益于 CLIP 的大规模预训练知识。

例如，输入 1024×1024 图像 → 4096个patch → 压缩为 256 token → 送入 CLIP。整个过程激活内存大幅降低，且保留语义完整性。

图2 DeepSeek-OCR 的架构。DeepSeek-OCR 由 DeepEncoder 和 DeepSeek-3B-MoE 解码器组成。DeepEncoder 是 DeepSeek-OCR 的核心，包含三个组件：一个由窗口注意力机制主导的感知模型 SAM、一个具有密集全局注意力机制的知识模型 CLIP，以及一个连接两者的 16× token压缩器。（图片来源：DeepSeek-OCR技术报告）

3. 多分辨率模式：灵活适配不同压缩需求

为支持不同压缩比实验，DeepEncoder 设计了 5 种分辨率模式（见图3与下表）：

其中，Gundam 模式借鉴 InternVL2.0 的 tiling 思想，但因原生分辨率高（640+1024），图像不会过度碎片化（tile 数控制在 2–9 个）。

图3 (a) 展示了在 Fox [21] 基准测试中的压缩率（ground truth 中的文本token数/模型使用的视觉token数）；(b) 展示了在 OmniDocBench [27] 上的性能比较。DeepSeek-OCR 在视觉token最少的端到端模型中取得了最佳性能。（图片来源：DeepSeek-OCR技术报告）

实验深度解读：压缩比、精度与实用性能

1. Fox 基准：量化“视觉-文本压缩边界”

在 Fox 英文文档集（600–1300 token）上，DeepSeek-OCR 的表现如下：

关键发现：

10× 压缩内，精度 >96%，接近无损；

超过 10× 后，精度下降主因是文本在低分辨率下模糊，而非模型能力不足；

这一现象恰好可被用作“光学遗忘机制”——越久远的记忆，分辨率越低，token 越少。

2. OmniDocBench：实用 OCR 性能碾压竞品

在真实文档解析任务 OmniDocBench 上（见图1（b））：

Small 模式（100 token）：Edit Distance = 0.221，优于 GOT-OCR2.0（0.287，256 token）；

Large 模式（400 token）：Edit Distance = 0.208（中文）/ 0.138（英文），与 Qwen2.5-VL-72B（3949 token）相当；

Gundam-M 模式（1853 token）：Edit Distance = 0.123（英文） / 0.157（中文），逼近 dots.ocr（5545 token）。

更重要的是：DeepSeek-OCR 是端到端模型，而许多竞品（如 Marker、Mathpix）依赖传统 OCR pipeline（检测+识别），部署复杂。

3. 不同文档类型的 token 需求差异

如下表所示，不同文档对视觉 token 的需求差异巨大：

具体的：

结构化文档（幻灯片、财报）仅需 100 token；

非结构化长文档（报纸）需 Gundam 模式；

这为 LLM 的动态记忆压缩策略提供了实证依据。

视觉能成为下一个 Scaling Law 吗？

DeepSeek-OCR 的发布在社区引发了一种乐观情绪：是否意味着“视觉大模型”即将复现 LLM 的成功路径？然而，这种期待可能混淆了“视觉作为压缩媒介”与“视觉作为原生推理模态”之间的根本区别。要回答“视觉能否成为下一个 Scaling Law 的载体”，我们必须回到 Scaling Law 成立的核心前提，并审视视觉模态是否具备同等条件。

1. LLM Scaling Law 成立的三大支柱

当前 LLM 的 Scaling Law（性能随数据量、模型参数、计算量平滑提升）之所以成立，依赖于三个关键要素：

离散符号系统：语言被映射到有限词表（如 100K token），每个 token 是原子化、可枚举、无歧义的；

统一训练目标：next-token prediction 是一个简单、可并行、可自回归的任务，监督信号清晰；

数据可扩展性：互联网文本近乎无限，且天然具备结构（句子、段落、篇章）。

这三点共同构成了一个“可压缩、可预测、可泛化”的学习闭环。

2. 视觉模态为何难以复现这一路径？

视觉信号本质上是连续、高维、冗余且高度歧义的。以图像生成为例：

MSE/L2 损失：鼓励像素平均，导致输出模糊，无法建模多模态分布（如一个区域可对应“cat”或“dog”）；

Diffusion 模型：虽能生成高质量图像，但存在 exposure bias（训练用真值，推理用预测），且采样过程慢、难对齐语义；

AR 图像生成（如 VQ-VAE + Transformer）：对背景或歧义区域倾向于输出“平均色块”，缺乏细节保真；token 化过程本身会丢失结构信息。

更重要的是，视觉缺乏“原子符号”。LLM 的 token 是语义单元，而图像 patch 是感知单元，二者不可等价。即使使用 VQ-GAN 等方法离散化图像，所得“视觉词表”也缺乏语言那样的组合性与逻辑性。所以“问题不在输入，而在输出端”。

DeepSeek-OCR 的聪明之处在于它根本不需要解决视觉生成问题。它的输出仍是文本，由 LLM 解码器完成，视觉仅作为输入通道。因此，它避开了 Scaling Law 的核心障碍。

3. DeepSeek-OCR 的定位：不是“视觉大模型”，而是“视觉增强语言模型”

DeepSeek-OCR 的 pipeline 是：

文本 → 渲染为图像 → DeepEncoder → 视觉 token → DeepSeek-3B-MoE → 文本

视觉是“中间表示”，不是“计算表示”；

语义理解与生成仍由 LLM 完成；

OCR 精度再高，也只是“读图识字”，不是“视觉推理”。

这类似于人类“看笔记回忆内容”，而非“用图像直接思考”。因此，它并未挑战视觉 Scaling Law，而是利用视觉的物理特性为 LLM 服务。

4. 未来可能的出路：符号化视觉 or 结构化渲染

若真要探索“视觉驱动的大模型”，可能需要：

将视觉“符号化”：例如，用可学习的“视觉词表”替代像素，但需保证语义完整性；

构建视觉的“语法”：如 layout-aware tokenization，将图像分解为“文本块 + 公式块 + 图表块”等结构化单元；

设计新训练目标：不是重建像素，而是重建“可执行的语义程序”（如 HTML、LaTeX、SVG）。

DeepSeek-OCR 在 OCR 2.0 中已迈出一步：图表 → HTML 表格，化学式 → SMILES，几何图 → 线段字典。这本质上是将视觉映射到结构化语言，而非生成原始像素。

但这些仍是“视觉 → 语言”的映射，而非“视觉 → 视觉”的生成。因此，短期内“大视觉模型”难以成立，但“视觉增强语言模型”大有可为。

同期工作的比较与共同源头

DeepSeek-OCR 并非孤例。几乎在同一时期，社区还涌现出两篇高度相关的工作——《See the Text: From Tokenization to Visual Reading》与《Glyph: Scaling Context Windows via Visual-Text Compression》。

三篇工作的共同核心：视觉不应只是多模态输入之一，而应成为提升语言模型效率与鲁棒性的核心媒介。它们不约而同地将“图像”视为一种高密度、抗噪、跨语言的信息载体，试图绕过传统 tokenization 与长上下文扩展的工程瓶颈。
1. 侧重点不同
DeepSeek-OCR：聚焦 OCR / 文档级“光学上下文压缩”，以视觉压缩作为 LLM 的外部记忆/缓存机制（强调端到端 OCR 能力与“光学遗忘”）。

Glyph：把渲染-为-图像作为一种上下文尺度扩展方法（Glyph 用渲染+VLM 来实现 3–4× 的 token 压缩并提升 long-context 效率）。强调自动化寻找渲染配置（LLM 驱动的遗传搜索）。

See the Text：把视觉化文本放在Tokenizer 替代的角度——即“视觉为中心的 tokenizer”，强调多语言公平性、对噪声的鲁棒性与计算效率（例如 4.43× token 减少、70% FLOPs 降低）。
1. 三者的共同灵感来源（从浅到深的解读）
认知科学 — 人是“看着读”而非“逐 token 读”：

See-the-Text 明确借鉴人类视觉阅读（VWFA、typoglycemia）的认知事实，主张“视觉先行”的阅读路径，从而激发把文本渲染为图像、用视觉编码器处理文本的思路。

VLM/MLLM 在 OCR 与文本-视觉对齐上的成功：

过去几年大规模视觉-文本预训练（CLIP、Qwen2.x 等）表明视觉编码器能很好地捕获文字形态与语义对齐，因而可用来“承载”文本信息。Glyph、DeepSeek-OCR 和 See-the-Text 都直接利用了这一事实：视觉编码器已具备读取文本并产生可用语义表示的能力。

工程痛点推动：上下文扩展 vs. 计算可行性：

LLM 的长上下文需求（万级/百万级 token）带来内存与计算不可承受的代价。Glyph 和 DeepSeek-OCR 把这一痛点变成问题设定：不是盲目扩窗口，而是增加每个 token 的信息密度（即用视觉 token 承载更多文本），从系统角度做“减法”。

Tokenization 的局限与多语种公平性问题：

See-the-Text 明确指出传统子词分词在低资源语言上会产生过度分裂（fertility 增高）并导致计算浪费，因此视觉化文本可以天然规避这种偏差。这个动因促使他们把视觉化当作替代 tokenizer 的核心工程目标。

从“识字”到“结构化语义” 的演进：

DeepSeek-OCR 不仅关注识别（OCR 1.0），还推进了 OCR 2.0（图表→HTML、化学式→SMILES、几何→结构字典），这表明视觉压缩若要在复杂任务上被接受，必须能保留结构化语义，这是其与其他两篇工作的差异化启发。

3. 各自的工程折衷与未来可能的融合点

折衷：

视觉压缩能显著降低 token 数，但压缩过度会导致字形模糊、结构丢失——这在 DeepSeek 的实验中表现得很明显（≥10× 之后性能下降）。因此需要自适应分辨率/多级存储策略（DeepSeek 的“多分辨率 & 光学遗忘”是一个典型折衷）。

渲染设计很重要（Glyph 强调用遗传搜索自动选渲染参数），说明“如何把文本放到图像上”本身就是一个关键工程问题（字体、字号、间距、分页、dpi 等都会影响压缩率与识别率）。

融合点（未来研究方向）：

Tokenizer-level + Context-scaling 的协同：把 See-the-Text 的视觉 tokenization 用作“短期/局部输入”的高效替代，同时把 Glyph/DeepSeek 的渲染压缩方案用于长期记忆/历史上下文存储（即“本轮输入用视觉 tokenizer，历史记录用渲染压缩”）。

渲染参数的自适应策略：结合 Glyph 的 LLM-driven 搜索与 DeepSeek 的多分辨率策略，实现按文档类型/查询重要性动态分配分辨率（近期/重要段落高分辨率，远期/次要段落低分辨率），实现“带时间权重的光学遗忘”。

结构化语义优先的渲染：在渲染阶段兼顾“可读性 + 结构易提取性”（如为表格/公式保留更高对比度或特殊渲染标记），以便 DeepSeek 风格的 OCR2.0 能更可靠地恢复结构化数据。

总结：三篇工作从不同角度验证了一个共同的工程直觉：把“视觉”用作信息密度放大器与鲁棒性保底，是解决当下 LLM 长上下文与多语种痛点的一条务实路径。未来系统或许可以融合三者：在推理时，当前轮次输入用视觉 tokenizer（See the Text），历史对话压缩为多分辨率记忆图（DeepSeek-OCR），而渲染参数由轻量 LLM 实时优化（Glyph）。这种“视觉记忆 + 语言推理 + 自适应渲染”的三位一体架构，或许才是通往高效多模态智能体的务实路径。

未来启示：对多模态与智能体研究的意义

DeepSeek-OCR 的价值远不止于 OCR 本身。它为多模态大模型、长上下文处理、智能体记忆系统提供了全新的设计范式，尤其契合当前对高效、可扩展、类人记忆机制的研究需求。

1. 为 LLM 构建“光学记忆”系统

当前 LLM 的 KV Cache 随上下文线性增长，万级上下文动辄占用数十 GB 显存。DeepSeek-OCR 提出了一种有损但高效的记忆压缩方案：

写入记忆：将历史对话渲染为图像（如 PDF 转图）；

存储记忆：图像经 DeepEncoder 压缩为 100–400 视觉 token，存入 KV Cache；

读取记忆：推理时“看图回忆”，由 LLM 解码器还原语义。

实验表明，在 10× 压缩比下，精度达 97%，足以保留语义主干。这意味着 LLM 可以“记住千言，只背百 token”。

2. 实现“光学遗忘”机制

人类记忆具有“渐进式遗忘”特性：近期记忆清晰，远期记忆模糊。DeepSeek-OCR 天然支持这一机制（见图4）：

图4 遗忘机制是人类记忆最基本的特征之一。上下文光学压缩方法可以模拟这种机制，它将前几轮的历史文本渲染到图像上进行初始压缩，然后逐步调整旧图像的大小以实现多级压缩，其中token数量逐渐减少，文本变得越来越模糊，从而实现文本遗忘。（图片来源：DeepSeek-OCR技术报告）

近期对话：渲染为 1280×1280 图像（400 token）；

一周前对话：渲染为 640×640 图像（100 token）；

一月前对话：渲染为 512×512 图像（64 token）。

随着分辨率降低，文本逐渐模糊，token 数减少，信息自然衰减。这不仅节省资源，还模拟了生物记忆曲线，为 LLM 引入时间感知的记忆管理。

这一机制对多轮对话、长期规划、历史回溯等场景极具价值。

3. 推动 OCR 2.0：从“识字”到“理解结构”

DeepSeek-OCR 不仅能识别文字，还能解析结构：

图表 → HTML 表格：支持金融、科研场景的数据提取；

化学式 → SMILES：为 STEM 领域 LLM 提供结构化输入；

几何图 → 线段字典：支持数学推理；

多语言（100+）：覆盖全球 PDF 文档；

通用视觉理解：保留 caption、detection、grounding 能力。

这些能力使其成为多模态预训练数据的高效生成器。据论文报告，单 A100 可日产 20 万页高质量 OCR 数据，20 节点集群日产 3300 万页——这为 LLM/VLM 的 scaling 提供了强大燃料。

4. 对 Agent 社会模拟的启示

在Agent 社会模拟中，DeepSeek-OCR 可用于构建分布式视觉记忆系统：

个体 Agent 记忆：将自身交互历史压缩为“个人记忆图”；

社区共享记忆：将群体事件渲染为“社区记忆图”，供多个 Agent 读取；

跨 Agent 协作：通过共享图像，实现低成本信息同步；

有损记忆演化：随着时间推移，社区记忆图分辨率降低，模拟“集体遗忘”。

这种设计既保留了 LLM 的强大推理能力，又利用了视觉的高密度存储优势，是一种务实且可扩展的多模态 Agent 架构。

5. 开启“模态协同”新范式

DeepSeek-OCR 启示我们，不必强求单一模态的全能，而应让模态各司其职：

视觉：负责高效存储、压缩、感知；

语言：负责精确推理、生成、规划；

二者协同：视觉为语言减负，语言为视觉赋义。

未来，我们或可构建“文本 ↔ 图像 ↔ 音频”的多模态压缩-解压循环，实现跨模态信息高效流转。而 DeepSeek-OCR，正是这一愿景的第一个可行原型。

通过以上分析可见，DeepSeek-OCR 的真正价值不在于“取代语言”，而在于“增强语言”。它没有等待视觉 Scaling Law 的出现，而是用工程智慧绕过理论瓶颈，为多模态智能开辟了一条务实路径。

开源信息：DeepSeek-OCR 代码与模型已开源，GitHub 地址：

http://github.com/deepseek-ai/DeepSeek-OCR

关于「硅基温度」系列文章

我们希望在当前信息爆炸、浅阅读盛行的环境中将大模型相关的知识冷凝萃取，输出专业、深度、高质量的硬核文章。我们期待与你一起在浮躁的时代静下心来，共品一杯“思想冷萃”。

友情链接

理工院系

研究机构

职能部门

校外单位

常用链接