DeepSeek-OCR 的发布在社区引发了一种乐观情绪:是否意味着“视觉大模型”即将复现 LLM 的成功路径?然而,这种期待可能混淆了“视觉作为压缩媒介”与“视觉作为原生推理模态”之间的根本区别。要回答“视觉能否成为下一个 Scaling Law 的载体”,我们必须回到 Scaling Law 成立的核心前提,并审视视觉模态是否具备同等条件。
DeepSeek-OCR 并非孤例。几乎在同一时期,社区还涌现出两篇高度相关的工作——《See the Text: From Tokenization to Visual Reading》与《Glyph: Scaling Context Windows via Visual-Text Compression》。