Andrej Karpathy 论 DeepSeek-OCR:AI 应该用像素而非文本作为输入 Andrej Karpathy 2025-10-24 0 浏览 0 点赞 长文 AI 大神 Andrej Karpathy 对 DeepSeek 那篇 DeepSeek-OCR 的论文评价很高,但他关注的重点出人意料。 **不是 OCR 本身,而是更深层的启示** 你可能以为他会说:"哇,这个 OCR 模型真厉害,识别率又提升了!"但他没有。相反,他几乎是挥了挥手说:"它是个不错的 OCR 模型,但这不重要。" 真正让他兴奋的,是这篇论文引出的一个更具颠覆性的想法:**我们是不是从一开始就喂错"语料"给 AI 了?** **Karpathy 的核心观点** 也许,大型语言模型(LLM)的输入端,根本就不应该是"文本"(Text),而应该永远是"像素"(Pixels)。 这个想法听起来有点绕。我们明明有纯文本,为什么非要先把它"渲染"成一张图片,再喂给 AI 去看呢? **四大理由:** **1. 效率问题:信息压缩更高效** 我们现在用"文本"喂 AI,是通过一个叫"Tokenizer"(分词器)的东西,把句子切成一个个"词元"(Token)。比如"Hello, world!"可能被切成 ["Hello", ",", " world", "!"]。 问题是,这种方式可能很"浪费"。而 DeepSeek-OCR 这篇论文无意中提供了一个佐证:它证明了,AI 可以只用 100 个"视觉词元"(Vision Tokens),就高精度地"解压缩"出包含 1000 个"文本词元"的原文内容。 这就像,你给 AI 的不是一长串啰嗦的文字,而是一小块高密度的"信息压缩饼干"(图片)。AI "吃"下去(处理)的上下文窗口更短,效率自然更高。 **2. 信息更"保真",不再丢失细节** 想象一下,你让 AI 帮你阅读一个网页。现在的"文本"输入方式,就像是你通过电话把网页内容念给 AI 听。所有加粗、颜色、字体大小、排版布局……这些视觉信息全都丢失了。 而"像素"输入方式,就像是你直接截了一张图发给 AI。哪个信息更全?不言而喻。 Karpathy 认为,像素是一个"信息流更广"的输入方式。它不仅能处理纯文本,还能自然地理解文本的样式(粗体、颜色),甚至页面上任意的图表和图像。 **3. 绕开 AI 分词器** Karpathy 真正的"怨念"在于:他想彻底干掉"分词器"(Tokenizer)。他直言不讳地"炮轰": > "我必须再说一次我有多讨厌分词器。分词器是丑陋的、分离的、非端到端的。它'进口'了所有 Unicode 编码、字节编码的丑陋之处,继承了大量历史包袱,还带来了安全/越狱风险……它必须被淘汰。" 为什么他这么恨分词器?分词器就像是 AI 的"嘴替"和"眼替",它强行介入在"原始文本"和"AI 大脑"之间。这个"中间商"不仅笨拙,而且会扭曲信息。 **经典案例:笑脸表情符号** 一个笑脸表情符号"😀": - 通过"分词器",AI 看到的不是一张"笑脸",而是一个奇特的内部代码,比如 [tok482]。AI 无法利用它在看图时学到的关于"人脸"和"微笑"的知识来理解这个符号。 - 但如果输入的是一张包含"😀"的图片,AI 的"视觉"部分会立刻认出:哦,这是一张微笑的脸。 哪个更符合直觉?哪个更智能?像素输入,让 AI 得以"眼见为实"。 **4. 重新定义 AI 的"输入"与"输出"** Karpathy 的设想是,未来的 AI 模型,其"输入端"(用户提问)应该只接收图像(像素),而"输出端"(AI 回答)则可以保持为文本。 为什么?因为"看懂一张图"(视觉到文本)的任务,远比"画出一张逼真的图"(文本到视觉)要容易得多,也实用得多。 这种"输入用眼(像素),输出用嘴(文本)"的架构,也天然契合了 AI 处理信息的两种模式: - **输入(Encoding)**:像人一样,一口气看完整个页面(图片),全盘理解(即双向注意力) - **输出(Decoding)**:像人一样,一个词一个词地往外说(即自回归) **真正的价值:概念验证** DeepSeek-OCR 这篇论文的真正价值,不在于它提供了一个多好的 OCR 工具,而在于它充当了一次"概念验证"(Proof-of-Concept)。它用实验数据证明了:用"看图"的方式来"读书",是完全可行的,而且可能效率更高。 这不仅仅是"文本到文本"(Text-to-Text)任务变成了"视觉到文本"(Vision-to-Text)任务,它暗示了一个更根本的转变——**AI 的主要信息入口,正在从"语言"转向"视觉"**。 **未来展望** 难怪 Karpathy 最后会说,他现在"手很痒",很想去搞一个"纯图像输入"的聊天机器人了。这个小小的 OCR 研究,可能真的撬动了一个大大的未来。 原推文链接 Andrej Karpathy 在 X 平台上的原始观点 #AI #DeepSeek #OCR #Tokenizer #大语言模型 #技术洞察 #深度学习 #计算机视觉