网闻录 - 专注IT技术关注AI前沿

筛选：#DeepSeek清除

短文

DeepSeek OCR 厉害了！仅用 1000 美元处理 50 万篇 arXiv 论文

alphaXiv 使用 DeepSeek OCR 处理了超过 50 万篇 AI 领域的 arXiv 论文，仅花费 1000 美元，相比 Mistral OCR 节省 85% 成本。

5月前alphaXiv

项目

Un-LOCC：DeepSeek-OCR 有损光学压缩技术落地项目

DeepSeek-OCR 的有损光学压缩技术已经有落地了！技术背景大家都知道 DeepSeek-OCR 发布时提出了一个新的方法：如果不给大模型直接输入文字，而是先把文字变成图片，让视觉大模型去"看"这些文字，直接转换为嵌入向量输入到大模型。核心优势这样带来的好处是能显著压缩上下文，让大模型能"看"更多东西。 Un-LOCC 项目

5月前MaxDevv

项目

DeepSeek-OCR 本地桌面应用：拖拽即可图片转文本

又一个 DeepSeek-OCR 应用！这次是本地的！可以在 Windows 桌面运行。核心功能只需要把需要解析的图片拖进去就能图片转文本了。图片内部的表格和其他格式都能识别出来。技术架构基于 Electron（读作 Electron 写作 Chrome）构建，这意味着它本质上是一个使用 Web 技术构建的桌面应用。主要特点 *

5月前ihatecsv

长文

People See Text：图像会不会是比文本更好的 AI 输入形式？

DeepSeek OCR 的论文，让很多大佬开始讨论一个深刻的问题：对大模型来说，图像会不会是比文本更好的输入形式？中南大学的探索中南大学 CSU-JPG 实验室发表了一篇文章，深入探讨了人类与 LLM 处理文本的不同方式。人类 vs LLM：处理文本的差异 LLM 的处理方式： LLM 通过将句子切分为子词单元（如"vis"，"ion"

5月前CSU-JPG 实验室

长文

Andrej Karpathy 论 DeepSeek-OCR：AI 应该用像素而非文本作为输入

AI 大神 Andrej Karpathy 对 DeepSeek 那篇 DeepSeek-OCR 的论文评价很高，但他关注的重点出人意料。不是 OCR 本身，而是更深层的启示你可能以为他会说："哇，这个 OCR 模型真厉害，识别率又提升了！"但他没有。相反，他几乎是挥了挥手说："它是个不错的 OCR 模型，但这不重要。" 真正让他兴奋的，是这篇论文引出的一个更具颠覆性

5月前Andrej Karpathy

长文

Deepseek-OCR 认知误区纠偏及 Glyph 视觉 Token 方案落地坑点

最近有个工作火的很莫名其妙，不少自媒体对 DeepseekOCR 工作做了一些很错误的解读【本质是不看论文却写爽文的后果】，因此本文来做个纠偏，要尊重技术，不要玩弄概念。常见认知误区：误区一：DeepSeek-OCR 开创了文本转图片处理许多自媒体宣称"把文本转图片处理，deepseek-ocr 开创了 xxxx"，这是完全错误的解读。实际上，这种思路并非首

5月前技术博主

长文

DeepSeek-OCR 背后的真相：LLM 嵌入空间的巨大潜力

最近关于 DeepSeek-OCR 的讨论非常热烈，但许多解读可能误判了其成功的核心原因。将文本渲染成图像以压缩 Token，并非全新或唯一的思路。DeepSeek-OCR 的成功不应简单归功于图像表示法的魔力。问题的本质：表示形式不是关键实际上，问题的关键不在于表示形式是文本还是图像。 Token 压缩并非新大陆剑桥大学的研究者早已证明，通过对语言模

5月前Kangwook Lee

— 已经到底了 —

筛选：#DeepSeek清除

短文

DeepSeek OCR 厉害了！仅用 1000 美元处理 50 万篇 arXiv 论文

alphaXiv 使用 DeepSeek OCR 处理了超过 50 万篇 AI 领域的 arXiv 论文，仅花费 1000 美元，相比 Mistral OCR 节省 85% 成本。

5月前alphaXiv

项目