DeepSeek OCR 厉害了!仅用 1000 美元处理 50 万篇 arXiv 论文
alphaXiv 使用 DeepSeek OCR 处理了超过 50 万篇 AI 领域的 arXiv 论文,仅花费 1000 美元,相比 Mistral OCR 节省 85% 成本。
alphaXiv 使用 DeepSeek OCR 处理了超过 50 万篇 AI 领域的 arXiv 论文,仅花费 1000 美元,相比 Mistral OCR 节省 85% 成本。
DeepSeek-OCR 的有损光学压缩技术已经有落地了! 技术背景 大家都知道 DeepSeek-OCR 发布时提出了一个新的方法:如果不给大模型直接输入文字,而是先把文字变成图片,让视觉大模型去"看"这些文字,直接转换为嵌入向量输入到大模型。 核心优势 这样带来的好处是能显著压缩上下文,让大模型能"看"更多东西。 Un-LOCC 项目
又一个 DeepSeek-OCR 应用!这次是本地的!可以在 Windows 桌面运行。 核心功能 只需要把需要解析的图片拖进去就能图片转文本了。图片内部的表格和其他格式都能识别出来。 技术架构 基于 Electron(读作 Electron 写作 Chrome)构建,这意味着它本质上是一个使用 Web 技术构建的桌面应用。 主要特点 *
DeepSeek OCR 的论文,让很多大佬开始讨论一个深刻的问题:对大模型来说,图像会不会是比文本更好的输入形式? 中南大学的探索 中南大学 CSU-JPG 实验室发表了一篇文章,深入探讨了人类与 LLM 处理文本的不同方式。 人类 vs LLM:处理文本的差异 LLM 的处理方式: LLM 通过将句子切分为子词单元(如"vis","ion"
AI 大神 Andrej Karpathy 对 DeepSeek 那篇 DeepSeek-OCR 的论文评价很高,但他关注的重点出人意料。 不是 OCR 本身,而是更深层的启示 你可能以为他会说:"哇,这个 OCR 模型真厉害,识别率又提升了!"但他没有。相反,他几乎是挥了挥手说:"它是个不错的 OCR 模型,但这不重要。" 真正让他兴奋的,是这篇论文引出的一个更具颠覆性
最近有个工作火的很莫名其妙,不少自媒体对 DeepseekOCR 工作做了一些很错误的解读【本质是不看论文却写爽文的后果】,因此本文来做个纠偏,要尊重技术,不要玩弄概念。 常见认知误区: 误区一:DeepSeek-OCR 开创了文本转图片处理 许多自媒体宣称"把文本转图片处理,deepseek-ocr 开创了 xxxx",这是完全错误的解读。实际上,这种思路并非首
最近关于 DeepSeek-OCR 的讨论非常热烈,但许多解读可能误判了其成功的核心原因。将文本渲染成图像以压缩 Token,并非全新或唯一的思路。DeepSeek-OCR 的成功不应简单归功于图像表示法的魔力。 问题的本质:表示形式不是关键 实际上,问题的关键不在于表示形式是文本还是图像。 Token 压缩并非新大陆 剑桥大学的研究者早已证明,通过对语言模