OLMoOCR 2:基于强化学习的开源高精度文档 OCR 工具 Allen AI 2025-10-29 0 浏览 0 点赞 长文 OLMoOCR 2 是一款开源高效文档转换工具,专注将 PDF 及多种格式文档精准转为纯文本,同时保持自然的阅读顺序。它支持表格、公式、手写内容等复杂元素,适用范围广泛。 该版本基于大量精选学术论文、技术文档等高质量数据训练,结合合成数据与强化学习中的单元测试奖励机制,显著降低了"幻觉"错误,提升了识别准确率。当前模型在多语言视觉语言模型基础上微调,主要优化英文文档,其他语言也具备一定兼容性。 用户不仅可在线体验,还能在自有 GPU 上部署完整工具包,实现高效、可扩展的批量文档处理,成本低廉。此工具为科研、教育及档案数字化提供了强大支持,推动文档自动化处理迈向更精准智能的未来。 完整技术细节见技术报告,在线演示及源码地址:olmocr.allenai.org OLMoOCR 官网 OLMoOCR 2 在线演示和源码地址 #AI #Allen AI #OCR #PDF转换 #强化学习 #文档处理 #文档数字化