高质量 OCR 识别与图像描述 ylc3000 2025-10-28 0 浏览 0 点赞 resource 在日常处理图片时,经常需要识别图像中的文字内容、生成智能描述或快速查找指定关键词。DeepSeek OCR 项目集合了多种实用功能,提供了一站式文本识别解决方案。该项目采用 React 前端与 FastAPI 后端构建,界面设计时尚流畅,并支持拖拽上传大文件(默认可达 100MB)。 核心特点包括: - 四种核心 OCR 模式:纯文本识别、图像描述、关键词查找和自由定制模式; - 高效的前后端交互,支持 HTML 和 Markdown 格式输出; - 采用 Docker Compose 部署,环境变量配置灵活,便于本地运行与生产环境使用; - 自动适应图片尺寸的动态裁剪和边框计算,确保识别结果与实际图片精度匹配; - 详细的 GitHub 文档指导从快速启动到调试问题全流程操作。 GitHub 地址:github.com/rdumasia303/deepseek_ocr_app/ 该项目适合需要高质量 OCR 识别与图像描述服务的开发者及企业使用,项目遵循 MIT 开源协议,欢迎大家参与贡献与反馈。