People See Text:图像会不会是比文本更好的 AI 输入形式? CSU-JPG 实验室 2025-10-24 0 浏览 0 点赞 长文 DeepSeek OCR 的论文,让很多大佬开始讨论一个深刻的问题:对大模型来说,图像会不会是比文本更好的输入形式? **中南大学的探索** 中南大学 CSU-JPG 实验室发表了一篇文章,深入探讨了人类与 LLM 处理文本的不同方式。 **人类 vs LLM:处理文本的差异** **LLM 的处理方式:** LLM 通过将句子切分为子词单元(如"vis","ion"等)并将每个子词转换为数字 ID 来处理文本。这种"标记化"(Tokenization)方法虽然有效,但存在明显的局限性: - 丢失文本的视觉特征 - 丢失文本的结构连贯性 - 无法像人类一样理解文字的整体形式 - 割裂了视觉与语义的天然联系 **人类的处理方式:** 人类阅读文本时,首先是通过视觉系统感知文字的形状、结构和布局,然后才理解其语义。视觉和语言在人类认知中是统一的、不可分割的。 **核心观点:文本首先是视觉** 文章提出了几个深刻的观点: **1. 文本首先是视觉,而非仅是符号** 文字不仅仅是抽象的符号系统,它首先是一种视觉形式。字体、大小、颜色、排版——这些视觉元素都承载着重要的信息和情感。 **2. 视觉就是语言,两者并不割裂** 在人类认知中,视觉和语言是深度融合的。我们"看见"文字的同时就在理解它的含义。这种统一性是当前 LLM 所缺失的。 **3. 压缩即是感知,而非仅是工程手段** 将文本转换为图像并压缩,不仅仅是一种工程优化手段,更是一种更接近人类感知方式的信息处理方法。 **技术启示** 这个观点与 DeepSeek-OCR 的研究不谋而合: - **效率提升**:图像可以更高效地压缩信息 - **信息完整**:保留了文本的所有视觉特征 - **认知对齐**:更接近人类的认知方式 - **多模态融合**:自然地统一了视觉和语言 **终极目标** 让模型像人类一样去读、去写、去"看见"文本。 **People see text. 很快,LLMs 与 LVMs 也会如此。** **深层意义** 这不仅仅是一个技术问题,更是一个认知科学和人工智能哲学的问题: 1. **重新定义输入方式**:从符号到视觉的转变 2. **统一多模态理解**:视觉和语言的深度融合 3. **接近人类认知**:让 AI 更像人一样思考 4. **突破技术瓶颈**:解决当前 Tokenizer 的局限性 **未来展望** 随着 DeepSeek-OCR 等研究的推进,我们可能正在见证 AI 输入方式的一次范式转变: - 从文本 Token 到视觉 Token - 从符号处理到视觉感知 - 从割裂的多模态到统一的认知模型 **为什么重要?** 这个转变可能会: - 大幅提升模型效率 - 增强信息理解能力 - 实现更自然的人机交互 - 推动 AGI 的发展 **结语** 文本不仅仅是符号,它首先是视觉。当我们让 AI 像人类一样"看见"文本时,我们可能正在打开通往更智能 AI 的大门。 这是一个值得深思的方向,也是 AI 领域正在发生的重要转变。 原文链接 People See Text - 中南大学 CSU-JPG 实验室博客文章 #AI #DeepSeek #OCR #多模态 #大语言模型 #深度学习 #计算机视觉 #认知科学