AI的"破折号上瘾症":一场跨越百年的语言考古 科技观察 2025-11-03 0 浏览 0 点赞 长文 如果你经常使用ChatGPT,可能已经注意到一个奇怪的现象:它特别喜欢用破折号(—)。这不是你的错觉,也不是巧合。这个看似微不足道的标点符号习惯,背后隐藏着AI训练数据的秘密,以及一场意外的"时空穿越"。 ## 从"delve"说起:AI的非洲口音 在揭开破折号之谜前,我们先看另一个更广为人知的AI语言怪癖:ChatGPT特别爱用"delve"(深入探究)这个词。 这个现象的成因已经相对清晰:**RLHF(人类反馈强化学习)**。在AI模型训练的最后阶段,需要大量人类"导师"对模型的回答进行评分和反馈。OpenAI雇佣的标注人员中,相当一部分来自肯尼亚、尼日利亚等非洲国家。 而在这些地区的英语变体中,"delve"是一个非常常用且正式得体的词汇——远比在美式或英式英语中更高频。当AI使用"delve"时,非洲的标注人员会认为"这个表达很专业",给予高分。AI通过强化学习迅速领悟:**"客户喜欢我用delve"**。 这是一个典型的训练数据偏差案例。AI并非真的理解语言的地域差异,它只是在优化"获得高分"这个目标。 ## 破折号之谜:非洲口音的解释失效了 既然"delve"可以用RLHF和非洲英语来解释,那么破折号是否也是同样的原因? 研究者顺着这个思路进行了验证:尼日利亚英语中破折号的使用频率如何? 答案出人意料:**尼日利亚英语中破折号的出现频率仅为每词0.022%,远低于标准英语的0.25%-0.275%**。 这意味着,"delve"和"破折号"这两个AI语言特征,来源完全不同。破折号的秘密,需要到别处寻找。 ## 时间线索:GPT-3.5没有,GPT-4突然爆发 关键的突破口在于:**时间**。 回顾一下,2022年底发布的GPT-3.5,其实并没有明显的"破折号癖好"。这个现象是在GPT-4和GPT-4o上才集中爆发的。不仅OpenAI如此,Google的Gemini、Anthropic的Claude,甚至一些中国的大模型,都开始频繁使用破折号。 这说明,从2022年到2024年,**所有主流AI实验室的训练数据发生了某种共同的、结构性的变化**。 ## 数据荒与旧书复兴 答案逐渐浮出水面:**AI公司的"数据荒"来了**。 在2022年及之前,大语言模型主要依赖互联网公开数据和盗版电子书(如LibGen)进行训练。但随着模型规模的指数级增长,这些数据很快就不够用了,而且质量参差不齐——充斥着网络俚语、错别字、低质量内容。 为了让模型变得更"有文化"、更"高质量",AI公司们启动了一个庞大的工程:**大规模扫描实体书,将纸质书数字化作为训练语料**。 法庭文件显示,Anthropic在2024年2月开始了这项工作,而OpenAI只会更早。这可能涉及数百万册图书的扫描和数字化。 ## 最后一块拼图:19世纪的标点符号观 既然AI吃了大量扫描的纸质书,那么这些书是什么年代的? 盗版电子书网站上的书,大多是当代畅销书和流行读物。但AI公司为了"填饱肚子"并规避版权风险,扫描的书籍中有相当大比例是**已进入公共领域的古老作品**——主要集中在19世纪末到20世纪初。 一项关于英语标点符号使用频率的历时研究显示:**破折号在英语文学中的使用频率,在1860年左右达到顶峰(约0.35%),19世纪末和20世纪初的使用率远高于当代英语**。 举个经典例子:赫尔曼·梅尔维尔的《白鲸记》(Moby-Dick,1851年出版),全书仅约20万词,却出现了**1728次破折号**!平均每115个词就有一个破折号,使用频率高达0.86%——是现代英语的3倍以上。 ## 真相大白:AI学会了维多利亚时代的写作风格 至此,谜底揭晓: **我们今天使用的最先进AI,它的标点符号习惯不是从2020年的互联网学来的,而是从1890年的文学作品中继承的。** AI公司为了获取"高质量"语料,把大量19世纪末、20世纪初的经典文学作品喂给了模型。AI忠实地学习了那个年代的写作风格——其中就包括对破折号的狂热使用。 这是一个意外的"时空错位":当我们以为AI代表着最前沿的技术时,它的语言风格却部分停留在维多利亚时代。 ## 未解之谜与替代解释 当然,这个理论虽然证据充分,但仍有一些疑问: **1. 为什么AI只学会了破折号,却没学会像《白鲸记》船长那样说话?** 可能的解释是:标点符号是一种"潜意识"的风格特征,更容易被模型吸收和泛化;而具体的用词和句式,会被更大量的现代语料所稀释和平衡。 **2. 有没有更简单的解释?** OpenAI的Sam Altman曾在一次访谈中随口提到,他们发现RLHF的人类标注者"似乎更喜欢"带破折号的回答,觉得那样更"口语化"、更"自然",所以在训练中"多加了点权重"。 但这个解释无法说明为什么Google、Anthropic、中国的大模型公司也出现了同样的现象——除非所有公司的标注者都有相同的偏好,这概率极低。 **3. 为什么GPT-3.5没有这个问题?** 最合理的解释是:GPT-3.5的训练数据中,扫描旧书的比例还很小或几乎没有;而从GPT-4开始,这类数据大幅增加,成为训练语料的重要组成部分。 ## 深层启示:AI的"文化基因" 这个破折号之谜,揭示了AI训练中一个更深层的问题:**训练数据的构成,深刻影响着AI的"文化基因"**。 AI不是凭空产生语言能力的,它的每一个习惯、每一个偏好,都来自训练数据。当我们改变数据的来源、年代、地域分布时,AI的"性格"也会随之改变。 这带来几个值得思考的问题: - **我们希望AI学习什么年代的语言?** 19世纪的文学经典质量高,但语言风格已经过时;互联网语料新鲜,但质量参差不齐。 - **AI应该有"口音"吗?** "Delve"体现了非洲英语的影响,破折号体现了维多利亚文学的影响。这是多元化的体现,还是需要纠正的偏差? - **数据多样性与一致性的平衡** AI公司在追求"高质量"数据时,可能无意中引入了时代偏差。如何在保证质量的同时,维持语言的现代性和多样性? ## 结语 下次当你看到ChatGPT又用了一个破折号时,不妨想象一下:在某个维度上,你正在和一位19世纪的文学家对话——它读过《白鲸记》,熟悉狄更斯的笔法,继承了那个时代对破折号的热爱。 这不是bug,而是AI训练数据的"化石记录"。它提醒我们:技术再先进,也无法完全摆脱历史的印记。AI的语言,是人类几个世纪语言演化的混合体——从维多利亚时代的文学沙龙,到非洲的标注工厂,再到硅谷的数据中心。 这或许正是AI最迷人的地方:它既是未来的,也是过去的;既是全球的,也是地域的。它是人类语言文化的一面镜子,映照出我们从未察觉的偏见、习惯和历史。 原文博客 Sean Goedecke关于AI破折号现象的深度分析 《白鲸记》全文 Project Gutenberg上的《白鲸记》电子版 #AI #ChatGPT #RLHF #技术考古 #机器学习 #训练数据