What are embeddings? - 系统理解机器学习中的嵌入概念 Vicki Boykis 2025-10-31 0 浏览 0 点赞 长文 电子书 What are embeddings? 这篇文章系统地介绍了"嵌入"(Embeddings)这一机器学习中的核心概念。 嵌入是将文本、图片等多模态数据转换为数值形式的向量,以便于深度学习模型进行计算和处理。 作者的思考 作者 Vicki Boykis 给本书写的推荐也很有意思: "如果我们不理解我们是如何从一个单词变成一个 BERT 表示(更重要的是,我们为什么要这样做)的基础知识,那么这些模型对我们来说将永远是黑匣子。" 毕加索的启示 "如果你去巴塞罗那的毕加索博物馆,你会看到毕加索这位艺术家许多早期的作品。它们真的很有趣,因为它们看起来并不像我们所认为的毕加索风格。这些在他早年完成的画作,展示了他作为一名古典主义画家的技术天赋。" 作者通过毕加索的例子说明:在达到可以摒弃传统风格的境界之前,毕加索必须先精通它们。这对于机器学习也是如此。 基础的重要性 在大语言模型的前沿领域,有着一个充满激动人心发展的全新世界。但在这些尖端技术的喧嚣中,许多重要的基础概念被忽略了。 如果我们不理解我们是如何从一个单词变成一个 BERT 表示(更重要的是,我们为什么要这样做)的基础知识,那么这些模型对我们来说将永远是黑匣子。我们将无法在它们的基础上进行构建,也无法以我们想要的方式去驾驭它们。 创作动机 彼得·诺维格(Peter Norvig)敦促我们要用十年的时间来教自己编程。本着这种精神,在与"嵌入"(embeddings)——深度学习模型中的基础数据结构——打了几年的交道之后,作者意识到要对它们有一个好的概念模型并非易事。 而且,当想学习更多时,却没有一个好的、通用的文本可以作为起点。现有的资料要么过于艰深和学术化,要么过于肤浅,是这个领域的供应商为了推销其解决方案而制作的内容。 内容定位 这个项目的结果就是这个网站上的 PDF,它面向的是普通读者,除了"向量很酷"这个想法之外,不试图向你推销任何东西。 目标读者 作者希望这份文档能将"嵌入"置于商业和工程的背景下,以便包括以下人群都能觉得它有用: - 工程师 - 产品经理 - 学生 - 任何希望学习更多基础知识的人 核心理念 毕加索的名言: > 当艺术评论家聚在一起时,他们谈论的是形式、结构和意义。当艺术家们聚在一起时,他们谈论的是哪里可以买到便宜的松节油。 机器学习,就像所有优秀的工程和艺术一样,最终是我们表达自我的一种方式,是一门由基本的构件和模式组成的技艺,它赋予我们力量,让我们能够在前人打下的坚实基础上,创造出美好的事物。 总结 这是一本面向普通读者的嵌入技术入门书籍,强调基础概念的重要性,避免过度学术化或商业化,帮助读者真正理解机器学习的核心构件。 在线阅读:https://vickiboykis.com/what_are_embeddings/ 在线阅读 What are embeddings? 完整电子书 #Embeddings #向量 #基础知识 #教程 #机器学习 #深度学习 #电子书 #自然语言处理