大模型 1/?

我们向 GPT 输入的文字是如何被它处理的？#

众所周知，计算机是不理解人类的自然语言，所以需要做一些适配计算机的处理。例如下方的图片，我们输入“The cat sat ___”，它会经历下面几个流程：

首先是分词，计算机的单位是 Token（词元）而不是单词，我们会使用一个分词算法 BPE 将单词划分为 Token。
之后这些 Token （包括位置编码）便会进入到 Embedding Matrix，这个矩阵的作用是将刚才我们输入的自然语言转换为这个 Token 的特征向量。
经过 Transformer 层之后我们选取最后一列作为 GPT 的预测特征向量，通过 Unembedding Matrix 将特征向量又转换为 Token，从而实现了自然语言的输入与输出过程。

而这其实就是所谓的“Embedding”，即将自然语言转换为计算机能够理解的数字向量，这些向量并不是随机的数字组合，它们其实是带有语义信息的。

在高质量的 Embedding 模型中，你会发现以下有趣的现象：

Vector(\text{“国王”}) - Vector(\text{“男人”}) + Vector(\text{“女人”}) \approx Vector(\text{“王后”})

这个公式背后的逻辑是：

Note

除了加减法，Embedding 的强大之处还在于距离。在计算机的向量空间里，意思相近的词，其坐标位置也非常接近。

例如：

这种特性让计算机不再只是进行简单的“字符串匹配”，而是真正开始“理解”内容。即使你搜索“好吃的红果子”，Embedding 也能让搜索引擎联想到“苹果”或“草莓”，因为它知道这些词在语义空间里是邻居。

Note

Embedding 的本质：高维特征映射

如果把每一个词看作一个多维度的“身份标签”，Embedding 就像是在给每个词打分。一个 512 维的向量，意味着计算机从 512 个不同的角度（虽然这些角度对人类来说可能难以直接描述）去审视这个词：

维度	维度描述 (假设)	“猫” 的数值	“狗” 的数值	“手机” 的数值
Dim 1	是否为生物	0.98	0.99	0.02
Dim 2	是否有毛发	0.95	0.92	0.01
Dim 3	是否为电子产品	0.01	0.02	0.97

通过这种方式，自然语言的模糊性被转化为了数学的精确性。