Pixiv - KiraraShss
805 字
4 分钟
大模型 1/?
我们向 GPT 输入的文字是如何被它处理的?
众所周知,计算机是不理解人类的自然语言,所以需要做一些适配计算机的处理。例如下方的图片,我们输入“The cat sat ___”,它会经历下面几个流程:
- 首先是分词,计算机的单位是 Token(词元) 而不是单词,我们会使用一个分词算法 BPE 将单词划分为 Token。
- 之后这些 Token (包括位置编码)便会进入到 Embedding Matrix,这个矩阵的作用是将刚才我们输入的自然语言转换为这个 Token 的特征向量。
- 经过 Transformer 层之后我们选取最后一列作为 GPT 的预测特征向量,通过 Unembedding Matrix 将特征向量又转换为 Token,从而实现了自然语言的输入与输出过程。

而这其实就是所谓的“Embedding”,即将自然语言转换为计算机能够理解的数字向量,这些向量并不是随机的数字组合,它们其实是带有语义信息的。
经典案例:国王与王后的数学逻辑
在高质量的 Embedding 模型中,你会发现以下有趣的现象:
这个公式背后的逻辑是:
- 提取特征:当“国王”减去“男人”,模型实际上在语义层面去掉了“男性”这个维度,剩下了“皇室/统治者”的核心含义。
- 赋予特征:再加上“女人”,模型将“皇室/统治者”与“女性”特征结合,最终指向了空间中距离“王后”最近的坐标点。
Note
除了加减法,Embedding 的强大之处还在于距离。 在计算机的向量空间里,意思相近的词,其坐标位置也非常接近。
例如:
- “苹果”和“梨”的距离,会比“苹果”和“自行车”的距离近得多。
- “开心”和“愉悦”在多维空间中几乎是重叠的,而“开心”和“愤怒”则会处于截然相反的方向。
这种特性让计算机不再只是进行简单的“字符串匹配”,而是真正开始“理解”内容。即使你搜索“好吃的红果子”,Embedding 也能让搜索引擎联想到“苹果”或“草莓”,因为它知道这些词在语义空间里是邻居。
Note
Embedding 的本质:高维特征映射
如果把每一个词看作一个多维度的“身份标签”,Embedding 就像是在给每个词打分。一个 512 维的向量,意味着计算机从 512 个不同的角度(虽然这些角度对人类来说可能难以直接描述)去审视这个词:
| 维度 | 维度描述 (假设) | “猫” 的数值 | “狗” 的数值 | “手机” 的数值 |
|---|---|---|---|---|
| Dim 1 | 是否为生物 | 0.98 | 0.99 | 0.02 |
| Dim 2 | 是否有毛发 | 0.95 | 0.92 | 0.01 |
| Dim 3 | 是否为电子产品 | 0.01 | 0.02 | 0.97 |
通过这种方式,自然语言的模糊性被转化为了数学的精确性。
文章分享
如果这篇文章对你有帮助,欢迎分享给更多人!
最后更新于 2026-01-24,距今已过 90 天
部分内容可能已过时
printsdf's Blog