805 字
4 分钟

大模型 1/?

2026-01-24
浏览量 加载中...

我们向 GPT 输入的文字是如何被它处理的?#

众所周知,计算机是不理解人类的自然语言,所以需要做一些适配计算机的处理。例如下方的图片,我们输入“The cat sat ___”,它会经历下面几个流程:

  1. 首先是分词,计算机的单位是 Token(词元) 而不是单词,我们会使用一个分词算法 BPE 将单词划分为 Token。
  2. 之后这些 Token (包括位置编码)便会进入到 Embedding Matrix,这个矩阵的作用是将刚才我们输入的自然语言转换为这个 Token 的特征向量。
  3. 经过 Transformer 层之后我们选取最后一列作为 GPT 的预测特征向量,通过 Unembedding Matrix 将特征向量又转换为 Token,从而实现了自然语言的输入与输出过程。

而这其实就是所谓的“Embedding”,即将自然语言转换为计算机能够理解的数字向量,这些向量并不是随机的数字组合,它们其实是带有语义信息的

经典案例:国王与王后的数学逻辑#

在高质量的 Embedding 模型中,你会发现以下有趣的现象:

Vector(“国王”)Vector(“男人”)+Vector(“女人”)Vector(“王后”)Vector(\text{“国王”}) - Vector(\text{“男人”}) + Vector(\text{“女人”}) \approx Vector(\text{“王后”})

这个公式背后的逻辑是:

  • 提取特征:当“国王”减去“男人”,模型实际上在语义层面去掉了“男性”这个维度,剩下了“皇室/统治者”的核心含义。
  • 赋予特征:再加上“女人”,模型将“皇室/统治者”与“女性”特征结合,最终指向了空间中距离“王后”最近的坐标点。
Note

除了加减法,Embedding 的强大之处还在于距离。 在计算机的向量空间里,意思相近的词,其坐标位置也非常接近。

例如:

  • “苹果”和“梨”的距离,会比“苹果”和“自行车”的距离近得多。
  • “开心”和“愉悦”在多维空间中几乎是重叠的,而“开心”和“愤怒”则会处于截然相反的方向。

这种特性让计算机不再只是进行简单的“字符串匹配”,而是真正开始“理解”内容。即使你搜索“好吃的红果子”,Embedding 也能让搜索引擎联想到“苹果”或“草莓”,因为它知道这些词在语义空间里是邻居。

Note

Embedding 的本质:高维特征映射

如果把每一个词看作一个多维度的“身份标签”,Embedding 就像是在给每个词打分。一个 512 维的向量,意味着计算机从 512 个不同的角度(虽然这些角度对人类来说可能难以直接描述)去审视这个词:

维度维度描述 (假设)“猫” 的数值“狗” 的数值“手机” 的数值
Dim 1是否为生物0.980.990.02
Dim 2是否有毛发0.950.920.01
Dim 3是否为电子产品0.010.020.97

通过这种方式,自然语言的模糊性被转化为了数学的精确性。

文章分享

如果这篇文章对你有帮助,欢迎分享给更多人!

大模型 1/?
https://printsdf.dpdns.org/posts/llm-1/
作者
printsdf
发布于
2026-01-24
许可协议
CC BY-NC-SA 4.0
最后更新于 2026-01-24,距今已过 90 天

部分内容可能已过时

评论区

Profile Image of the Author
printsdf
Hello, I'm printsdf.
公告
欢迎来到我的博客!这是一则示例公告。
音乐
封面

音乐

暂未播放

0:00 0:00
暂无歌词
分类
标签
站点统计
文章
37
分类
12
标签
14
总字数
47,088
运行时长
0
最后活动
0 天前

目录