ChatGPT 的工作原理:空间含义和语义运动规则
如上所述,在 ChatGPT 中,任何一段文本都由一系列数字有效表示,我们可以将其视为一种“语言特征空间”坐标的要点。 所以当ChatGPT延续一段文本时,就相当于在语言特征空间中追踪一条路径。 但是现在我们可以问是什么让这条路径对应于我们认为有意义的文本。也许存在某种“语义运动定律”来定义——或者至少限制——语言功能空间中的点如何移动,同时保留“意义”?
那么,这个语言特征空间是什么样的呢?下面是一个示例,说明如果我们将这样的函数空间投影到二维空间中,单个单词(这里是常见名词)的布局方式:
我们上面看到的另一个例子是基于表示植物和动物单词。但这两种情况的要点是“语义相似的单词”被放置在附近。
再举个例子,下面是对应于不同词性的单词的排列方式:
当然,一个给定的单词通常并不具有“一种含义”(或者不一定只对应于一种话语)。通过查看函数空间中包含单词的句子的设计,我们通常可以“区分”不同的含义 - 就像这里的例子中的“crane”(crane,“bird”还是“machine”?):
Ok,所以我们至少可以认为这个特征空间将“具有相似含义的单词”放在这个空间中,这是合理的。但是我们可以在这个空间中识别出哪些额外的结构呢?例如,是否有一个反映空间“平坦性”的“平行运输”概念?理解这个问题的一种方法是看一下类比:
而且,是的,即使我们投影到二维中,通常至少存在“平坦度的背面”,尽管肯定不是普遍可见的。
那么,赛道呢?我们可以看看ChatGPT在特征空间中暗示的路径——然后我们可以看看ChatGPT如何延续这条路径:
这里绝对不存在“几何上明显”的运动定律。这一点也不奇怪。我们完全预料到这将是一个相当复杂的故事。例如,即使可以找到“运动语义定律”,它在哪个嵌入(或者实际上是哪个“变量”)中最自然地表达也远非显而易见。
在上图中,我们展示了几个“路径”中的步骤 - 在每一步中,我们选择 ChatGPT 认为最有可能的单词(“零温度”情况)。但我们也可以问,在某个时间,哪些单词可以以什么概率“下一个”:
在这种情况下,我们看到有一个高概率单词的“粉丝”,这些单词似乎在特征空间或多或少是一个明确的方向。如果我们更进一步会发生什么?这是当我们沿着轨道“移动”时出现的连续“扇形”:
这是总共 40 步的三维表示:
而且,是的,它看起来很乱 - 而且它是未完成的事情特别鼓励这样一种想法,即我们可以期望通过实证研究“ChatGPT 在其中做什么”来识别“类似数学物理”的“运动语义定律”。但也许我们只是查看“错误的变量”(或错误的坐标系),只要我们查看正确的变量,我们就会立即看到 ChatGPT 正在做一些“简单的数学物理”,如下所示测地线。但到目前为止,我们还没有准备好从ChatGPT的“内部行为”“经验解码”来“发现”人类语言是如何“拼凑在一起”的。
版权声明
本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。