ChatGPT 的工作原理:类人任务模型
上面的示例涉及对数值数据进行建模,这些数据基本上来自简单的物理学 - 几个世纪以来我们都知道“简单的数学适用”。 但是对于ChatGPT,我们需要建立一个人类语言文本的模型,即由人脑产生的那种。 对于类似的事情,我们还没有(至少现在还没有)任何类似于“简单数学”的东西。那么它的模型会是什么样子呢?
在谈论语言之前,我们先来谈谈另一个类人任务:识别图像。作为一个简单的例子,让我们考虑数字图像(是的,这是一个经典的机器学习示例):
我们可以做的一件事是为每个数字获取一堆样本图像:
然后找出答案,如果我们的输入图像与某个数字匹配,我们只需与我们拥有的样本进行显式的逐像素比较。但作为人类,我们似乎能够做得更好——因为我们仍然可以识别数字,即使它们是手写的并且经过各种修改和扭曲。
在为上面的数值数据建立模型时,我们可以取给定的数值x,然后针对特定的a和b计算a + bx。
所以如果我们将这里每个像素的灰度值处理为变量 xi,是否存在所有这些变量的函数,在评估时告诉我们该图像是多少?事实证明,建立这样的功能是可能的。毫不奇怪,这并不简单。一个典型的例子可能涉及五十万次数学运算。
但最终结果是,如果我们将图像中的像素值集合输入到此函数中,我们会得到一个数字,该数字指定我们的图像是什么数字。稍后我们将讨论如何构建这样的函数以及神经网络的概念。但是现在让我们将此函数视为一个黑匣子,例如,我们输入手写数字的图像(作为像素值数组),然后我们得到这些数字的相应数字:
但是这里到底发生了什么?假设我们逐渐模糊了一个数字。有一段时间我们的函数仍然“识别”它,在本例中是“2”。但很快它就“输了”并开始给出“错误”的结果:
但是为什么我们说这是一个“错误”的结果呢?在这种情况下,我们知道我们通过模糊“2”来获得所有图像。但如果我们的目标是建立一个人们识别图像的模型,那么真正要问的问题是,如果人们在不知道其来源的情况下遇到这些模糊的图像,他们会怎么做。
如果我们从函数中得到的结果大体上与人类所说的一致,那么我们就有了一个“好模型”。重要的科学事实是,对于这样的图像识别任务,我们现在基本上知道如何构建这样的函数。
我们可以“用数学方式证明”它们的效果吗?所以不行。因为要做到这一点,我们需要一个关于人类行为的数学理论。以“2”图像为例,移动几个像素。我们可以想象,只有几个像素“不合适”,我们仍然应该将这张图像视为“2”。但这应该到什么程度呢?这是人类视觉感知的问题。是的,对于蜜蜂或章鱼来说,答案无疑是不同的——对于所谓的外星人来说,答案可能也完全不同。
版权声明
本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。