Code前端首页关于Code前端联系我们

ChatGPT 的工作原理:模型是什么?

terry 2年前 (2023-09-23) 阅读数 68 #AI人工智能

假设您想知道(就像 15 世纪末的伽利略一样)从比萨斜塔每一层投下的炮弹需要多长时间才能落地。无论如何,您都可以对其进行测量并将结果处理到表格中。或者你可以做理论科学的本质:建立一个模型,提供某种计算答案的程序,而不仅仅是测量和记住每个案例。

让我们想象一下,我们有(有点理想化的)关于炮弹从不同楼层落下需要多长时间的数据。

ChatGPT工作原理:什么是模型?

我们如何计算从没有明确数据的地板上跌落需要多长时间?在这种特殊情况下,我们可以使用已知的物理定律进行计算。但是,如果我们得到的只是数据,而我们不知道管辖它的基本法则怎么办?然后我们可以进行数学猜测,例如,也许我们应该使用直线作为模型。

ChatGPT工作原理:什么是模型?

我们可以选择不同的直线。但这是平均最接近我们报告的数据的数据。根据这条直线,我们可以估计任何楼层的下降时间。

我们怎么知道我们应该在这里尝试一条直线?我们在某种程度上不知道。这只是数学上简单的东西,我们已经习惯了这样一个事实:我们测量的许多数据非常适合数学上简单的东西。我们可以尝试一些数学上更复杂的东西 - 比如 a + bx + cx2,在这种情况下我们会做得更好:

ChatGPT工作原理:什么是模型?

但是,事情可能会变得非常错误。例如,以下是我们可以使用 + b/c + x sin(x) 最大程度地完成的操作:

ChatGPT工作原理:什么是模型?

值得理解的是,永远不存在“没有模型的模型”。无论您使用什么模型,都有一些特定的基本结构,然后是一组“您可以转动的旋钮”(即您可以调整的参数)以使其适合您的数据。就 ChatGPT 而言,有很多这样的“旋钮”在使用中——实际上有 1750 亿个。

但值得注意的是,ChatGPT 的基本结构——“仅仅”有这么多参数——足以创建一个模型,计算下一个单词“足够好”以获得合理文章长度的概率。文本。

版权声明

本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

热门