如何形象地理解“AI、大模型、GPT”?
自ChatGPT出现以来,AI领域再次受到广泛关注。
最近关于AI的讨论很多,其中不可避免地涉及到“样本、预训练、大模型”等一些概念和术语。
然而,对于非专业人士人来说,以易于理解的方式解释这些概念是相当具有挑战性的。
但它对你自己和他人都很有价值。
正如爱因斯坦所说:“如果你不能简单地解释它,你就不懂它。”。
之前写过一篇文章叫《万万没想到,枯燥的“机器学习”还可以这样学!》,受到大家好评。
今天我尝试继续用视觉解释、类比人工智能与人类学习成长的方法,通过将人工智能与人们熟悉的事物进行比较,简单介绍人工智能的原理、进展和意义。 ?
这个过程并不是像“0%、1%、2%…98%、99%、100%”那样,一个个百分点慢慢提高,但有一天却突然改变。
模型的“涌现”是指模型在大量训练数据和复杂模型结构的支持下突然展现出更高的性能和新的能力。
简单来说,就是“量变导致质变”的过程。
当训练样本足够大,算法迭代到一定阶段时,模型的能力会突然提升。
能力“出现”的前提是大量的持续输入。
从孩子出生开始,即使他听不懂、不会说话,父母也要不断地与孩子互动、交谈。在日积月累的过程中,孩子的说话能力有一天会“显现”。
模型的开发过程是相同的。他们一开始可能什么都不知道。即使他们“很会说话”,也可能会显得“愚笨”或“一本正经地说废话”。
不过,在大样本不断训练、算法不断迭代的过程中,终有一天能够达到ChatGPT和GPT-4惊人的理解、推理和表达能力。
2。 “读万卷书,行万里路,谈万千人”VS. 「预训练(pre-train)和微调(fine-tuning)」
当孩子能说话、能走路的时候,人类的学习就正式开始了。
一个人的学习和成长通常会经历基础教育和综合学习,然后发展到某一特定领域的专业和深入学习。
你不仅要大量学习,学习大量书本知识,还要多实践,多与人交流。
在这个过程中,你必须运用所学的知识,得到反馈,修正和提炼大脑中的知识,即从“知到智”,达到“知行合一”。
掌握基础知识和技能后,人们必须找到自己的专业领域。
在学校里,研究生、博士生和教授必须选择一个利基领域进行深入研究。
每个人也必须找到自己的行业和事业。
对于像GPT这样的大型模型,它们的开发经历了类似的过程。
首先使用“大规模数据集”进行“预训练”,然后使用标记样本和人类反馈通过人类反馈强化学习(RLHF)进行微调和迭代。
预训练模型是指在大量未标记的数据上训练模型以学习基础知识。
就好像人们在童年、从小学到高中学到了很多东西一样。它不限于特定领域,但需要广泛、大量的信息输入。
调优是指使用标记数据在特定任务上对模型进行微调,以更好地适应特定任务。
就像读了很多书一样,人还是需要实践,在实践中得到反馈,在实践中成长。
很多伟人、名人,如毛泽东、列宁、马斯克、查理芒格等都热爱读书,乐于与人交流,在实际工作中大量实践。
只有这样,我们才能获得足够的知识,创造非凡的智慧。
3。 “被宠坏”VS. “过拟合”
我们经常看到一些“孩子因为鸡毛蒜皮的小事而做出傻事”的新闻。这通常是“宠坏”的结果,与“宠坏”不同。模型中的“过拟合”现象也有相似之处。
所谓机器学习,就是让机器从样本中学习,从而“适应”规则,进而掌握技能。
训练模型时,如果样本过于简单或者特征选择错误,很容易出现过拟合。
过拟合是指模型在常见情况的训练样本中遗漏了特殊情况。
导致模型在面对新样本时无法正确处理。
同样,因过拟合(overfitting)而导致的脆弱心智(模型),在面对现实世界中的各种挫折时,往往无法做出正确的反应(预测不准确、泛化能力差),导致难以应对,很容易导致不幸结果。
因此,我们应该让孩子站在不同的情境中给予反馈,让他们理解并适应现实世界。
4。 「职业教育/初等教育」vs「大模式、小模式」
人的教育有两种。一是从小就教他一门手艺。比如“做饭、开车、当铁匠、木匠”等等,于是他就成了专家。
此外,首先是长期基础教育,然后是高等教育和职业教育。先打好基础,再选择专业方向。
模特就像人一样。你给它什么输入,它就会得到什么样的输出,它就会有什么样的知识和技能。
在大模型之前,大家熟知的猫狗识别、指纹识别、人脸识别等模型都是为了做特定的事情而设计的,类似于职业培训。
这样的模型可以称为“小模型”。一方面是型号的尺寸较小,另一方面是型号的容量范围比较窄。
像GPT这样的模型之所以被称为大模型,不仅是因为训练数据集规模大、训练出来的模型规模大,还因为模型具有广泛的能力,比如如果它能“上知天文,下知地理”。 。
阅读数千本书是一个很好的模式,可以开发一般智力。仅仅阅读食谱和练习烹饪技巧只是发展特定技能的小模型。
5。 “脑容量、词典、书籍”vs“大模型”
我们可以从以下三个方面直观地理解大模型。
首先,我们用脑容量来比喻。模型的大小就像动物大脑的大小,大脑越大通常意味着智力越高。拥有更多神经元和神经元之间连接的大脑可以存储更多知识。
第二,用字典来比喻。如果一种语言的词典只有十个单词,那么该语言所能表达的含义就会非常有限。但如果字典有几万个单词,它可以表达更丰富的信息。
最后,用书来比喻。为什么大模型更强大?
以GPT-3为例。它的模型有40GB,相当于400亿字节,大致相当于200亿个单词。如果我们假设一本书有20万字,那么这相当于10万本书。
可以说,十万本书几乎涵盖了人类所有的知识,没有重复。
(必须承认,几千年来人类知识的记录和传承基本上都是通过语言和书籍来完成的。)
因此,可见足够大的模型可以覆盖足够多的知识。
伟大的榜样带来伟大的智慧。
6。 “作文能力训练”vs“语言大模型”
常规语言模型能力比较有限,比如分词、词语音估计等,只能执行翻译等任务。
GPT作为“大型语言模型(LLM)”之所以如此强大,是因为它一开始就没有特定的目的。它并不预设模型来执行特定的任务,而是为模型提供广泛的输入和训练。
培养学生作文能力有两种方法。
一是以提高作文能力为目标,让孩子有机会阅读各种作文技巧书籍,参加各种作文培训班。但如此仓促的做法实际上并没有产生理想的结果。
另一方面,有些家长鼓励孩子从小养成读书的习惯,广泛阅读。
这样,孩子的阅读能力、知识和思维能力都会得到明显的提升,写作能力自然也会提高。
此外,由于阅读速度和理解力的提高,孩子阅读和复习问题的速度和准确性都会提高,从而提高其他科目如数学、物理、化学等的表现。
更重要、读书不仅可以提高成绩,还可以塑造一个人的世界观、气质,提高内在力量。
可以说会对一个人的一生产生深远的影响。
所以,我们不能急功近利,而要培养“大典型”。对于大型号,自然会出现不同的选择。
7。 「思维能力、写作能力」VS「人物预测」
人们常说,一个人就像他的文笔。一个人的写作可以体现他的思维能力、表现力等综合素质。这同样适用于
型号。 ChatGPT的能力体现在它的响应和文字输出一一体现。
首先要解释的是,ChatGPT在回答问题时,是一个字一个字慢慢弹出来的。这并不是因为网络速度问题,而是因为模型是这样工作的:它根据当前情况,不断推导下一个要输出的单词(输出概率最高的单词)。
因此,“准确预测下一个要打印的字符”是模型能力的关键。
为了让您更好地理解这个概念的重要性,让我给您举个例子。
假设有一本悬疑小说,故事跌宕起伏,线索错综复杂。
小说的最后有一句话:“凶手是______”。
如果在你读到这里的时候AI能够输出正确的字符,那就证明这个模型非常强大。
表面上是性格,其实是智力。
8。 “Transformers”和“变压器”
GPT 是“Generative Pre-trained Transformer”的缩写,其中 Transformer 是一种深度学习架构,特指神经网络结构中基于 self-attention 的注意力机制。
这个概念很关键,但实际上很难理解。
现在,让我们尝试解释一下。
可以用电影《变形金刚》来比喻“顾名思义”。
变形金刚将一辆汽车拆散,然后将其变成一个人。
这个过程就像Transformer中的“编码和解码”过程。
将输入序列(比如汽车)解码成不同的部件(每个部件),记住部件之间的连接关系(通过自注意力机制,self-attention),然后组装成输出序列(比如作为人形机器人)。
在此过程中,Transformer 可以捕获输入序列中的长程依赖关系,从而实现更高效、更准确的序列处理。
9。 “终身学习” vs “机器学习”
人与人之间最大的区别在于学习能力。
为了跟上社会的发展,人们不仅要在学生时期努力学习,更重要的是在日常工作和生活中不断学习、终身学习。
机器之所以如此强大,人工智能之所以如此强大,是因为人们不断学习。
更重要的是,机器的记忆力和学习速度比人类高一百倍或数千倍。
看看我们,一边担心“我们是否会被AI取代”,一边整天懒洋洋地拿着手机打游戏、看视频。
懒人,你们一定要努力!
10。 “人脑、道”vs“可解释性”
随着当今科技的发展,人们对自己的大脑有了一些了解,但还远远不够深入和透彻。
同样,使用深度神经网络技术构建的人工智能模型也存在“可解释性”问题。
虽然模型非常强大,可以认猫狗,可以流利回答问题,可以写代码,可以画画,但即使是模型的开发者也无法准确解释某个结果是如何产生的。
可以说,人们用未知原理的大脑开发出未知原理的大型模型。
老子说,道或许是道,但却是非常道。
这同样适用于人工智能。
太简单的模型实际上不会有很强的属性。
朱柏宁 8:35
版权声明
本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。