ChatGPT 背后的人工神经网络已有 80 年历史,从倒霉到颠覆世界

来源:pixabay
写|孙睿晨
编辑|李珊珊
现在ChatGPT等大语言预训练神经网络网络模型已经家喻户晓。 GPT背后的算法核心——人工神经网络算法,经历了80年的风风雨雨。在这80年里,除了少数爆炸性时刻外,大多数时候,这一理论都处于沉默状态,无人关注,甚至资助“毒药”。
人工神经网络诞生于不羁的皮特斯和当时著名的神经生理学专家麦卡洛克的黄金组合。但他们的理论超出了当时的技术标准,因此没有得到广泛的关注和实证验证。 。
幸运的是,在他出生的20多年里,研究人员不断地申请和贡献。人工神经网络领域已经从最简单的神经元数学模型和学习算法发展到具有学习能力的感知器模型。然而,其他研究人员的质疑却因“感知器”创始人之一的罗森布拉特在旅途中去世而受到质疑。此后,该地区陷入长达20多年的寒冬,直到反向传播算法被引入人工智能。在神经网络训练过程中。
此后,沉寂了20年,人工神经网络的研究终于又开始了。近20年来,卷积神经网络和循环神经网络相继出现。
然而,直到17年前,科学和工业的快速发展还得等待硬件上的突破——通用计算GPU芯片的出现。因此,如今,诸如ChatGPT的神经网络模型之类的大规模语言预训练程序已经成为家喻户晓的名字。
从某种意义上来说,人工神经网络的成功是一种运气,因为并不是所有的研究都能等到根本性突破发生、万事俱备的时候。在一些领域,技术突破出现得太早或太晚,导致它们慢慢消亡。然而,在这份幸运中,研究人员的决心和毅力是不容忽视的。基于这些研究人员的理想主义,人工神经网络经历了80年的坎坷,终于取得了成功。积极的结果。
麦卡洛克-皮特斯神经元
1941年,沃伦·斯特吉斯·麦卡洛克(Warren Sturgis McCulloch)移居美国芝加哥大学医学院,担任神经生理学教授。搬到芝加哥后不久,一位朋友把他介绍给了沃尔特·皮特斯(沃尔特·皮茨饰)。皮特斯和麦卡洛克都在芝加哥大学获得博士学位,他们对神经科学和逻辑学有着共同的兴趣,因此两人一拍即合,成为志同道合的朋友和科研伙伴。皮特斯生性好学。 12岁时,他在图书馆阅读了罗素和怀特海的《数学原理》,并写信给罗素指出书中的许多错误。罗素很欣赏这位年轻读者的来信,并回信邀请他去剑桥大学学习(尽管皮特斯当时只有12岁)。然而,皮特斯的家庭文化程度很低,并不理解皮特斯对知识的渴求。相反,他经常受到严厉的批评。皮特斯与原生家庭的关系逐渐恶化,15岁时离家出走。从此,皮特斯在芝加哥大学校园里无家可归,并决定在白天参加他最喜欢的大学课程。晚上他在任何一间教室里睡觉。当皮特斯遇见麦卡洛克时,虽然他已经是该校的博士生,但他仍然没有永久居留权。麦卡洛克得知这一情况后,邀请皮特斯到他家做客。
两人相遇时,麦卡洛克已经发表了多篇神经系统方面的文章,是该领域的知名专家。尽管皮特斯还是一名博士生,但他已经在数理逻辑领域取得了成就,并受到包括诺依曼在内的该领域伟人的高度评价。尽管他们的专业领域截然不同,但他们都对人脑的工作原理有着浓厚的兴趣,并坚信数学模型可以描述和模拟大脑功能。在这个共同信念的推动下,两人合作了好几页。他们建立了第一个人工神经网络模型。他们的工作为现代人工智能和机器学习领域奠定了基础,两人被誉为神经科学和人工智能领域的先驱。
1943年,麦卡洛克和皮特斯提出了最早的人工神经网络模型:麦卡洛克-皮特斯神经元(McCulloch-Pitts Neuron)模型[1]。该模型的目的是通过二进制开关的“开”和“关”机制来模拟神经元的工作原理。该模型的主要组成部分是接收信号的输入节点、通过预设阈值处理输入信号的中间节点以及生成输出信号的输出节点。麦卡洛克和皮特斯在论文中论证了这种简化模型可以用来实现基本的逻辑运算(如“与”、“或”、“非”)。此外,该模型还可用于解决模式识别、图像处理等简单问题。
麦卡洛克-皮特斯 Neuron
图片来源:
Hebbian Learning
(Hebbian Learning)
1949年,加拿大心理学家Donald和Hebb在书中提出了著名的Hebbian Learning理论[2] 。该理论认为“共激活的神经元常常相互连接(Firing Together,connecting cells)”,即神经元具有突触可塑性(synaptic Plasticity),突触是神经元之间进行信息传递的连接。关键部分),突触可塑性被认为是大脑学习和记忆功能的基础。
机器学习理论的一个关键步骤是如何使用不同的更新算法(更新规则)来更新模型。使用神经网络模型进行机器学习时,需要设置初始模型架构和参数。在模型训练过程中,训练数据集的每次输入都会导致模型更新不同的参数。这个过程需要使用更新算法。赫布学习理论提供了机器学习的初始更新算法:Δw = η x xpre x xpost。 Δw是突触模型参数的变化,eta是学习率,xpre是突触前神经元的活动值,xpost是突触后神经元的活动值。
Hebbian更新算法为利用人工神经网络模仿大脑中神经网络的行为提供了理论基础。 Hebbian 学习模型是一种无监督学习模型,它通过调整输入数据之间检测到的关系的强度来进行学习。因此,Hebbian 学习模型特别擅长对输入数据的子类别进行聚类。随着神经网络研究逐渐深入,赫布学习模型后来被发现适用于许多其他子类,例如强化学习。
感知机
(Perceptron)
1957年,美国心理学家Frank Rosenblatt首先提出感知机模型,并首次使用感知机更新算法[3]。感知器更新算法扩展了 Hebbian 更新算法的基础,并使用迭代和试错过程进行模型训练。在模型训练过程中,感知器模型针对每个新数据计算模型预测数据的输出值与实际测量数据的输出值之间的差异,然后使用该差异来更新模型中的系数。具体方程为:Δw = η x (t - y) x x。在提出最初的感知器模型后,罗森布拉特继续深入探索和发展感知器相关理论。 1959年,罗森布拉特成功开发了Mark1,这是一种使用感知器模型识别英文字母的神经计算机。
感知器模型类似于麦卡洛克-皮特斯神经元。这也是一个基于神经元的生物模型。其基本工作机制是接收输入信号、处理输入信号并产生输出信号。感知器模型与麦卡洛克-皮特斯神经元模型的区别在于,后者的输出信号只有超过预设阈值才能为0或1-1,否则为零——而感知器模型使用线性激活函数,因此模型的输出可以是像输入信号一样连续变化的值。此外,感知器为每个输入信号设置一个系数,该系数可以影响每个输入信号影响输出信号的程度。最后,感知器是一种学习算法,因为每个输入信号的系数可以根据看到的数据进行修改;而麦卡洛克-皮特斯神经元模型没有设定系数,因此其行为无法根据数据反馈动态更新。
1962年,罗森布拉特将多年与感知器模型相关的研究成果收集成书《神经动力学原理:感知机与大脑原理(Principles of Neurodynamics: Perceptrons and the theory of brain mechanisms)》。感知器模型代表了人工智能领域的重大进步,因为它是第一个具有学习能力并能够独立学习所接收数据的模式和特征的算法模型。更重要的是,它还具有模式分类能力,可以根据数据的特征自动将其划分为不同的类别。此外,感知器模型相对简单,需要的计算资源较少。
尽管感知器具有优势和潜力,但它是一个相对简化的模型,并且有一些局限性。 1969 年,计算机科学家 Marvin Minsky 与 Seymour Papert 合作出版了《感知机(Perceptron)》一书[5]。书中,两位作者对感知器模型进行了深入批判,分析了以感知器为代表的单层神经网络的局限性,包括但不限于“异或”逻辑的实现以及线性不可分性问题。然而,作者和罗森布拉特都认识到多层神经网络可以解决单层神经网络无法解决的这些问题。不幸的是,《感知机》这本书对感知器模型产生了巨大的负面影响,导致公众和政府机构突然对感知器研究失去了兴趣。 1971年,感知器理论的提出者和主要支持者罗森布拉特在一次旅行中不幸去世,享年43岁。由于《感知机》书和罗森布拉特去世的双重打击,与感知器相关的文献数量迅速增加。逐年减少。人工神经网络的发展已经进入了“寒冬”。
感知机模型
图片来源:
反向传播算法
多层神经网络可以解决单层神经网络无法解决的问题,但是多层神经网络带来了新的问题在网络模型中,检查每一层神经元都需要大量的精确计算,而通常的计算方法费时费力,这使得神经网络的学习过程从实用角度来看非常缓慢且糟糕。
为了解决这个问题,美国社会学家、机器学习工程师Paul Werbos在1974年在哈佛大学准备的博士论文中提出了反向传播算法(backpropagation)[6]《Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences》。该算法的基本思想是通过反向传播输出层的预测输出值与实际输出值之间的误差来调整神经网络中每个神经元的权重。该算法的本质是按照微积分中常用的链式法则,实现从输出层到输入层的反向(沿负梯度方向)由多层感知器组成的神经网络的训练。
不幸的是,韦伯的论文发表后很长一段时间都没有受到足够的关注。到了 1985 年,加州大学圣地亚哥分校心理学家 David Rumelhart、认知心理学家兼计算机科学家 Geoffrey Hinton 和计算机科学家 Luo Ronald Williams 联合发表了一篇关于反向传播算法在神经网络中应用的论文 [7]。这篇论文在人工智能领域获得了很大反响。鲁梅尔哈特等人的思想本质上与韦伯相似,但鲁梅尔哈特等人并没有引用韦伯最近受到批评的著作。
反向传播算法在人工神经网络的发展中发挥着关键作用,并使深度学习模型的训练成为可能。自 20 世纪 80 年代反向传播算法重新受到关注以来,它被广泛用于训练各种神经网络。除了原来的多层感知器神经网络外,反向传播算法还适用于卷积神经网络、循环神经网络等。反向传播算法的重要地位使得Weber、Rummelhardt等人成为神经网络领域的先驱之一。
事实上,反向传播算法是人工智能领域“文艺复兴”时代(1980年代和1990年代)的重要成果。在此期间,并行分布式处理是主要方法论。该方法专注于多层神经网络,支持并行处理和计算,以加速神经网络的训练过程和应用。这与以往人工智能领域的主流思维相反,因此具有划时代的重要性。此外,这种方法论还受到了计算机科学以外领域科学家的欢迎,包括心理学、认知科学和神经科学。因此,这段历史常常被后人视为人工智能领域的文艺复兴。
反向传播算法原理
卷积神经网络
(卷积神经网络,CNN)
如果说麦卡洛克皮特斯神经元被认为是tellig诞生的标志,那么在美国则象征着tellig的诞生Tellig的诞生可能是人工神经网络的诞生地。人工神经网络诞生三十年来,美国一直在人工智能领域处于领先地位,培育了感知器、反向传播算法等关键技术。但在美国人工智能的第一个“寒冬”期间,包括政府和学术界在内的各界人士对人工神经网络的潜力失去了信心,并大大减缓了对迭代的支持和投资。神经网络技术。为此,在美国这个铺天盖地的“寒冬”中,其他国家的人工神经网络研究被放到了历史发展的聚光灯下。卷积神经网络和循环神经网络就是在这样的背景下出现的。
卷积神经网络是一种多层神经网络模型,包含许多独特的结构,例如卷积层、池化层和全连接层。该模型利用卷积层提取输入信号的局部特征,然后通过池化层降低数据的维度和复杂度,最后通过全连接层将数据转化为一维特征向量并生成输出。信号(通常是预测或分类结果)。卷积神经网络独特的结构使得它们在处理具有网格结构属性的数据(图像、时间序列等)时特别具有优势。
卷积神经网络
图片来源:
最早的卷积神经网络是由日本计算机科学家福岛邦彦于1980年提出的[8]。 Fukushima提出的模型包括一个卷积层和一个下采样层,这种结构仍然是当今主流卷积神经网络结构所使用的。福岛模型和今天的卷积神经网络唯一的区别是前者没有使用反向传播算法——如前所述,反向传播算法直到 1986 年才获得关注。 ,该模型与当时的其他多层神经网络一样,同样面临着训练时间长、计算复杂的问题。
1989年,法国计算机科学家Yann LeCun和他在美国贝尔实验室的团队提出了一种名为LeNet-5的卷积神经网络模型,并在模型算法中使用反向传播进行训练[9]。 Likun证明了神经网络可以用来识别手写数字和字符。这标志着卷积神经网络在图像识别中广泛使用的开始。
递归神经网络
(递归神经网络,RNN)
与卷积神经网络一样,递归神经网络也是具有独特结构特征的神经网络。这类神经网络的主要结构特点是各层之间存在递归连接,而不是顺序连接。由于上述特殊的结构特征,循环神经网络特别适合处理自然语言和其他基于文本的数据。
1990年,美国认知科学家、心理语言学家Jeffrey Elman提出了Elman网络模型(又称简化递归网络)[10]。 Elman 网络模型是第一个循环神经网络。通过这个模型,Elman证明了循环神经网络在训练过程中能够保持数据本身的顺序性,为未来此类模型在自然语言处理领域的应用奠定了基础。
递归神经网络存在梯度消失现象。当使用反向传播算法训练神经网络时,接近输入的级别的权重更新梯度逐渐接近于零,因此这些权重变化非常缓慢,导致训练效果不佳。为了解决这个问题,1997年,Sepp Hochreiter的德国计算机科学家、博士生导师Jürgen Schmidhuber提出了长期短期记忆网络[11]。该模型是一种特殊的循环神经网络模型。它引入了记忆节点,使模型具有更好的长期记忆保留能力,从而解决了梯度消失的现象。该模型仍然是最常用的循环神经网络模型之一。
通用计算GPU芯片
2006年,美国NVIDIA公司推出了第一款通用计算GPU(图形处理单元)芯片,并将其命名为CUDA(计算统一设备架构)。在此之前,GPU是专门用于图形渲染和计算的芯片处理器,常用于计算机图形相关的应用(如图像处理、游戏场景的实时计算和渲染、视频播放和处理等) .)。 )。 CUDA实现了通用并行计算,因此只能由CPU(中央处理单元)调用的任务可以由GPU执行。 GPU强大的并行计算能力可以同时执行多个计算任务,计算速度比CPU更快,适合矩阵运算。训练神经网络通常需要大规模矩阵和张量运算。 在通用GPU出现之前,人工神经网络的发展长期受到传统CPU有限计算能力的限制。这种限制既包括理论研究的创新,也包括现有模型的生产和工业应用。 GPU的出现,大大削弱了这两方面的限制。
2010年,Schmidhuber团队的博士后研究员Dan Ciresan使用GPU显着加快了卷积神经网络的训练速度[12]。然而,GPU在人工神经网络领域真正出名是在2012年。当年,加拿大计算机科学家 Alex Krizhevsky、Ilya Sutskever 和前面提到的 Jeffrey Hinton 提出了 Alex 网络模型(AlexNet)[13]。 Alex网络模型本质上是一种卷积网络模型。 Krizewski 等人使用 GPU 来训练模型,并使用该模型参加国际公认的图像分类和标记竞赛(ImageNet ILSVRC)。令人惊讶的是,该模型居然以较大优势获得了冠军。 Alex网络模型的成功引起了各行各业对人工神经网络在计算机视觉领域应用的极大兴趣和关注。
生成神经网络和大型语言模型
循环神经网络可以连续生成逐字的文本序列,因此它们通常被认为是早期的生成神经网络模型。尽管循环神经网络有利于处理和生成自然语言数据,但它一直无法有效地捕获长序列数据的全局信息(它无法有效地连接遥远的信息)。
Transformer 模型来源:[14]
2017 年,美国 Google 研究员 Ashish Vaswani 等人提出了 Transformer 模型(Transformer)[14]。这个大型神经网络分为两个主要部分:编码器和解码器。编码器对输入序列进行编码,并通过自监控层进一步处理编码信息。然后,信息被传输到解码器并通过网络结构(例如解码器的自监控层)以产生输出序列。该模型的重要创新在于自我监控层。自监控层让神经网络模型摆脱了文本顺序处理的束缚,而是直接捕获文本不同地方的信息并捕获信息之间的依赖关系,并行化计算之间的语义差异不同的地方。 。相关性。 Transformer模型的出现对自然语言处理领域乃至整个人工智能领域产生了巨大的影响。短短几年时间,Transformer模型就被广泛应用于各种大型人工智能模型中。
基于Transformer结构的无限大语言模型中,最著名的是OpenAI推出的聊天机器人ChatGPT。 ChatGPT 底层的语言模型(生成式预训练 Transformer 模型)。 OpenAI使用大量语料数据来训练模型,最终使其拥有广泛的语言理解和生成,包括信息提供、交流、文本创建、完成编写软件代码,轻松胜任各种类型。关于语言理解。相关考试。
结语
几周前,我参加了一个志愿者活动,高中生与科研人员共进午餐。在活动中,我与几位十五岁和十六岁的高中生交谈。当然,我们谈论的是 ChatGPT。我问他们:“你们用ChatGPT吗?你们可以告诉我真相,我不会告诉你们老师的。”其中一个男孩害羞地笑了笑,说他现在没有 ChatGPT 就活不下去了。
80年前,爬行的皮特斯只能想象能够模拟大脑功能的数学模型。在当今年轻人的世界里,神经网络不再只是虚幻的数学公式,它们无处不在。未来80年会发生什么?意识会像人类神经网络一样出现在人工神经网络中吗?碳基大脑会继续主导硅基大脑吗?或者硅基大脑会占据主导地位吗?
参考文献:
1.Warren S. McCulloch 和 Walter Pitts。 “神经活动中固有的思想的逻辑计算。”数学生物物理学公报,卷。 5、没有。 4,1943 年,115-133。 p.
2.唐纳德·O·赫布。 “行为的组织:神经心理学理论。”威利,1949。
3.弗兰克·罗森布拉特。 “感知器:大脑中存储和组织信息的概率模型。”心理学评论,卷。 65号6,1958 年,386-408。第
4。弗兰克·罗森布拉特。 “神经动力学原理:感知器和大脑机制理论。”麻省理工学院出版社,1962 年。
5。马文·明斯基和西摩·帕佩特。 “感知器:计算几何简介。”麻省理工学院出版社,1969 年。
6.Paul Werbos。 “超越回归:行为科学中预测和分析的新工具”。哈佛大学,1974 年。
7。David E. Rumelhart、Geoffrey E. Hinton 和 Ronald J. Williams。 “学习g 具有反向传播误差的表示。”《自然》,第 323 卷,第 6088 期,1986 年,第 533-536 页。识别不受位置偏移的影响。生物控制论,第 36 卷,第 4 期,1980 年,第 193-202 页。第
9。 Yann LeCun、Léon Bottou、Yoshua Bengio 和 Patrick Haffner。 “基于梯度的学习“寻找时间结构”。认知科学,第 14 卷,1990 年,第 179-211 页。
11.Sepp Hochreiter 和 Jürgen Schmidhuber。“长短期记忆。”神经计算,第 9 卷,第 8 期,1997 年,第 1735-1780 页。
12 .Dan C. Ciresan、Ueli Meier、Luca Maria Gambardella 和 Jürgen Schmidhuber。“深度大简单神经网络在手写数字识别方面表现出色。”计算, vol. 22, no. 12, 2010, pp. 3207-3220.
13. Alex Krizhevsky, Ilya Sutskever 和杰弗里·E·辛顿 (Geoffrey E. Hinton)。 “使用深度卷积神经网络进行 ImageNet 分类。”神经信息处理系统的进展,2012 年,第 14 页。 1097-1105.
14.Vaswani,Ashish 等人。 “你所需要的只是关注。”神经信息处理系统的进展,2017 年,第 14 页。 5998-6008。
版权声明
本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。