从T5到GPT-4:对大规模语言模型的最广泛审视(LLM)

为什么自然语言处理(NLP)领域突然实现跨越式发展,似乎一夜之间,达到了通用人工智能的阈值智能?当今伟大的语言模型(LLM)进化到什么程度了?未来短期内AGI的发展路径是什么?
自从20世纪50年代图灵测试被提出以来,人们就开始研究机器处理语言智能的能力。语言本质上是受语法规则支配的人类表达的复杂系统。因此,开发有效的理解和控制语言的人工智能算法面临着巨大的挑战。过去二十年来,语言建模方法被广泛用于理解和创造语言,包括统计语言模型和神经语言模型。
近年来,研究人员通过在大规模语料库上预训练 Transformer 模型来生成预训练语言模型(PLM),并展示了解决各种 NLP 任务的强大能力。并且研究人员发现缩放模型可以提高性能,因此他们通过增加模型的尺寸进一步研究了缩放效果。有趣的是,当参数大小超过一定水平时,这种较大的语言模型实现了显着的性能提升,并表现出小模型所不具备的功能,例如上下文学习。为了与 PLM 区分开来,此类模型称为大语言模型 (LLMs)。
从2019年的Google T5到OpenAI GPT系列,参数呈指数级增长的大型模型不断涌现。可以说,LLM的研究无论是在学术界还是工业界都得到了极大的推动。尤其是去年11月底大型对话模型ChatGPT的出现,引起了各界的广泛关注。LLM的技术发展对整个人工智能社区产生了重大影响,并将彻底改变人们开发和使用人工智能算法的方式。
考虑到LLM科技的快速发展,来自中国人民大学的二十多位研究人员从背景信息、关键发现、主流技术三个方面审视了LLM的最新进展,尤其关注LLM的前期教育。 、自适应调整、操作和能力评估。此外,他们还总结和开发了LLM可用的资源,并讨论了未来的发展和其他问题。这篇综述对于该领域的研究人员和工程师来说是非常有用的学习资源。
论文链接:https://arxiv.org/abs/2303.18223
在写正文之前,我们先看一下2019年以来出现的各种大型语言模型(超过100亿个参数)的时间线。黄大模型已经开源。
LLM概况
在第一部分,研究者详细介绍了LLM的背景、能力和关键技术。
LLM 背景
通常,大型语言模型(LLM)是指包含数千亿(或更多)在大量文本数据上训练的参数的语言模型,例如模型 GPT-3、PaLM、Galatica和美洲驼。特别是,LLM 是建立在 Transformer 架构之上的,其中许多头的注意力层堆叠在一个非常深的神经网络中。当前LLM主要使用类似于小型语言模型的模型架构(即Transformer)和预训练目标(即语言建模)。最大的区别在于,LLM 对模型的大小、预训练数据和总计算量(缩放因子)进行了缩放。他们更好地理解自然语言,并且可以根据特定上下文(例如提示)生成高质量的文本。这种容量的提高可以部分地通过缩放定律来描述,其中性能的提高大致是模型大小大幅增加的结果。然而,根据缩放定律,某些能力(例如情境学习)是不可预测的,只有当模型大小超过一定水平时才能检测到。
LLM的新兴能力
LLM的新兴能力被正式定义为“小模型中不存在但出现在大模型中的能力”。这是LLM区别于以往PLM的最显着特征。一。当这个新特性出现的同时,它还带来了一个显着的特点:当规模达到一定程度时,性能明显高于随机。类似地,这个新模型与物理学中的相变现象密切相关。原则上,这种能力也可以与一些复杂的任务相关,而人们更关心的是可以应用于解决多个任务的通用能力。这里简单介绍一下LLM的三种具有代表性的突现能力:
情境学习。 GPT-3正式引入了上下文学习能力:假设一个语言模型配备了自然语言指令和多个任务描述,它可以通过完成输入文本的单词序列来生成测试实例的预期输出,而无需额外的训练或梯度更新。 。
要遵循的说明。通过对用自然语言描述(即指令)制定的多任务数据集进行微调,LLM在同样以指令形式描述的小任务上表现得非常好。在这种能力下,命令调优可以让LLM在不使用显式样本的情况下通过理解任务指令来执行新任务,这可以大大提高泛化能力。
逐步推理。在小型语言模型中,通常很难解决涉及多个推理阶段的复杂任务,例如数学学科中的文字问题。同时,LLM通过一系列的思维推理策略,可以使用具有中间推理步骤的快速机制来解决此类任务,从而得出最终答案。想必这种能力可以通过编码训练来获得。
关键技术
我们来看看LLM的关键技术,包括扩展、培训、人才激励、目标优化、工具等。
Zoom。缩放是增加LLM模型容量的关键因素,最初GPT-3将模型参数增加到1750亿,然后PaLM进一步将模型参数增加到5400亿。大规模参数对于不断发展的能力至关重要。缩放不仅与模型的大小有关,还与数据的大小和整体计算的大小有关。
教育。由于身材魁梧,能力强大的LLM想要成功训练非常具有挑战性。因此,学习LLM的网络参数需要分布式训练算法,通常使用不同并行策略的组合。为了支持分布式训练,使用了 DeepSpeed 和 Megatron-LM 等优化框架,这有助于并行算法的实现和部署。此外,优化技术对于训练稳定性和模型性能也很重要,例如训练损失重启和混合精度训练。最近的 GPT-4 开发了特殊的基础设施和优化方法,以利用更小的模型来预测大型模型的性能。
刺激的问题。经过大规模船体预训练,LLM获得了解决一般任务的潜在能力。然而,这些能力并不一定在LLM执行特定任务时单独展现出来。因此,设计适当的任务指令或特定的情境策略来激发这些能力是非常有用的。例如,思维链提示可以帮助通过中间步骤解决复杂的推理任务。此外,指令还可以通过自然语言任务描述进一步调整为LLM,以提高泛化到隐形任务的能力。
对准调整。由于LLM接受过训练,可以捕获预先训练的语料库的数据属性(包括高质量和低质量的数据),因此他们可能会创建有毒、有偏见和有害的文本内容。为了让LLM适应人类价值观,InstructGPT 设计了一种有效的调整方法,利用强化学习和人类反馈,使LLM能够遵循预期的指令。 ChatGPT 基于与 InstructGPT 类似的技术构建,具有强大的定位能力,可以生成高质量、无害的响应。
工具的使用。 LLMs本质上是一个在大规模纯文本语料库上训练的文本生成器,因此在文本表达不佳的数值计算等任务上表现不佳。此外,LLM的能力受到预训练数据的限制,无法捕获最新的信息。针对这些问题,人们建议使用外部工具来纠正LLM的缺点。例如,可以使用计算器进行精确计算,使用搜索引擎来搜索未知信息。ChatGPT 甚至使用外部插件来在线学习新信息。这种机制可以极大地拓展LLM的能力。
LLM的资源
鉴于具有挑战性的技术问题和巨大的计算资源需求,开发或复制LLM的资源绝非易事。一种可能的方法是从现有的 PUT 中学习并重用公开可用的资源进行增量开发或实验研究。
在第三部分,研究者主要总结了开源模型检查点,即API、可用语料库和对LLM有用的库。下表1是近年来参数超过100亿的大型模型的统计数据。
下面的表2列出了常用的数据源。
预训练
预训练构建LLM的能力基础。通过大规模的预教育,LLM一家能够获得基本的语言理解和代际技能。在此过程中,预训兵团的规模和质量是LLM能否获得强大能力的关键。此外,为了确保LLM的有效预训练,必须仔细设计模型架构、加速方法和优化技术。在第 4 节中,研究人员首先在第 4.1 节中讨论数据收集和处理,然后在第 4.2 节中介绍常用的模型架构,最后在第 4.3 节中介绍用于稳定高效优化 LLMs 的训练技术。
数据收集
为了培养强大的LLM,从不同数据源收集大量自然语言材料至关重要。现有的PUT主要利用各种公共文本数据集作为预训练语料库。下图2列出了LLM接受教育之前现有信息来源的分布情况。
收集大量文本数据后,需要对其进行预训练,构建预训练语料库,包括去除噪声、去除冗余、去除不相关和潜在有毒信息。下图3展示了对LLM预训练数据进行预处理的预处理流程。建筑学下面的表 3 列出了几张具有代表性的LLM样本卡以及公开信息。
Transformer 架构凭借其出色的并行性和容量,已成为各种项目开发的支柱,使语言模型能够扩展到数千亿个参数。总的来说,现有PUT单元的主流架构可以大致分为三大类,即编码器-解码器、ad hoc解码器和前缀解码器。
自从 Transformer 出现以来,人们提出了各种改进来提高其训练稳定性、性能和计算效率。在本节中,研究人员讨论了 Transformer 四个主要部分的各自配置,包括归一化、位置编码、激活函数、注意力机制和偏差。
预训练起着非常重要的作用,因为它将从大规模语料库到大型模型参数的一般知识编码。训练 LLMs 常用的预训练任务有两个:语言建模和解码。
模型训练
在本节中,研究人员将介绍训练LLM的重要设置、技巧和训练技巧。
为了优化LLM的参数,研究人员提出了常用的批量训练、学习率、优化和训练稳定性设置。
随着模型和数据规模的增加,用有限的计算资源有效训练LLM的模型变得困难。特别是,需要解决两个主要技术问题,例如通过输入增强训练以及将更大的模型加载到 GPU 内存中。本节回顾了现有工作中广泛使用的几种方法来解决上述两个挑战,即 3D 并行、ZeRO 和混合精度训练,并提供了在训练中使用它们的建议。
LLM的自适应调优
经过初步训练,LLM可以获得解决各种任务的一般能力。然而,越来越多的研究表明,LLM的能力仍然可以根据特定目标进行调整。在第五章中,研究人员详细介绍了预训练LLM的两种主要调优方法,即制导调优和目标调优。前一种方法主要是增强或释放LLM的能力,而后一种方法则是让LLM的行为符合人类的价值观或偏好。
控制调优
控制调优本质上是一种通过自然语言形式的示例集合对预先训练的LLM进行微调的方法,其中涉及严格监督的微调和多任务提示。教育。为了执行指令调整,我们必须首先收集或构造指令格式的实例。然后,我们通常使用这些成形的实例,通过监督学习方法(例如,使用序列到序列损失进行训练)来微调 LLMs。一旦指令被调准,即使在多语言环境中,LLM也可以表现出卓越的概括来解决隐形任务。
最近的一项调查提供了指南调整研究的系统概述。相比之下,本文主要关注调整指令对LLM的影响,并提供收集和调整等详细指令或策略。此外,本文讨论了使用指令调优来满足用户的实际需求,这在现有的PUT(例如InstructGPT和GPT-4)中得到了广泛的应用。
形状实例结构:通常,命令形式的实例由任务描述(称为命令)、输入输出对和少量演示(可选)组成。目前的研究已经发布了大量自然语言格式的标记数据作为重要的公共资源(可用资源见表5)。接下来,本文介绍了构造形状实例的两种主要方法(见图4),然后讨论了构造实例的几个关键因素。
指令调优策略:与预训练不同,指令调优通常更有效,因为仅使用适量的实例进行训练。尽管指令调优可以被视为监督训练过程,但其优化在几个方面与预训练不同,例如训练目标(即从一个序列到另一个序列)和优化配置(例如较小的批量大小)和学习率。 ),在实践中需要特别注意。除了这些优化配置之外,调整指令时还必须考虑两个重要方面:
- 平衡数据共享。
- 结合指令调整和初步训练。

对齐调整
本节首先介绍对齐的背景及其定义和标准,然后重点收集LLM瞄准的人类反馈数据,最后讨论人类反馈验证以调整对齐。最重要的学习技巧。
在预训练或适应后使用puttins最重要的方法之一是设计合适的快速策略来解决不同的任务。典型的快速方法是情境学习,其中任务描述或演示以自然语言文本的形式制定。此外,思维链提示法可以通过在提示中融入一系列中间推理步骤来增强情境学习。在第 6 节中,研究人员详细介绍了这两种技术的细节。
情境学习
情境学习作为一种特殊形式最早在GPT-3中提出,并已成为利用LLM的典型方法。
思维链提示
思维链(CoT)是一种改进的快速策略,可以提高LLM在算术推理、常识和符号推理等复杂推理任务上的表现。 CoT 不像 ICL 那样仅仅从输入-输出对构建提示,而是结合了基于中间的快速推理步骤,从而产生最终输出。在第 6.2 节中,我们详细介绍了 CoT 与 ICL 的使用,并讨论了 CoT 何时以及为何有效。
能力评估
在研究LLM的有效性和优越性时,研究人员使用了大量的任务和基准进行实证评估和分析。第7章首先介绍了LLMs针对语言生成和理解的三个基本评估任务,然后介绍了LLMs的几个具有更复杂设置或目标的高级任务,最后讨论了现有的基准和实证分析。
基本评估任务
图 7:LLM明显的内部和外部幻觉示例(访问时间:2023 年 3 月 19 日)。作为内心幻觉的一个例子,LLM对辛迪和艾米的关系给出了复杂的判断。至于外部幻觉,在这种情况下,LLM似乎误解了 RLHF(根据人类反馈进行强化学习)的含义,尽管它正确地理解了LLM的含义。
任务评估
除了上述基本评估任务外,LLM还展示了需要特殊评估的高级能力。在7.2节中,研究人员讨论了几个具有代表性的高级特征和相应的评估方法,包括手动对齐、与外部环境的交互以及工具的使用。
总结与未来方向
在最后一节中,研究者总结了本研究的讨论,并从以下几个角度提出了LLM面临的挑战和未来的发展方向。
理论和原理:理解LLM基本操作的最大谜团之一是如何通过非常大的深度神经网络共享、组织和利用信息。揭示构成LLM能力基础的基本原则或要素非常重要。特别是,扩大规模似乎在提高LLM的能力方面发挥了重要作用。目前的研究表明,当语言模型的参数大小增加到临界点(例如10B)时,一些突现属性会以意想不到的方式出现(性能突然跳跃),通常包括上下文学习、指令跟随和步骤推理。这些“新兴”能力令人着迷,但也令人困惑:LLM何时以及如何获得它们?最近的一些研究要么进行了广泛的实验来检验新兴能力的影响以及这些能力的推动因素,要么使用现有的理论框架来解释特定的能力。一篇专门针对 GPT 模型系列的富有洞察力的技术文章也专门讨论了这个主题,但仍然缺乏更正式的理论和原则来理解、描述和解释LLM的能力或行为。由于涌现能力与自然界中发生的相变非常相似,跨学科理论或原理(例如LLM是否可以被视为某种复杂系统)可以有助于解释和理解LLM的行为。这些基本问题值得学术界思考,对下一代LLM的发展具有重要意义。
模型架构:Transformer 由堆叠的多头自监控层组成,由于其可扩展性和效率,已成为构建 LLMs 的通用架构。人们提出了各种策略来提高该架构的性能,例如神经网络配置和可扩展并行训练(参见第 4.2.2 节)。为了提高模型能力(例如多语言对话能力),现任LLM通常会保持较长的上下文长度。例如,GPT-4-32k 的上下文长度非常大,为 32768 个字符。因此,一个实际的考虑是降低标准自我监控机制引起的时间复杂度(原始二次成本)。
此外,研究更强大的变形金刚变体对LLM建造的影响也很重要,因为 GPT-3 很少受到关注。灾难性遗忘也是神经网络面临的挑战,这也对LLM的行动产生了负面影响。当LLM接收新信息时,之前了解到的信息很可能会被破坏。例如,根据特定任务对LLM进行微调会影响其整体能力。当LLM的价值观与人类价值观一致时,也会出现类似的情况,这就是所谓的对齐税。因此,有必要考虑用更灵活的机制或模块扩展当前的架构,以有效支持数据更新和任务专业化。
模型训练:在实践中,由于巨大的计算量以及对数据质量和训练技术的敏感性,可用LLM的预训练非常困难。因此,综合考虑模型效率、效率优化、训练稳定性等因素,开发更加系统、经济的预训练方法来优化LLM就显得尤为重要。开发更多模型检查或性能诊断(例如 GPT-4 预测缩放)以在训练早期检测异常。此外,还需要更灵活的硬件支持或资源调度机制,以更好地组织和利用计算集群的资源。由于从头开始预训练 LLMs 的成本很高,因此需要设计一种基于公开可用的模型检查点(例如 LLaMA 和 Flan-T5)对 LLMs 进行连续预训练或微调的合适机制。为此,必须解决几个技术问题,包括数据不一致、灾难性遗忘和任务专门化。到目前为止,仍然缺少可重现的 LLM 的具有完整预处理和训练日志(例如准备预训练数据的脚本)的开源模型检查点。提供用于研究LLM的开源模型将非常有价值。此外,制定更好的调整策略和研究机制以增强模型的能力也很重要。
模型用法:由于在现实应用中微调的成本很高,因此提示已成为使用 LLM 的一种重要方法。通过将任务描述和演示示例结合到提示中,情境学习(一种特殊形式的提示)使LLM在新任务上表现良好,甚至在某些情况下优于全数据微调模型。此外,还提出了先进的提示技术,例如将推理的中间阶段纳入提示的思想链(CoT)策略,以提高复杂的推理能力。然而,目前的提示方法仍存在以下缺陷。首先,设计提示需要大量的人力,因此自动生成强大的提示来解决不同的任务非常有用;其次,一些复杂的任务(例如形式证明和数值计算)需要特殊的知识或逻辑规则。这些信息或规则可能无法用自然语言描述或通过示例证明,因此开发具有更多信息和更灵活的任务制定的快速方法非常重要;第三,当前的快速策略主要关注单翻译性能,因此开发交互式快速机制来解决复杂任务(例如使用自然语言对话)非常有用,正如ChatGPT所证明的那样。
安全性和一致性:尽管LLM能力相当强,但他的安全问题与小语言模型的安全问题类似。例如,LLM夫妇就表现出产生幻觉文本的倾向,比如那些看似合理但不一定符合事实的文本。更糟糕的是,LLM可能会受到故意命令的动机,为恶意系统创建恶意、有偏见或有毒的文本,从而导致潜在的滥用风险。有关LLM其他安全问题(例如隐私、过度依赖、虚假信息和影响力操作)的详细讨论,读者可参考 GPT-3/4 技术报告。带有人类反馈的强化学习(RLHF)已被广泛用作避免这些问题的主要方法,人们通过训练来培养优秀的LLM。为了提高模型的安全性,在RLHF过程中添加安全相关的提示也很重要,如GPT-4所示。然而,RLHF 严重依赖于专业贴标者的高质量人类反馈数据,这使得其在实践中很难正确实施。因此,有必要改进RLHF框架,减少人工标注人员的工作,寻找更有效的标注方法来保证数据质量。例如,可以采用LLMs来帮助进行注释工作。最近,为了提高LLM的模型安全性,采用了红队,即利用收集到的抗议电话来细化LLM(即避免红队攻击)。此外,通过与人沟通建立LLM的学习机制也是有意义的。LLM可以直接利用人们通过聊天给出的反馈来自我提升。
应用程序和生态系统:由于LLM解决各种任务的强大能力,它们可以用于各种现实生活中的应用程序(例如遵循某些自然语言指令)。 ChatGPT 是一项重大进步,它可以改变人们访问信息的方式,从而推出新的 Bing。在不久的将来,可以预见LLM将对信息检索技术产生重大影响,包括搜索引擎和识别系统。
此外,随着LLM科技的技术升级,智能信息助手的开发和使用将得到极大的推动。从更大的范围来看,这波技术创新往往会创建一个与人类生活密切相关的LLM授权应用程序(例如ChatGPT对扩展的支持)的生态系统。最后,LLM的崛起揭示了对通用人工智能(AGI)的追求。它有望开发出比以往更智能的系统(可能具有多模态信号)。同时,在这个发展过程中,人工智能的安全性应该是首要关注的问题之一,即让人工智能给人类带来的好处多于危害。
来源:机器之心
版权声明
本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。