ChatGPT-4 和 GPT-5 大规模语言模型如何工作:语境学习、CoT、RLHF和多模态预训练
老实说,ChatGPT 已经成为一种突破性的 AI 语言模型,它以前所未有的方式改变了一切。我们与机器互动的方式。产生类人反应的能力已经激发了全世界的想象力。 互联网上充满了有关 ChatGPT 和 GPT-4 的文章。在这里,我们将带您全面而简洁地了解 ChatGPT 的起源、主要语言模型的内部运作及其训练方法等。 OpenAI ChatGPT 从 GPT-3.5 到 GPT-4 和 GPT-5 OpenAI 的联合创始人和首席执行官 Sam Altman 带领公司实现了非凡的里程碑,总结如下:
OpenAI 关键事件 ChatGPT 原创灵感GPT-3.5 是一种突破性的大规模语言模型,以其编写、编码和解决复杂数学问题的能力以及其他令人惊叹的壮举震惊了世界。 GPT-4 是 ChatGPT 的最新版本,作为大规模多模态模型,可以处理图像和文本输入以产生文本输出。虽然在某些现实情况下它可能不会超过人类的能力,但 GPT-4 在一系列专业和学术基准上展示了人类水平的性能,提高了语言模型能力的标准。 GPT-5 将在未来几个月内推出,预计范围、准确性和推理方面的性能将得到改进。它将是一个更全面的多模态大规模模型,支持文本、图像、视频和3D作为输入和输出。 ChatGPT的快速进步和能力不仅让人惊叹,也引起了广泛关注。埃隆·马斯克 (Elon Musk) 和其他科技迷正在推动暂停训练比 GPT-4 更强大的人工智能系统。 ChatGPT 大型语言模型如何工作? 最新的大规模语言模型几乎都是大规模预训练的基础模型,主要包括以下关键机制:带有自注意力机制的基于Transformer的架构、带有自监督学习的预训练、 ChatGPT 的卓越性能利用了以下关键技术:语境学习、思维链、代码、InstructGPT 和人类反馈强化学习(RLHF)。 情境学习情境学习是模型根据输入中提供的情境理解、适应和响应新信息的过程。情境学习是大规模预训练模型的一个基本特征,因为它允许它们在广泛的任务上表现良好,而无需明确的细化。 GPT-4 等模型中的情境学习涉及在情境窗口内处理输入、部署注意力机制以关注相关信息、根据预先训练的知识和情境预测后续标记,并不断更新其理解以更好地适应任务为你。 GPT3.5 中的ChatGPT 使用配对学习器。 思想链思想链(CoT)是一种从语言模型中提取解释的技术,而上下文学习是一种训练语言模型执行任务的技术。 CoT 于 2022 年由 Google 研究人员首次提出。他们发现,通过促使模型生成 CoT,可以提高对一系列算术、常识和符号推理任务的响应准确性。 推理一连串的想法主要有两种方法:用一些例子提示和没有例子提示。一些小建议包括为模型提供一个或多个问题示例,并结合 CoT。零提示只需在提示中添加“让我们一步一步思考”即可。 以下是零样本 CoT 提示的示例: 提示:“法国的首都是什么?” 原答案:“巴黎”零射-CoT 回到答案:“我们一步步想,法国是欧洲的一个国家,法国的首都是巴黎。” 正如您所看到的,零样本 CoT 答案更加详细,可以更好地理解模型如何得出答案。逻辑解释。 这两种方法都已被证明可以有效地从模型中得出 CoT。然而,小样本提示被发现更有效,特别是对于复杂的问题。 Codex 和 InstructGPT Codex 是基于 GPT-3 的 LLM,将自然语言翻译为代码,而 InstructGPT 是基于 GPT-3 的 LLM,遵循自然语言指令。 Codex 最初称为 Codex Initial,但于 2022 年更名为 Codex。名称更改表明 Codex 不再是该模型的“原型”或“初始”版本。 InstructGPT 最初称为 Codex Follow instructions,并于 2022 年更名为 InstructGPT,这意味着 InstructGPT 是比 Codex Follow instructions 更通用的模型。InstructGPT 旨在使用自然语言理解 (NLU) 遵循输入中的说明,并生成详细、准确且有用的答案。 Codex 和 InstructGPT 通过多模式连接为单个 ChatGPT 或 GPT-4。这意味着他们都可以访问相同的信息,并且可以一起工作来生成文本、翻译语言、编写不同类型的创意内容并以信息丰富的方式回答您的问题。 来自人类反馈的强化学习 (RLHF) 来自人类反馈的强化学习 (RLHF) 将强化学习与人类反馈相结合,以提高 AI 代理的性能。它根据人类反馈训练奖励模型,然后将其用作奖励函数,通过近端策略优化等算法来优化代理的策略。 这种方法在奖励特征稀疏或嘈杂的场景中特别有用,并且在会话代理和文本摘要等自然语言处理任务中具有应用。 RLHF主要分为三个步骤:1。以评级或排名的形式收集人类对人工智能生成的输出的反馈。 2。训练奖励模型来预测人类对这些结果的评估。 3。使用奖励模型来优化智能体的策略,以产生更高质量的输出。 虽然仍处于起步阶段,但RLHF在提高语言模型的准确性和可靠性方面表现出了巨大的潜力。 ChatGPT 依靠RLHF提供高质量、相关的回复。 GPT 和 GPT-4 是如何训练的? 训练 GPT 模型(例如 GPT-4)涉及两个步骤:预训练和调整。该过程与以前版本的 GPT 类似,但可以应用于更大的模型和数据集。以下是培训过程的概述: 数据收集和预处理:从各种来源收集大型文本语料库,例如网站、书籍、文章和其他文本文档。通过删除不相关的内容、标记文本并将其分解为更小的部分或系列来预处理数据。确保数据集足够大且多样化,足以捕捉语言的细微差别和结构。 先决条件:初始化具有大量层、注意力头和隐藏单元的基于 Transformer 的神经网络架构。使用自监督学习专门针对掩码语言建模 (MLM) 任务的预训练模型。在此任务中,模型经过训练,可以在给定周围标记的上下文的情况下预测掩码标记。在预训练期间,模型学习一般语言表示、语法、句法和语义模式。预训练阶段通常涉及在大规模计算资源(例如多个 GPU 或 TPU)上训练模型,可能需要数天或数周的时间。细化:在预训练阶段之后,在较小的、特定于任务的标记数据集上细化模型。精炼时,模型会适应执行特定任务,例如总结文本、翻译、回答问题或情感分析。可以通过监督学习或在某些情况下强化学习来进行细化,具体取决于任务和可用数据。在细化过程中,您还可以尝试不同的超参数,例如学习率、批量大小和训练周期数,以优化模型的性能。 评估和实施:使用相关指标(例如准确性、F1 分数或 BLEU 分数)评估精炼模型的性能。如果模型的性能令人满意,则会将其部署到现实世界的应用程序中,例如聊天机器人、内容生成或文本分析。 然而,训练 GPT 模型,尤其是像 GPT-4 这样的大型模型,需要大量的计算资源和专业知识。获取高质量、多样化的数据对于实现良好的性能也至关重要。 100 亿个参数是大型语言模型的临界点吗? 100 亿个参数是大型语言模型 (LLM) 的一个重要里程碑。正是在这一点上,法学硕士开始显示出他们理解和生成文本的能力的显着提高。 在100亿个参数之前,LLM的能力还是比较有限的。他们可以生成语法正确且事实上准确的文本,但他们常常难以理解人类语言的细微差别。 凭借 100 亿或更多的参数,LLM 可以学习更复杂的语言模式。他们可以理解上下文中单词和句子的含义,并可以生成语法正确且语义有意义的文本。 这是法学硕士发展的一个重大转折点,很可能会导致他们在各种任务上的表现显着提高。例如,法学硕士。将能够更好地理解和翻译语言,生成更具创意和原创的内容,甚至与人进行难以区分的对话。
法学硕士的能力与规模然而,基于上述能力与规模之间的关系,100亿个参数并不是一个神奇的数字。还有许多其他因素影响 LLM 的性能,例如训练数据的质量和模型的架构。 GPT-4 是常识ChatGPT 和 GPT-4 令人兴奋,但我想以一个基本主题结束:GPT-4 与人一样都是常识。 以下是如何使用 GPT-4 常识基础知识生成文本的示例: 提示:“狗是哺乳动物,哺乳动物有头发,狗的头发是什么颜色?” GPT -4 答案: “狗的皮毛通常是棕色的,但也可以是黑色、白色甚至红色。”GPT-4 Common Sense Basic 增强了 GPT-4 模型使用常识推理和理解世界的能力。它通过使用依赖于常识知识的预训练、细化、注意力机制、上下文理解和预测响应来生成更准确、更适合上下文的模型。 微软研究院声称,基于广泛的测试,GPT-4 可以被视为 AGI 的早期形式。看到未来的发展将会令人兴奋。 相关资源OpenAI RLHF:训练语言模型以遵循人类反馈的指示:https://arxiv.org/abs/2203.02155 用于根据人类反馈进行强化学习的语言模型 (Yao明)分布式训练地址:https://github.com/CarperAI/trlx大语言模型中的思维链提示:https://arxiv.org/abs/2201.11903语言模型是少样本学习者:https://arxiv.org/abs/2005.14165大型语言模型零样本推理器:https://arxiv.org/abs/ 2205.11 916斯坦福大学DetectGPT:使用概率曲率的零样本机器生成文本检测:https://arxiv.org/abs/2301.11305来源:PikeTalk
版权声明
本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。