ChatGPT 训练原理 - AI 同学请阅读
背景介绍
ChatGPT 引起了全世界的关注,不仅来自 AI 圈内人士,也来自圈外人士。
开发状况
去年宣布了ChatGPT和InstructGPT的一对姐妹模型,有时称为GPT-3.5。这是 GPT-4 之前发布的热身模型。有传言称 GPT-4 尚未发布。这是一个多式联运模型。此时,ChatGPT不仅可以理解文字回复,还可以理解其他模式,例如视频、图像和声音,这使得回复内容更加生动。 GPT的演变史模型开发。训练,区别仅在于数据收集的方法。不过,ChatGPT 的论文和代码细节尚未公布,但通过 InstructGPT 我们可以充分了解 ChatGPT 模型和训练细节。 ?它可以分为3个步骤,即SFT、RM和PPO,如下所示。
InstructGPT/ChatGPT模型架构
1.SFT
我们都知道ChatGPT是一个会话模型,它如何提供答案?要实现对话,第一步是依靠SFT,即监督微调。从技术上讲,这是对 GPT-3 的监督微调。基本目标是“优化数据集”,用人们喜欢的响应作为训练数据,让机器产生人们喜欢的内容。
- GPT 最初是一个使用互联网上庞大语料库训练的大型模型。然而,网络上的语料库非常混乱,并不一定是人们想要的答案。无法保证 GPT 基于此数据生成的答案的正确性和有用性。
- 在此基础上,我们对数据集进行优化,将人们最喜欢的答案再次输入到已经训练好的GPT中进行微调,从而使模型适应人们的思维模式并进行改进。可以理解的是,增强的模型只订阅人们喜欢的内容。
- 一个会说话的机器人原型完成了。它可以根据问题生成一系列答案,但缺陷在于它缺乏人类的判断力。机器生成了答案 A、B、C 和 D,但哪个是所需的答案?由此,引入了RM奖励模型。

SFT工作流程
2.RM
强化学习 RM的全称是强化学习。 RM技术的引入可以判断模型生成的内容好坏,而不是告诉模型如何改进。通过这种方法,模型具有更大的探索自由度,训练出来的模型具有更好的泛化能力。具体步骤如下:
- 首先,模型根据问题生成多个答案。
- 手动对给定答案进行排序和评分。
- 机器通过手动评分的数据训练奖励模型,并可以预测用户更喜欢哪个模型输出。

RM工作流程
一个比较通俗的例子来解释SFT和RM的工作方法和区别:
- SFT使用“手动标记”的问题来回答数据,并使用监督学习技术自动回答训练好的模型问题。
- RM 使用“手工评分”问题答案的数据和强化学习技术来训练自动评分答案的模型。
- SFT 使用“手动注释”来解决“是”问题,而 RM 使用“手动注释”通过手动对“是”问题进行评分来解决“是或否”答案问题。

SFT和RM的工作方法和区别
3.PPO
本节结合了之前训练的两个SFT和RM模型,并使用PPO(邻近策略优化)算法对其训练的生成进行微调。 SFT模型,然后将生成的响应输入RM评分模型,根据RM损失不断迭代生成模型具体步骤如下:
- 微调后,用SFT模型初始化PPO策略模型第一步,用第二步生成的RM模型初始化价值函数。
- 从 PPO 数据集中随机采样提示,并在第一步中通过 PPO 策略模型生成输出响应。
- 将RM模型带到提示和响应中,计算奖励值。
- 使用奖励来更新PPO策略模型的参数。
- 重复步骤 2-4。直到 PPO 战略模型收敛为止。
强化学习和预训练模型是近两年人工智能研究最热门的领域。许多学术研究人员此前曾表示,强化学习不太适合在预训练模型中使用,因为很难通过模型的输出内容来建立奖励。机械。 InstructGPT/ChatGPT 直观地做到了这一点。它通过结合人工标注的方式将强化学习引入到预训练的语言模型中,这是该算法最大的创新。
PPO 工作流程
版权声明
本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。