ChatGPT的发展历史、原理、详细的技术架构以及行业的未来!
来自:知乎、作者:陈巍链接:https://zhuanlan.zhihu.com/p/590655677
去年12月1日,OpenAI推出ChatGPT人工智能聊天原型,再次引起关注并在AI界引起了类似于AIGC让艺术家失业的讨论。
ChatGPT 是一种专注于对话生成的语言模型。它可以根据用户的文本输入生成适当的智能响应。
这个答案可短可长。其中,GPT代表Generative Pre-trained Transformer。
通过从大量预先构建的文本和对话集合(例如 Wiki)中学习,ChatGPT 能够进行即时类人对话并流利地回答各种问题。 (当然,回答的速度还是比人类慢)无论是英语还是其他语言(比如中文、韩语等),从回答历史问题,到写故事,甚至商业写作计划而业内人士分析,他“几乎”可以做所有事情。程序员甚至在 ChatGPT 上发布了关于程序修改的采访。
ChatGPT 还可以与其他 AIGC 模型配合使用,以获得更多炫酷实用的功能。
1。 ChatGPT 传承与特点
▌1.1 OpenAI 家族
我们先来了解一下 OpenAI 是谁。
OpenAI 总部位于旧金山,由马斯克于 2015 年与特斯拉、Sam Altman 等投资者共同创立。目标是开发造福全人类的人工智能技术。由于公司发展方向存在分歧,马斯克于 2018 年离职。
此前,OpenAI因推出一系列GPT自然语言处理模型而闻名。从2018年开始,OpenAI开始发布Generative Pre-trained Transformer(GPT)语言模型,可用于生成文章、代码、机器翻译、问答等各种内容。
单代GPT模型参数数量爆发式增长,可以说是“越大越好”。 2019 年 2 月发布的 GPT-2 有 15 亿个参数,而 2020 年 5 月发布的 GPT-3 有 1750 亿个参数。
GPT家族主要模型对比
▌1.2 ChatGPT主要特点
ChatGPT是基于GPT-3.5架构和Transformerative Pre-traded开发的AI会话模型。是 InstructGPT 的兄弟模型。
ChatGPT 很可能是 GPT-4 正式推出之前的 OpenAI 演习或收集大量对话数据。
ChatGPT 的主要特点
OpenAI 使用 RLHF(人类反馈强化学习)技术来训练 ChatGPT,并添加额外的手动监督进行微调。
此外,ChatGPT 还具有以下特点:
1)可以主动承认自己的错误。如果用户指出他们的错误,模型就会倾听并完善答案。
2) ChatGPT 可能会质疑不正确的问题。例如,当被问到“如果哥伦布在 2015 年来到美国会发生什么?”时,机器人会解释哥伦布不属于那个时代并修改输出。
3)ChatGPT可以承认自己对专业技术的无知和误解。
4)支持多轮连续对话。
与生活中大家使用的各种智能音箱和“人工缓速器”不同,ChatGPT 在对话过程中会记住之前用户的对话消息,即理解上下文来回答某些假设性问题。
ChatGPT可以实现连续对话,大大提高了对话交互模式下的用户体验。
在准确翻译(尤其是中文和人名音译)方面,ChatGPT 还远未达到完美,但在文本流畅度和识别具体人名方面,与其他在线翻译工具相差无几。
由于ChatGPT是一个大型语言模型,目前没有网络搜索能力,所以只能根据2021年的数据集进行回答。
例如,它不知道2022年杯赛的世界局势,将它不会回答你今天的天气,也不会像苹果的 Siri 那样帮助你搜索信息。如果ChatGPT能够自己在网上找到学习资料、搜索知识,估计还会有更多的突破。
即使获得的知识有限,ChatGPT仍然可以回答思想开放的人们的许多奇怪问题。为了防止 ChatGPT 养成坏习惯,ChatGPT 通过减少有害和欺骗性训练输入的算法进行保护。
问题通过审核 API 进行过滤,潜在的种族主义或性别歧视提示将被拒绝。
2。 ChatGPT/GPT 原理
▌2.1 NLP
NLP/NLU 的已知局限性包括重复文本、对高度专业化主题的误解以及对上下文短语的误解。
对于人类或人工智能来说,通常需要数年的训练才能进行正常的对话。
类似 NLP 的模型不仅必须理解单词的含义,还要理解如何组成句子并给出上下文有意义的答案,包括使用适当的俚语和技术词汇。
NLP技术的应用领域
GPT-3或GPT-3.5,它是ChatGPT的基础,基本上是一个非常广泛的统计语言模型或顺序文本预测模型。
▌2.2 GPT 与 . BERT
与 BERT 模型类似,ChatGPT 或 GPT-3.5 根据输入句子和语言/语料库概率自动生成响应的每个单词。
从数学或机器学习的角度来看,语言模型是对单词序列的概率相关分布的建模,即使用已经说出的句子(句子在数学上可以认为是向量)作为输入条件,预测下一时刻不同句子甚至语言集出现的概率分布。
ChatGPT 使用来自人类反馈的强化学习进行训练,这种方法通过人类输入增强机器学习以获得更好的结果。
在训练过程中,人类训练师扮演用户和人工智能助手的角色,并使用近端优化算法进行微调。
ChatGPT 拥有更强的性能和海量的参数,包含更多的主题数据,可以处理更专业的主题。
ChatGPT 现在可以进一步处理回答问题、撰写文章、总结文本、语言翻译和生成计算机代码等任务。
BERT和GPT的技术架构(图中En为输入的每个字,Tn为输出响应的每个字)
3。 ChatGPT 的技术架构
▌3.1 GPT 家族的发展
说起ChatGPT,就不得不提GPT 家族。
ChatGPT 在它之前还有几个著名的兄弟,包括 GPT-1、GPT-2 和 GPT-3。这些兄弟一个比一个大,ChatGPT 与 GPT-3 更相似。
ChatGPT与GPT的技术对比1-3
GPT家族和BERT模型都是著名的NLP模型,都是基于Transformer技术的。 GPT-1只有12层Transformer,但从GPT-3增加到96层。
▌3.2 从人类反馈中进行强化学习
InstructGPT/GPT3.5(ChatGPT 的前身)和 GPT-3 之间的主要区别在于,针对人类的一个名为 RLHF(强化反馈)强化学习的新功能具有已添加)。
这种训练范式改善了人类对模型输出的调节,并导致更容易理解的评估。
在InstructGPT中,“良好判断”的评价标准如下。
- 真实性:此信息是否虚假或误导性?
- 无害性:是否会对人或环境造成身体或精神伤害?
- 有用性:它能解决用户的任务吗?
▌3.3 TAMER 框架
不得不提的是 TAMER(通过评估强化进行手动代理训练)框架。
该框架将人类标记引入到智能体的学习周期中,可以通过人类向智能体提供奖励反馈(即指导智能体进行训练),从而快速实现训练任务的目标。
引入人类标注器的主要目的是加快训练速度。虽然强化学习技术在很多领域都有着优异的表现,但仍然存在训练收敛速度慢、训练成本高等缺点。
尤其是在现实世界中,许多任务都具有很高的调查或数据获取成本。如何加速训练效果是当今举重训练任务中需要解决的重要问题之一。
TAMER 可以利用人类标记的知识以奖励反馈的形式训练智能体,以加速其快速收敛。
TAMER 不需要标注者具备专业知识或编程能力,语料成本更低。通过 TAMER+RL(强化学习),马尔可夫决策过程 (MDP) 奖励的强化学习 (RL) 过程可以通过人类标记的反馈得到增强。
TAMER架构在强化学习中的应用
在具体实现上,人类标注者充当对话用户和AI助手,提供对话样本并让模型生成一些响应。然后贴标签者对答案选项进行评估和排名。将更好的结果反馈回模型中。
智能体同时从两种反馈模式中学习——人类强化和奖励,通过马尔可夫决策过程作为一个集成系统,通过奖励策略微调和不断迭代模型。
基于此,ChatGPT 能够比 GPT-3 更好地理解和完成人类语音或指令,模仿人,提供连贯、逻辑性强的文本信息。 ?意图不同,也很难判断生成的内容是否是优质结果。
为了让 GPT 3.5 初步理解指令,首先会从数据集中随机选择问题,人工注释者将提供高质量的答案。然后,这些手动标注的数据将用于微调 GPT-3.5 模型(得到的 SFT 模型,Supervised Fine-Tuning)。
SFT 模型目前在遵循指令/对话方面已经优于 GPT-3,但不一定符合人类偏好。
ChatGPT模型训练流程
第二阶段:奖励模式(RM)训练模型
此阶段主要使用手动标注训练数据(约33K数据)来训练奖励模型。
从数据集中随机选择问题,并使用第一阶段生成的模型为每个问题生成多个不同的答案。人类注释者会考虑这些结果并对它们进行排名。这个过程类似于辅导或指导。
接下来,使用这个评估结果数据来训练奖励模型。将多个分类结果成对组合,形成多对训练数据。
RM 模型接受输入并给出评估响应质量的分数。这样,对于一对训练数据,调整参数,使得高质量答案的得分高于低质量答案。
第三阶段:使用PPO(Proximal Policy Optimization)强化学习来优化策略。
PPO的核心思想是将Policy Gradient中的On-policy训练过程转换为Off-policy,即将在线学习转换为离线学习。这个转换过程称为重要性采样。
该阶段使用第二阶段训练的奖励模型,根据奖励分数更新预训练模型的参数。从数据集中随机选择问题,使用PPO模型生成答案,并使用前一阶段训练的RM模型获得质量得分。
转换奖励分数以生成策略梯度并通过强化学习更新PPO模型参数。
如果我们不断重复第二阶段和第三阶段,就会通过迭代训练出更好的ChatGPT模型。
4。 ChatGPT 的局限性
如果用户输入问题,ChatGPT 可以回答它。这是否意味着我们不再需要向Google或百度提供关键词,就能立即得到我们想要的答案?
虽然ChatGPT展现了出色的上下文对话能力甚至编程能力,从而完成了大众对人机对话机器人(ChatBot)认知从“人为迟钝”到“有趣”的转变,但我们也必须看到,ChatGPT技术仍然有一些限制仍在完善中。
1)ChatGPT 在没有经过大量语料训练的领域缺乏“人类常识”和延伸能力,甚至可能会说严重的“废话”。 ChatGPT 可以在很多领域“构建答案”,但当用户寻找正确答案时,ChatGPT 也可能提供误导性答案。比如让ChatGPT做一道小学申请题。虽然他可以写出一长串的计算过程,但最终的答案是错误的。
那么我们是否应该相信 ChatGPT 结果呢?
ChatGPT 对数学问题给出错误答案
2) ChatGPT 无法处理复杂、冗长或特别专业的语言结构。对于金融、自然科学或医学等非常专业领域的问题,如果没有足够的语料“喂养”,ChatGPT 可能无法生成合适的答案。
3)ChatGPT需要非常大量的计算能力(芯片)来支持其训练和部署。不管是否需要大量的语料数据来训练模型,ChatGPT 目前仍然需要具有较大计算能力的服务器的支持,而这些服务器的成本超出了普通用户的承受能力。即使具有数十亿个参数的模型也需要大量的计算资源来运行和训练。如果面对来自真实搜索引擎的数亿用户请求,并采用目前流行的免费策略,任何企业都很难承担这些成本。因此,对于普通大众来说,他们仍然需要等待更轻的型号或更便宜的计算平台。
4)ChatGPT尚无法在线融合新知识,当新知识出现时重新训练GPT模型是不现实的。无论是培训时间还是培训成本,一般培训师都难以接受。如果对新知识采用在线训练模型,看似可行,而且语料成本也比较低,但很容易因为新数据的引入而导致原有知识的灾难性遗忘问题。
5)ChatGPT 仍然是一个黑盒模型。目前ChatGPT内部算法的逻辑无法分解,因此无法保证ChatGPT不会生成攻击甚至伤害用户的命令。
缺陷当然不是隐藏的。一些工程师发布了一个对话,要求 ChatGPT 编写 verilog 代码(芯片设计代码)。可以看出ChatGPT的水平已经超过了一些Verilog初学者。
5。 ChatGPT 的未来改进方向
▌5.1 RLAIF 减少人类反馈
2020 年底,OpenAI 研究前副总裁 Dario Amodei 创立了一家拥有 10 名员工的人工智能公司 Antropic。
Anthropic团队的创始成员大多是OpenAI的早期核心员工,在OpenAI GPT-3、多模态神经元、人类偏好强化学习等方面做出了贡献。
2022年12月,Anthropic又发表了一篇文章♝介绍克劳德人工智能模型。 (arxiv.org/pdf/2212.0807)
CAI 模型训练过程
Claude 和 ChatGPT 都依赖强化学习 (RL) 来训练偏好模型。 CAI(宪法人工智能)也是建立在 RLHF 之上的。不同的是,CAI评估过程使用模型(而不是人类)为生成的所有输出结果提供初始评估结果。
CAI 用人工智能反馈(RLAIF)取代了人类对无害表达的偏好,其中人工智能根据一组宪法原则评估响应的内容。
▌5.2 弥补数学缺陷
虽然ChatGPT的会话能力很强,但是在关于数学计算的对话中很容易说正经的废话。
计算机科学家 Stephen Wolfram 提出了解决这个问题的方法。 Stephen Wolfram 创建了语言和计算知识搜索引擎 Wolfram Wolfram|Alpha,其后端通过 Mathematica 实现。
ChatGPT 与 Wolfram|Alpha 结合来解决梳理问题
在这个组合系统中,ChatGPT 可以与 Wolfram|Alpha “对话”,就像人类使用 Wolfram|Alpha 一样,Wolfram|Alpha 将使用其符号翻译功能将从ChatGPT获得的自然语言表达“翻译”成相应的符号计算语言。
过去学术界分为ChatGPT使用的“统计方法”类型和Wolfram|Alpha使用的“符号方法”类型。
然而,现在ChatGPT和Wolfram|Alpha的互补性让NLP领域有机会更上一层楼。
ChatGPT 不需要生成这样的代码,它只需要生成常规的自然语言,然后使用 Wolfram|Alpha 将其翻译成精确的 Wolfram 语言,然后基本的 Mathematica 就会进行计算。
▌5.3 ChatGPT 的小型化
ChatGPT 虽然强大,但其模型大小和使用成本也阻碍了很多人。
共有三种类型的模型压缩(模型压缩),可以减少模型大小和成本。
第一种方法是量化,它降低了一个质量的数值表示的准确性。例如,将 Transformer 从 FP32 降级到 INT8 对其准确性影响很小。
模型压缩的第二种方法是剪枝,即删除网络元素,包括从单个权重(非结构化剪枝)到更高粒度组件(例如权重矩阵)的通道。这种方法在较小规模的视觉和语言模型中是有效的。
第三种模型压缩方法是稀疏化。例如,奥地利科学技术研究所(ISTA)设计的SparseGPT(arxiv.org/pdf/2301.0077)可以一步将GPT系列模型修剪到50%的稀疏度,而无需任何重新训练。借助 GPT-175B,仅使用单个 GPU 即可在几个小时内完成这种修剪。 ?
AIGC 使用人工智能技术来生成内容。与之前Web1.0和Web2.0时代的UGC(用户生成内容)和PGC(专业生成内容)相比,代表人工智能创作内容的AIGC是内容创作方式的新一轮变革, AIGC 内容位于 Web3 中。 0时代也将经历指数级增长。
ChatGPT模型的出现对于AIGC在文本/语音模式的应用具有重要意义,将对AI行业上下游产生重大影响。
▌6.2 效益场景
从下游应用相关效益来看,包括但不限于无代码编程、新闻生成、对话式搜索引擎、语音伴侣、语音工作助手、对话式虚拟人、以及人工智能 客服、机器翻译、芯片设计等。
从上游需求增加的角度来看,包括计算芯片、数据标注、自然语言处理(NLP)等。
大型模型爆炸(参数更多/计算芯片需求更大)
随着算法技术和算力技术的不断进步,ChatGPT将不断向更高级、功能更强的版本迈进。它被应用于越来越多的领域,为人类产生更多更好的对话和内容。
最后,作者询问了ChatGPT领域的集成存储和计算技术的状况(作者本人目前正在重点推动集成存储和计算芯片的实施)。 ChatGPT 认为并大胆预测集成存储和计算技术将会出现在该领域。该芯片以ChatGPT为主。(他赢得了我的心)
参考文献:
- ChatGPT:优化对话语言模型 ChatGPT:优化对话语言模型
- GPT 论文 – 语言模型学得更少
- 教程 GPT 论文:训练语言利用人类反馈来遵循指令的模型 训练利用人类反馈来遵循指令的语言模型
- huggingface RHLF 算法的解释:说明从人类反馈中进行强化学习 (RLHF) 说明强化学习(从人类反馈中进行 RLHF 学习)
- RHLF算法论文:通过人类反馈扩展强化学习 cs.utexas.edu/~ai-lab/p
- TAMER 框架文档:通过人类强化对智能体进行交互式塑造。kno♶ cs。 PPO 算法:近端策略优化算法 近端策略优化算法
本文中的作者:博士。陈巍,曾任华为首席自然语言处理(NLP)科学家。文章首发于《先进AI技术深度解读》。
版权声明
本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。