ChatGPT算法原理、技术架构、局限性以及未来改进机会
每一代GPT模型的参数数量都呈爆炸式增长,可以说是“越大越好”。 2019 年 2 月发布的 GPT-2 有 15 亿个参数,而 2020 年 5 月发布的 GPT-3 有 1750 亿个参数。
还有很多读者对ChatGPT充满期待(想象?梦想)。今天我想和大家分享一个技术故障。读完本文后想变得更加理性吗?享受~
文末推荐几篇从创始人角度直接采访ChatGPT的文章,享受~
去年12月1日,OpenAI推出了人工智能聊天原型ChatGPT,再次吸引了引起关注并引发了AI界类似的AIGC。关于让艺术家失业的问题引起了很大的讨论。
ChatGPT 是一种专注于对话生成的语言模型。它可以根据用户的文字输入生成相应的智能响应。
这个答案可短可长。其中,GPT是Generative Pre-trained Transformer(生成预训练变换模型)的缩写。
通过学习大量现成的文本和对话集合(如Wiki),ChatGPT可以像人类一样即时说话并流利地回答各种问题。 (当然,反应速度还是比人类慢)无论是英语还是其他语言(比如中文、韩语等),从回答历史问题,到写故事,甚至写商业计划书和业内人士分析,“几乎”可以做任何事。一些程序员甚至发布了有关程序修改的 chatGPT 对话。
ChatGPT 和 AIGC 联合使用
ChatGPT 还可以与其他 AIGC 模型一起使用,以获得更多酷炫实用的功能。
例如客厅设计图就是通过上面的对话框生成的。这极大地提高了AI应用与客户沟通的能力,让我们看到了AI大规模落地的开始。
1。 ChatGPT 的遗产和特点
▌1.1 OpenAI 家族
让我们先了解一下 OpenAI 是谁。
OpenAI 总部位于旧金山,由特斯拉的马斯克、萨姆·奥尔特曼等投资者于 2015 年共同创立。目标是开发造福全人类的 AI 技术。由于公司发展方向存在分歧,马斯克于2018年离职。
此前,OpenAI因推出GPT系列自然语言处理模型而闻名。自2018年起,OpenAI开始发布生成式预训练语言模型GPT(Generative Pre-trained Transformer),可用于生成文章、代码、机器翻译、问答等各种内容。
每一代GPT模型的参数数量都呈爆炸式增长,可以说是“越大越好”。 2019 年 2 月发布的 GPT-2 有 15 亿个参数,而 2020 年 5 月发布的 GPT-3 有 1750 亿个参数。
GPT家族中主要模型对比
▌1.2 ChatGPT的主要特点
ChatGPT模型是在之前的对话式AI 3.5)架构基础上开发的,即InstructGPT Brother 模型。
ChatGPT很可能是OpenAI在GPT-4正式推出之前的演习,或者是为了收集大量的对话数据。
ChatGPT的主要特点
OpenAI使用RLHF(Reinforcement Learning from Human Feedbac,人类反馈强化学习)技术来训练ChatGPT,并增加更多的人工监督进行微调。
此外,ChatGPT还具有以下特点:
1)可以主动承认自己的错误。如果用户指出他们的错误,模型会听取并完善响应。
2) ChatGPT 可以质疑错误。例如,当被问到“如果哥伦布在2015年来到美国会发生什么?”时,机器人会解释哥伦布不属于这个时代并调整输出。
3)ChatGPT可以承认自己的无知,缺乏对专业技术的理解。
4)支持多轮连续对话。
与生活中大家使用的各种智能音箱和“人工阻燃剂”不同,ChatGPT在对话过程中会记住之前用户的对话消息,即上下文理解,以回答某些假设性问题。
ChatGPT可以实现连续对话,大大提高了会话交互模式下的用户体验。
对于准确翻译(尤其是中文和姓名音译)来说,ChatGPT 还远未达到完美,但在文本流程和具体姓名识别方面与其他在线翻译工具类似。
由于ChatGPT是一个大型语言模型,目前不具备网络搜索功能,因此只能根据其拥有的2021年的数据集进行响应。
例如,它不知道2022年世界杯的情况,也不会像苹果的Siri一样回答今天的天气怎么样或帮助你搜索信息。如果ChatGPT能够自己上网查找学习资料、求知知识,估计还会有更大的突破。
虽然学到的知识有限,但ChatGPT仍然可以回答很多思想开放的人提出的奇怪问题。为了防止ChatGPT养成坏习惯,ChatGPT通过算法进行筛选,以减少有害和误导性的训练输入。
请求通过审核 API 进行过滤,潜在的种族主义或性别歧视提示将被拒绝。
2。 ChatGPT/GPT 原理
▌2.1 NLP
NLP/NLU 领域已知的局限性包括重复文本、对高度专业化主题的误解以及对上下文句子的误解。
对于人类或人工智能来说,通常需要数年的训练才能进行正常的对话。
类似 NLP 的模型不仅必须理解单词的含义,还要理解如何形成句子并提供上下文有意义的响应,甚至使用适当的俚语和专业词汇。
NLP技术的应用领域
本质上,作为ChatGPT基础的GPT-3或GPT-3.5是一个非常大的统计语言模型或顺序文本预测模型。
▌2.2 GPT 与 . BERT
与 BERT 模型类似,ChatGPT 或 GPT-3.5 根据输入句子和语言/语料库概率自动生成响应中的每个单词。
从数学或机器学习的角度来看,语言模型是对单词序列的概率相关分布的建模,即以已经说出的句子(语句可以认为是数学中的向量)作为输入条件,预测概率分布下一刻不同句子甚至语言设定的出现。
ChatGPT 使用来自人类反馈的强化学习进行训练,这是一种通过人类干预增强机器学习以获得更好结果的方法。
在训练过程中,人类训练员扮演人工智能用户和助手的角色,并通过近端策略优化算法进行微调。
由于ChatGPT更强的性能和海量的参数,它包含了更多的主题数据,可以处理更多的小众主题。
ChatGPT 现在可以处理回答问题、撰写文章、文本摘要、语言翻译和生成计算机代码等任务。?家族的演变
当我们谈论ChatGPT时,就不得不提到GPT家族。
ChatGPT 在它之前有几个著名的兄弟,包括 GPT-1、GPT-2 和 GPT-3。这些兄弟一个比一个大,ChatGPT 与 GPT-3 更相似。
ChatGPT 与 GPT 的技术对比 1-3
GPT 家族和 BERT 模型都是著名的 NLP 模型,都是基于 Transformer 技术的。 GPT-1 只有 12 个变压器层,但 GPT-3 已增加到 96 层。
▌3.2 从人类反馈中进行强化学习
InstructGPT/GPT3.5(ChatGPT的前身)与GPT-3的主要区别在于,一个名为RLHF(Reinforcement Feedback,人性化反馈)的新功能具有添加了强化学习)。
这种训练范例改善了人类对模型输出的调节,并产生更容易理解的排名。
在InstructGPT中,以下评价标准是“句子的好坏”。
- 真实性:是否有虚假信息或误导性信息?
- 无害性:是否会对人或环境造成身体或心理伤害?
- 新:它能解决用户的任务吗?
▌3.3 TAMER 框架
不得不提 TAMER 框架(通过评估强化手动训练智能体)。
该框架将人类标记引入到智能体的学习周期中,可以通过人类向智能体提供奖励反馈(即指导智能体进行训练),从而快速实现训练任务的目标。
引入人类标记器的主要目的是加快训练速度。尽管强化学习技术在很多领域有着突出的表现,但它仍然存在训练收敛速度慢、训练成本高等缺点。
尤其是在现实世界中,许多任务具有很高的搜索成本或数据收集成本。如何加快训练效率是当今强化学习任务需要解决的重要问题之一。
TAMER 可以利用人类标记的知识以奖励信反馈的形式来训练智能体,以加速其快速收敛。
TAMER 不需要标注者具备专业知识或编程能力,语料成本较低。通过 TAMER+RL(强化学习),马尔可夫决策过程 (MDP) 奖励的强化学习 (RL) 过程可以通过人类标记的反馈得到增强。
TAMER架构在强化学习中的应用
在具体实现上,人类标注者充当对话用户和人工智能助手,提供对话样本,让模型生成一些答案,然后标注者进行评论对答案选项进行积分和排名,以将更好的结果反馈给模型。
智能体同时从两种反馈模式中学习——人类强化和马尔可夫决策过程奖励作为一个集成系统,通过奖励策略不断微调和迭代模型。
在此基础上,ChatGPT能够比GPT-3更好地理解和完成人类语言或指令,模仿人类并提供连贯且逻辑性强的文本信息。 ?意图不同,也很难判断生成的内容是否是高质量的结果。
为了让 GPT 3.5 最初有理解指令的意图,首先会从数据集中随机选择问题,然后人工注释者将提供高质量的答案。然后,这些手动注释的数据将用于微调 GPT-3.5 模型(有监督微调 SFT 模型)。
此时的SFT模型在遵循指令/对话方面已经优于GPT-3,但不一定符合人类的偏好。 ?模型。
从数据集中随机选择问题,并使用第一步生成的模型为每个问题生成几个不同的答案。人工注释者会考虑这些结果并提供排名顺序。这个过程类似于辅导或指导。
然后你使用这个排名结果数据来训练奖励模型。多个排序结果成对组合,形成多个训练数据对。
RM 模型接受输入并提供评估响应质量的分数。通过这种方式,对于一对训练数据,可以调整参数,使得高质量响应的得分高于低质量响应的得分。
第三步:使用PPO(近端策略优化)强化学习来优化策略。
PPO的核心思想是将Policy Gradient中的On-policy训练过程转变为Off-policy,即将在线学习转变为离线学习。这个转换过程称为重要性采样。
该阶段使用第二步训练的奖励模型,并根据奖励分数更新预训练模型的参数。从数据集中随机选择问题,使用 PPO 模型生成答案,并使用上一步训练的 RM 模型提供质量分数。
按顺序传递奖励分数,从而生成策略梯度,并通过强化学习更新PPO模型参数。
如果我们不断重复第二步和第三步,通过迭代,就会训练出更高质量的ChatGPT模型。
4。 ChatGPT 的局限性
只要用户输入问题,ChatGPT 就可以回答。这是否意味着我们不再需要向谷歌或百度提供搜索词,就能立即得到我们想要的答案?
虽然ChatGPT展现了出色的上下文对话能力甚至编程能力,完成了公众对人机对话机器人(ChatBot)认知从“人为弱智”到“有趣”的转变,但我们还需要看到ChatGPT-该技术仍然存在一些局限性,仍在改进中。
1)ChatGPT在没有经过大量语料训练的领域缺乏“人类常识”和延伸能力,甚至可能会说严重的“废话”。 ChatGPT 可以在很多领域“创建答案”,但当用户搜索正确答案时,ChatGPT 也可能提供误导性答案。比如让ChatGPT做一道小学的申请题。虽然可以写出一长串的计算过程,但最终的答案却是错误的。
那么我们该相信ChatGPT的结果吗?
ChatGPT 对数学问题给出错误答案
2) ChatGPT 无法处理复杂、冗长或特别专业的语言结构。对于金融、科学或医学等高度专业化领域的问题,如果没有足够的语料“喂养”,ChatGPT 可能无法生成合适的答案。
3)ChatGPT需要非常大的算力(芯片)来支持训练和部署。不管是否需要大量的语料数据来训练模型,ChatGPT的使用仍然需要具有较大计算能力的服务器的支持,而这些服务器的成本超出了普通用户的承受能力。即使具有数十亿个参数的模型也需要大量的计算资源来运行和训练。如果面对真实搜索引擎的数亿用户请求,如果采用目前流行的免费策略,任何企业都很难承担这笔成本。因此,对于普通大众来说,还是要等待更轻薄的机型或者更具性价比的计算平台。
4)ChatGPT目前无法在线融合新知识,当新知识出现时重新训练GPT模型是不现实的。无论是培训时间还是培训费用,普通培训师都难以接受。如果对新知识采用在线训练模型,看似可行,而且语料成本也比较低,但很容易因为新数据的引入而导致原有知识的灾难性遗忘问题。
5)ChatGPT 仍然是黑盒模型。目前ChatGPT的内部算法逻辑无法分解,因此无法保证ChatGPT不会生成攻击甚至伤害用户的语句。
缺点当然不是隐藏的。有工程师发帖要求ChatGPT编写verilog代码(芯片设计代码)。可以看出ChatGPT的水平已经超过了一些verilog初学者的水平。 ?人为的。
Anthropic的创始团队成员大多是OpenAI的早期核心员工,参与过OpenAI的GPT-3、多模态神经元、人类偏好增强等。
2022年12月,Anthropic又发表了一篇论文介绍了人工智能模特克劳德. (http://arxiv.org/pdf/2212.0807)
CAI 模型训练流程
Claude 和 ChatGPT 都依赖强化学习(RL)来训练偏好模型。 CAI(宪法人工智能)也是建立在 RLHF 之上的。不同之处在于,CAI 的排名过程使用模型(而不是人类)来为所有生成的输出提供初始排名结果。
CAI 用人工智能反馈(RLAIF)取代了人类对无害表达的偏好,其中人工智能根据一组宪法原则评估响应内容。
▌5.2 弥补数学方面的短板
虽然ChatGPT的会话能力很强,但是在数学会话中很容易说正经的废话。
计算机科学家 Stephen Wolfram 提出了解决这个问题的方法。 Stephen Wolfram 创建了 Wolfram 语言和计算机科学搜索引擎 Wolfram|Alpha,其后端通过 Mathematica 实现。
ChatGPT 与 Wolfram|Alpha 结合来处理梳理问题
在这个组合系统中,ChatGPT 可以与 Wolfram|Alpha “对话”,就像人类使用 Wolfram|Alpha 一样,Wolfram|Alpha 也会使用它符号翻译能力将从ChatGPT获得的自然语言表达“翻译”成相应的符号计算机语言。
过去,学术界对于ChatGPT使用的“统计方法”和Wolfram|Alpha使用的“符号方法”存在分歧。
但现在ChatGPT和Wolfram|Alpha的互补性让NLP领域有机会更上一层楼。
ChatGPT 不需要生成这样的代码,它只需要生成简单的自然语言,然后使用 Wolfram|Alpha 将其翻译为精确的 Wolfram 语言,然后底层 Mathematica 进行计算。
▌5.3 ChatGPT 的小型化
ChatGPT 虽然强大,但模型大小和使用成本也阻碍了很多人。
共有三种类型的模型压缩(模型压缩),可以减少模型大小和成本。
第一种方法是量化,它降低了单个权重数值表示的准确性。例如,将 Tansformer 从 FP32 降级为 INT8 对精度影响很小。
模型压缩的第二种方法是剪枝,即删除网络元素,包括从单个权重(非结构化剪枝)到更高粒度组件(例如权重矩阵)的通道。这种方法在较小规模的视觉和语言模型中有效。
第三种模型压缩方法是稀疏化。例如,奥地利科学技术研究所(ISTA)提出的SparseGPT(http://arxiv.org/pdf/2301.0077)可以在无需重新训练的情况下一步将GPT系列修剪到50%的稀疏度。对于 GPT-175B 模型,仅使用单个 GPU 即可在几个小时内实现这种裁剪。 ?
AIGC 使用人工智能技术来生成内容。与之前Web1.0和Web2.0时代的UGC(用户生成内容)和PGC(专业制作内容)相比,代表人工智能感知内容的AIGC是内容生产方式的新一轮变革, AIGC 内容位于 Web3 中。 0时期也会有指数级的增长。
ChatGPT模型的出现对于AIGC在文本/语音模式下的使用具有重要意义,将对AI行业上下游产生重大影响。
▌6.2 效益场景
从下游相关效益应用来看,包括但不限于无代码编程、小说生成、对话式搜索引擎、语音伴侣、语音工作助手、虚拟对话人、人工智能等智能客服、机器翻译、芯片设计等
从上游侧需求增加来看,包括数据算力芯片、数据标注、自然语言处理(NLP)等
大模型爆炸式增长(参数更多/对数据算力芯片要求更高)
随着算法技术和数据算力技术的不断发展,ChatGPT将进一步向更高级的功能和更强的特征版本应用在越来越多的领域,产生更多以及为人们提供更好的对话和内容。
最后,作者询问了ChatGPT内部存储与计算一体化技术的现状(作者本人目前正在重点推进存储与计算一体化芯片的实现)。 ChatGPT思考了一下,大胆预测集成存储和数据技术将在ChatGPT芯片中占据领先地位。领先地位。(赢得了我的心
)
参考文献:
- ChatGPT:优化对话的语言模型
- GPT 论文:语言模型是很少的 语言模型是很少的 InstruerGPT 论文:T雷内通过人类反馈来遵循指令的语言模型 训练语言模型以通过人类反馈来遵循指令
- huggingface RHLF 算法解读:来自人类反馈的说明性强化学习 (RLHF) 来自人类反馈的说明性强化学习 (RLHF)
- RHLF-算法论文:通过人类反馈增强强化学习 http://cs.utexas.edu/~ai-lab/p
- TAMER 框架论文:通过人类强化交互塑造代理 http://cs.utexas.edu/~bradknox
- PPO-算法:近似策略优化算法 近似策略优化算法
--------结束 ----------
转载自公众号:中国与金融
版权声明
本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。