OpenAI发展历史及chatGPT实现原理
随着技术的不断发展,我们一直希望让物体具有类似人类的品质。电影和小说中充满了很多关于未来科技的幻想,比如《钢铁侠》中的JARVIS(只是一个相当智能的系统),就让人对未来充满期待。
ChatGPT 让这一切成为现实,每个人都有一个私人秘书。让“它”成为“他”,他的能力有多强大。 GPT通过了所有美国基础考试,并且以高分通过。下图显示了他在各种考试中击败了多少人。例如,GPT-4 在 SAT 阅读测试中排名前 7% 左右,在 SAT 数学测试中排名前 11% 左右。
ChatGPT 彻底改变了人工智能和语言处理领域,为生成自然语言响应提供了先进的解决方案。作为基于 GPT-3.5 架构的人工智能语言模型,ChatGPT 已迅速成为广泛应用的流行工具,从聊天机器人和虚拟助理到内容创建和语言学习。凭借其理解和生成类人反应的能力,ChatGPT 有潜力改变我们与技术和彼此互动的方式。
上面这段话是ChatGPT写的。写一篇文章甚至是一篇论文很容易。但他是如何走到今天这一步的呢?其根本原理是什么?为什么会有这样的影响呢?
PS:如果你没有使用过ChatGPT,需要一个ChatGPT账号,小编强烈建议你自助一个完整的ChatGPT账号,亲自体验一下ChatGPT的乐趣,会让你有一个新的认识。
1。 OpenAI发展史
威胁与OpenAI的诞生
虽然人们对未来的人工智能充满期待,但也有人担心它的出现会威胁人类的生存。 1984年的《终结者》就已经出现了人工智能消灭人类的场景。后来《复仇者联盟一》、《黑客帝国》、《我,机器人》等影视作品也有类似的情节。
不仅在文学艺术创作上,各路大佬其实也在担心人工智能的崛起。 2014年,史蒂芬·威廉·霍金告诉BBC,人工智能的全面发展可能会导致人类的终结。 “它可以自行启动,并以不断加快的速度重新设计自己。而人类则相反,受限于生物进化的缓慢过程,根本无法竞争,最终会被超越。” 2015年,比尔·盖茨也在网上回应称:“如果我们能够很好地控制它,机器可以造福人类,但如果它们在几年内变得足够聪明,它们将成为人类的一大担忧。”
但这么多大佬认同的观点并没有引起人们的高度警惕。大名鼎鼎的埃隆·马斯克也坚定地站在反人工智能队伍中,认为人工智能是对人类生存的头号威胁。他认为,一方面,人工智能必须在监管下发展,另一方面,当尽可能多的人拥有人工智能的力量时,这种威胁就能得到有效预防[笑哭]。拒绝这个理想。 Sk 和众多大佬(Sam Altamn、Greg Brockman)于 2015 年在旧金山创立了 OpenAI。此时的 OpenAI 具有三个特点:
- 代码开源
- 所有专利均向公众开放
- 和其他机构自由合作
其实是很开放的。
烧钱与竞争
公司的发展绝对离不开两点,人才和资本。马斯克筹集了约 10 亿美元的种子资金,并请深度学习教父 Yoshua Bengio 列出一份人才名单,并以高薪一一聘用。
有了人才和资金,当OpenAI准备干大事的时候,旁边的Google却泼了冷水。 2016年,由谷歌子公司Deepmind开发。 Alpha Go击败李世石,点燃人工智能热潮,成为全球讨论的焦点。至此,OpenAI 教会了 AI 如何玩游戏。自成立以来,它一直使用强化学习方法来教AI玩一些简单的游戏。它还发布了univers平台,该平台提供了跨网站和游戏平台训练智能代理的工具包。训练环境超过1000个,微软、NVIDIA等公司参与建设。
2017年,人工智能培训的成本越来越贵。从那时起,OpenAI 仅在云计算方面就花费了 790 万美元。尽管OpenAI自成立以来不断推出技术产品并取得了不错的成绩,但其竞争对手Google却发表了一篇重磅论文《Attention is all you need》,提出了Transform架构(也是GPT中T的由来),这不仅极大地减少了语言模型训练时间,也使得模型具有可解释性。
2018年,为了让AI玩Dota,OpenAI向Google租用了12.8万个CPU和256个GPU,历时数周,最终在Dota2比赛中击败了人类职业选手。同年,由于特斯拉与 OpenAI 之间的利益冲突,马斯克退出了 OpenAI。有传言称,马斯克从 OpenAI 挖来了一些研究人员来帮助特斯拉的自动驾驶项目,这可能引起了其他创始人和投资者的不满。马斯克对OpenAI的研究方向和安全措施有不同看法,他批评OpenAI训练人工智能撒谎并生成有偏见的内容。为了避免利益冲突,他选择专注于特斯拉和SpaceX等其他项目。快速发展
由于马斯克的退出,Sam Altman正式成为OpennAI的CEO。 2018年6月,在谷歌Transformer模型诞生周年之际,OpenAI发表了论文《通过生成式预训练提高语言理解》,并推出了基于Transformer架构的拥有1.17亿参数的GPT-1模型。
2019年是OpenAI的重要转折点。新任官员 Altman 实施了改革,将 OpenAI 拆分为两个实体:非营利性的 Open AI Inc. 和 Open AI Inc.。和营利性 Open AI LP,并向员工分配股权。他们表示,这样做是为了吸引更多资金和人才,并维护其使命和价值观。就这样,他们吸引了微软10亿美元的投资。今年,第二代GPT的参数从1.17丹麦克朗增加到15亿丹麦克朗。
2020年,在微软的支持下,OpenAI发布了GPT-3模型。有了钱就不一样了。参数直接从15亿增长到1750亿,达到了千亿级别。无论是规模还是能力都有了质的飞跃,让OpenAI认识到语言模型的能力其实是和规模成正比的。 GPT3也是OpenAI第一个提供支付接口的商业产品。
根据GPT-3,OpenAI在2022年花了两年的时间对GPT-3.5进行微调和微调。所以到了年底,本文的主角AI聊天机器人就基于GPT-3.5和强化学习,ChatGPT,正式诞生。
爆发热点
5天之内,注册人数突破100万。下图展示了 Chat GPT 吸引用户的速度有多快
两个月后,月活跃用户数已突破 1 亿,成为历史上增长最快的消费应用。 2023年初,微软决定再追加100亿美元,将GPT集成到office系列应用和Bing搜索中,正式向谷歌宣战。2月8日,谷歌急于推出一款名为Bard的类似应用,但由于发布会上的事实错误,导致股价一夜蒸发1000亿美元。 3月14日,OpenAI乘胜追击,发布了GPT-4。 3月16日,百度举办了类似的应用文心一言。 AI领域的战争正式打响! ?回归模型。例如,给定“I”,后跟“of”,然后是“my”,后跟“home”,从“my home”开始逐字生成“in”,生成完整的句子。
然而,一个单词、一个短语或一个句子之后的下一个单词并不是明确的。例如,“白日”后面可以跟“白日在山END”,或者“白日的山End”,或者白天有多短。那么我们应该如何选择GPT呢? GPT会给出不同答案的概率,最后根据概率分布给出随机答案。概率越高,出现的频率越高。概率分布会根据后续强化学习阶段不同回复的得分(用户点赞也会被统计进去)来不断优化。
还有一个问题是,当当前文本很长时,如何快速理解前面的信息,并根据前面的信息提供下一个单词。否则,最后一句话可能会令人困惑、不合逻辑,甚至回答错误的问题。那么GPT是如何解决的呢?我们看下面的图片。你观察到什么?
大多数人的答案是狗。但如果我们仔细观察,我们可以看到上面放置了一些毛绒动物,例如熊猫、乌龟、驴等。为什么我们回答狗而不是其他动物呢?因为它是最大的,位于核心,占据了我们的注意力。这就是Google在论文Attention is all you need中提出的注意力机制。 GPT 采用了 Google 基于注意力机制构建的 Transform 架构,可以让模型识别出之前文本中最重要的部分,理解关键点并显着降低响应速度。
训练方法
此时,GPT有能力为上述输出提供更合理的上下文,但是如何从上下文切换到回答问题呢?
我们看这道题:“同学的小男孩的下一句话是什么?”答案是:“正值巅峰”。也可以写成:“下一句小男孩是同学”。可以看到,可以将问题和答案拼接成句子,将问题转化为上面的文本,然后将这样的问答示例发送到GPT。通过单词接龙它可以回答我们想要的答案。
此时,如果我们把问题换成:“我同学那个男孩的后续内容是什么?”或“您可以添加我同学男孩的后续信息吗?”类似的问题形式不同,内容相同,我们应该如何训练? GPT 怎么样?
方法就是大量提供材料。 GPT 会比较类似的问题,找出问题中的模式,从一个示例中进行推论并提供正确答案。训练不是为了记忆,而是为了发现模式(泛化)。
优缺点
- 优点:
- 具有从一个例子中得出结论的能力和一定程度的创造力。
- 具有人类语言特征
- 可以通过数据不断学习、优化和开发。
- 缺点:
- 缺乏常识:问一些现实中没有的东西,会与现实混为一谈,给出看似有理实则荒唐的答案。

- 提升难度:当答案存在明显问题时,无法将答案内容直接作为数据库进行增删改查,也无法直接看到其训练结果。它只能通过提出更多的问题来评估和猜测所学到的知识,其决策缺乏解释,这必然会在使用过程中造成安全风险,在更新过程中降低效率。
- 高度依赖材料:材料的质量直接决定答案的质量。如果给定的材料不正确或者包含不良信息,GPT也会向用户提供不正确的信息,甚至包含暴力等负面价值取向的信息。
3。 GPT的发展
单字纸牌的结构明明是这么简单,但当规模变得极其庞大时,结合人类的引导,就会出现不可思议的可能性。接下来我们将通过三个阶段的学习来进一步成长GPT。
无监督学习
首先,让机器理解人类语言的困难之一是相同的含义可以用多种不同的形式表达。可以用一个词或者一段话来描述,同一个表达方式可以用不同的方式来表达。它在上下文中具有不同的含义。符号与语义之间的映射没有明确的联系,符号的组合(语法)之间也没有明确的联系。为了解决这个问题,采用的方法是让模型事先看到尽可能多的材料,以便机器能够学习不同的语义上下文和语法规则。这一步是第一步,对应GPT中的P,即Pre-Training。那么学习它需要多少材料呢?看看三代GPT有多少教材
这里,1MB可以存储30万-50万个汉字,1GB就是1024MB。 GPT3的学习数据达到45TB,是第二代的1125倍,参数达到千亿级。人类大脑皮层约含有14-160亿个神经元,小脑约含有55-700亿个神经元。它已经达到与人脑神经元相同的大小。这就是为什么GPT-3有如此轰动的影响。这些材料涵盖了很多方面:
- 维基百科:让模型具备跨语言和基本常识
- 网络期望:让模型学习热门内容和公共对话
- 书籍:让模型学会讲故事
- Journal:让模型学习严格合理的语言组织能力
- Github:让模型学习编写代码和添加注释的能力(微软于2018年收购了github)在这里学习GPT-3很容易scale I学会了各种单词组合和语法规则,并能理解具有相同含义的不同表达方式。我还学习了编程语言以及不同语言之间的关系。我可以提供高质量的外语翻译并将我们的口语转换为代码。 。
监督学习
第一阶段结束后,就会出现一个问题,他知道的太多了。当他看到一个人几辈子都读不完的信息时,他就会产生随机的联想,人们很难去指挥。他,并且由于预处理中的数据太多,好坏混淆,这可能会导致一些非法或不道德的答案。例如,如果你问如何抢劫银行,人们不希望ChatGPT告诉对方如何抢劫银行,而是回答。这是错误的,也是不能做的。这时候就需要监督学习了。
这一步我们将对模型进行微调,并使用一些人们手动校准过的高质量学习材料来让GPT学习。比如,当我们问是或否的问题时,我们希望他不仅回答是或否,还要加上理由和解释。再比如,当有人问“你如何撬锁”时,你不能要求他们回答撬锁的方法,而必须要求他们回答“撬锁是违法的”。然后使用“你如何撬锁?撬锁是违法的”作为学习材料。那么为什么不首先进行监督学习呢?
一方面,高质量对话样例数量有限,提供的语言多样性不足。模型可能很难学习广泛适用的语言规则,并且可能无法覆盖不同的领域。另一方面,高质量的对话样本需要手动标注,成本高昂。 2023 年 1 月 18 日,《时代》杂志发表以下报道称,OpenAI 以每小时不到两美元的价格雇佣了大量肯尼亚工人进行数据标注。
经过这一步,GPT3变成了GPT-3.5,出现了三种能力
- “理解”命令需求:指能够根据用户的抽象描述提供处理结果。例如翻译功能
- “理解”示例需求:能够根据用户给出的几个具体示例处理新内容。这意味着如果你以后不明白如何向它描述指令,你可以只举几个例子。明确你想做什么。比如写代码注释的时候,给他几个功能的注释规范,然后把其他功能委托给Chat-GPT,他会帮你按照同样的规范写剩下的注释。
- 分而治之的效果:当ChatGPT无法正确回答综合性问题时,如果要求它一步步思考,它可以继续一步步推理,最终得到答案的可能性大大增加。这种能力也被称为“思想链”。
强化学习
经过前面的学习阶段,GPT已经成为一个知识渊博、行为乖巧的人了。然而,“模板规范”训练阶段也存在缺点,那就是它会导致ChatGPT的响应过于模板化,限制了其创造力。我们不希望它的回复过于模板化,我们也希望让ChatGPT能够提供一些超越模板但仍然符合人类对话模式和价值取向的创新回复。目前需要第三阶段,强化学习
为了让GPT能够突破模板,提供一些符合人类对话模式和价值取向的创新答案,我们采用评分机制来奖励和惩罚。这也是OpenAI的强项,自公司成立以来一直在做的事情(训练人工智能玩游戏)。现阶段,GPT不再提供问答模板,而是直接提问。如果回答好,将会给予奖励并给予高分。如果回答不好,将会受到处罚并给予低分。建立奖励模型。
一旦获得奖励模型,你就可以告诉GPT“你已经是一个成熟的AI了,是时候学习如何引导自己了。”要实现AI引导的AI,需要使用强化学习技术;简单来说,这意味着通过不断地测试它、解决它、如果不行就鼓励它,让AI逐渐变得更强。
总结
ChatGPT 无疑是一项令人兴奋的技术,具有改变我们与技术交互方式的巨大潜力。尽管它仍然存在一些局限性和挑战,但它的好处和用途远远超过了它的局限性。随着ChatGPT技术的不断发展和完善,我们相信它将在未来带来更多的创新和发展。
更重要的是,ChatGPT相当于一个实验,一个“先导实验”。它证明了语言模型和数据规模之间的关系,展示了大型语言模型的强大功能。它所展示的一些功能吸引了全球开发和改进大型语言模型的努力。结果,大型语言模型将变得更容易使用、更快、更便宜,相关产品也将变得更加流行。这些产品真正对人类社会产生影响的不是ChatGPT,而是其背后数以万计的“行星引擎”。这些“行星发动机”是改变社会发展方向的动力。
版权声明
本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。