ChatGPT 打破了图灵测试——评估人工智能新方法的竞赛已经开始
世界上最好的人工智能 (AI) 系统可以通过严格的考试、写出有说服力的人类论文、流利地聊天,而且许多人会发现他们的输出难以区分来自人类。他们不能做什么?解决简单的视觉逻辑难题。
在屏幕上排列一系列色彩鲜艳的方块的测试中,大多数人都能找出连接模式。但聊天机器人 ChatGPT 和搜索引擎 Bing 背后的先进人工智能系统 GPT-4 在一种模式中的正确率只有大约三分之一,而在另一种模式中则不到三分之一。只有百分之三。
Logic Puzzle 背后的团队旨在提供更好的基准来测试人工智能系统的能力,并帮助解决围绕 GPT-4 等大型语言模型(LLM)的难题。通过某种方式的测试,他们轻松实现了曾经被认为是机器智能领域里程碑式的成就。从不同的角度进行测试,他们显得不那么令人印象深刻,表现出明显的盲点,并且无法推理抽象概念。
“人工智能领域的人们正在努力评估这些系统,”新墨西哥州圣达菲研究所的 Melanie Mitchell 说道,她的团队创建了逻辑谜题(请参阅“击败机器的抽象思维测试”)。
在过去的两三年里,LLM的多任务处理能力已经超越了之前的人工智能系统。它们的工作原理只是在输入文本时根据数十亿在线句子中单词之间的统计相关性生成一个合理的下一个单词。对于基于LLM的聊天机器人,还有一个额外的元素:人类培训师提供大量反馈来微调机器人的反应。 令人惊奇的是,这种类似自动完成的算法是在大型人类语言存储库上进行训练的,从而产生了如此广泛的可能性。其他人工智能系统可以在任何任务上击败LLM,但它们必须接受与特定问题相关的数据的训练,并且不能从一项任务推广到另一项任务。
ChatGPT 是一个黑匣子:人工智能研究如何打破它
马萨诸塞州剑桥市哈佛大学的认知科学家 Tomer Ullman 表示,大致有两个阵营。对于LLM领导下发生的事情,学者们有着相反的看法。他说,有些人将这些算法的结果归因于推理或理解的闪现。其他人,包括他自己和米切尔这样的研究人员,则更加谨慎。
乌尔曼说:“这场辩论的各方都有非常聪明的人。他说,分歧的原因是缺乏确凿的证据来支持这两种观点。 “如果没有盖革计数器,我们可以指着某个东西说‘嘟嘟嘟——是的,很聪明,’”乌尔曼补充道。
辩论双方的研究人员都表示,像逻辑谜题这样揭示人类和人工智能系统能力差异的测试是朝着正确方向迈出的一步。纽约大学布伦登湖分校的认知计算科学家布隆表示,这样的基准测试还可以帮助揭示当今机器学习系统中缺失的内容,并解锁人类智能的组成部分。
关于如何最好地测试LLM以及这些测试显示的内容。对其内容的研究也具有实际意义。米切尔说,如果法学硕士要在现实世界中使用——从医学到法律——了解他们能力的局限性很重要。 “我们需要了解他们能做什么。”该怎么做以及它们在哪里失败,以便我们知道如何安全地使用它们。 ”
图灵测试死了吗?
最著名的机器智能测试一直是图灵测试,由英国数学家、计算机大师艾伦·图灵于 1950 年提出,当时计算机还处于起步阶段。图林提出了一种他称之为“模仿游戏 2”的评估方法。在这种情况下,一名人类法官与一台隐藏的计算机和一个看不见的人进行简短的基于文本的对话。法官能可靠地分辨出哪台计算机是计算机吗?图灵认为这个问题相当于“机器能思考吗?”
米切尔指出,图灵没有详细说明这种情况,因此没有什么可以精确遵循的。华盛顿州西雅图谷歌的软件工程师 Fran Ois Chollet 表示:“这并不意味着你真的要在机器上运行它 - 这更像是一个思想实验。”
图片来源:Geological Blocks / Alami
但是用语言来发现机器是否可以思考的想法依然存在。几十年来,商人兼慈善家休·勒布纳资助了一年一度的图灵测试活动,称为勒布纳奖。人类裁判参与基于文本的对话、机器和人类,并尝试猜测谁是谁。但计算机科学家罗伯·沃瑟姆表示,2019 年之后,这些年度聚会就停止了,因为罗伯纳去世了,资金也用完了。他是英国人工智能和行为模拟研究协会的联席主任,该协会自 2014 年以来一直代表 Robner 组织比赛。巧合的是,这些比赛在LLM真正起飞前不久就结束了。
其他研究人员同意 GPT-4 和其他流行观点,即LLM现在可以通过图灵测试,因为它们可以愚弄很多人,至少在简短的对话中。今年5月,以色列特拉维夫AI21实验室的研究人员报告称,超过150万人玩过基于图灵测试的网络游戏。玩家被分配与另一位玩家或研究人员设计的表现得像人类的由LLM驱动的机器人聊天两分钟。玩家识别机器人的准确率只有 60%,研究人员指出这并不比依靠运气更好 3 。
ChatGPT 和生成式 AI 对科学的意义
熟悉研究的人LLM仍然在这场比赛中获胜。乔莱表示,他发现通过利用系统中已知的弱点,很容易发现LLM。 “如果你问我,‘我现在正在和一个法学硕士交谈吗?’我绝对可以告诉你,”乔莱说。
他说关键是让LLM走出他的舒适区。他建议在许多情况下,Yao 的回应是吐出训练数据中最有可能与原始问题相关的单词,而不是给出正确答案
但是 Chollet 和其他人对使用以欺骗为中心的测试作为计算机科学的衡量标准持怀疑态度。Chollet 说:“这一切都是为了欺骗陪审团。”该测试鼓励聊天机器人开发人员让 AI 执行技巧,而不是发展有用或有趣的功能。能力,例如语言技能、常识推理和数学能力。越来越多的团队也转向为人类设计的学术和专业考试。
今年 3 月发布 GPT-4 时,其背后的公司——总部位于加利福尼亚州旧金山的 OpenAI——在一系列为机器设计的基准测试上测试了其性能,包括阅读理解、数学和编程。 。 OpenAI 报告称,GPT-4 在大多数情况下表现良好 4。该公司还设置了约 30 个 GPT-4 考试,包括: 为美国高中生设计的各种特定科目考试,称为先修课程(Advanced Placement);评估美国医生临床知识现状的测试;以及美国毕业生选拔过程中使用的标准化考试 GRE。 OpenAI 报告称,GPT-4 在美国许多州的律师资格认证过程中取得了前 10% 的成绩(请参阅“AI 系统性能 - 选定结果”)。? (~90%*)
来源:OpenAI/参考 4。
*达到此目标的百分位考生测试分数值。
“许多语言模型在这些基准测试中都表现得非常好,”米切尔说。 “但结论往往不是它们在这些一般能力上超越人类,而是基准是有限的。研究人员提到的一项挑战是,模型接受了如此多的文本训练,以至于他们可能在训练数据中看到了类似的问题,因此实际上正在寻找答案。这个问题称为污染。
OpenAI 表示,它通过在问题和训练数据中查找相似的单词字符串来检查这一点。当它在移除相似字符串之前和之后对 Yao 进行测试时,性能几乎没有差异,这表明成功并不是主要归因于污染。然而,一些研究人员质疑这项测试是否足够严格。
纽约大学语言技术研究员、旧金山人工智能公司 Anthropic 工作的 Sam Bowman 警告不要将 GPT-4 的测试结果简单地视为死记硬背的结果。能力。他说,污染“让说法变得有点复杂,但我认为这并没有真正改变大局”。
研究人员还指出,LLM在考试问题上的成功可能很脆弱,可能无法转化为在现实世界中正确解决问题所需的强大能力。米切尔表示,考试题目可能会稍作修改,导致考试不及格。以一道考试题为例,她告诉MBA学生,ChatGPT稍作改动就通过了。能够回答这个问题的人将能够回答重新制定的版本。但 ChatGPT 失败了。
在解释基准的含义时存在一个更深层次的问题。对于一个人来说,在这些测试中获得高分是一般智力的可靠指标——这是一个模糊的概念,但根据一个定义,它指的是在各种任务上表现良好并适应各种环境的能力。也就是说,能够在测试中表现良好的个体通常可以被认为在其他认知测试中表现良好并且掌握了某些抽象概念。但姚氏的情况完全不同,它的运作方式与人类非常不同,米切尔说。 “我们推断人类的方式并不总是适用于人工智能系统,”她说。
这可能是因为LLM只学语言;由于没有体现在物质世界中,他们无法像人类那样体验语言与物体、属性和情感之间的联系。莱克说:“很明显,它们理解单词的方式与人类不同。”在他看来,LLM目前已经证明了“无需真正理解,你也可以拥有非常流利的语言”。
另一方面,LLM还拥有人类所没有的能力,比如能够知道人类写过的几乎每个单词的上下文。米切尔说,这可能会使这些模型依赖于语言特性或其他指标来解决问题,而不必推广到更广泛的表征。
OpenAI 的研究员 Nick Ryder 同意,一项测试的表现可能无法像获得相同分数的人那样具有普遍性。 “我认为你不应该考虑对人类和大型语言模型的评估并得出任何程度的等同性,”他说。 OpenAI 分数“并非旨在作为类人能力或类人推理的陈述。它旨在作为模型执行任务的好坏的陈述。”
在人工智能领域,越大越好吗?
研究人员还比通过传统的机器基准测试和人体测试更广泛地探索了 Yao。3 月,华盛顿州雷德蒙德微软研究院的 Sebastian Buback 和他的同事使用以下方法创建了 Wave 5:在一份名为 《人工通用智能的火花:GPT-4的早期实验利用GPT-4的早期版本,他们记录了一系列令人惊讶的能力——其中许多与语言没有直接或明显的联系。一个显著的成就是,它可以通过心理学家用来评估心理理论的测试,心理理论是人类的核心能力,允许人们预测和推理他人的精神状态。“鉴于GPT-4能力的广度和深度,我们相信它可以合理地被视为人工通用智能(Alamos Gold)系统的早期(但仍不完整)版本,”他们写道。
但是,正如布贝克向 自然 解释的那样“GPT-4当然不像一个人那样思考,对于它展示的任何能力,它都是以自己的方式实现的。”
米切尔说,尽管这份报告具有挑衅性,但它并没有系统地探究LLM的能力。“这更像是人类学,”她说。厄尔曼说,要想让人相信机器拥有心智理论,他需要看到与人类心智理论相对应的潜在认知过程的证据,而不仅仅是机器能输出与人类相同的答案。
人工智能研究人员表示,为了找出LLM的优势和劣势,需要更广泛和严格的审计。色彩缤纷的逻辑谜题可能是一个候选者。
新鲜拼图
2019年,在LLM爆红之前,Chollet在网上发布了一种新的人工智能系统逻辑测试,称为抽象和推理语料库(ARC)。6 .解算者看几个正方形网格变成另一个图案的视觉演示,并通过指示下一个网格将如何转换来显示他们已经掌握了变化的基本规则。“它应该是测试你对你以前没有见过的事物的适应能力,”Chollet说,他认为这是智力的本质。
ARC抓住了“人类智慧的标志”,莱克说:从日常知识中提取抽象,并将其应用于以前看不到的问题的能力。
Chollet在2020年组织了一次机器人ARC比赛,那时LLM还没有获得很大的关注。获胜的机器人是一个人工智能系统,专门训练来解决类似ARC的任务。但是,与LLM不同的是,它没有通用功能;它只能正确处理21%的问题。相比之下,人们80%的时间都能正确解决ARC问题 7 .几个研究小组现在已经使用ARC来测试LLMs的能力;没有一个接近人类的表现。
Mitchell和她的同事们制作了一套新的谜题——被称为ConceptARC——它们的灵感来自ARC,但在两个关键方面有所不同 1 .ConceptARC的测试更容易:米切尔的团队希望确保基准不会错过机器能力的进步,即使是很小的进步。另一个不同之处是,该团队选择特定的概念进行测试,然后为每个概念创建一系列的谜题,这些谜题是一个主题的变体。
例如,为了测试同一性的概念,一个谜题要求解题者将形状相同的物体保持在同一个图案中;另一个谜题要求解题者将物体沿同一轴线排列。这样做的目的是减少人工智能系统在没有掌握概念的情况下通过测试的机会。(参见“打败机器的抽象思维测试”)。
业绩不佳意味着什么
研究人员将ConceptARC任务提供给GPT-4和400名网上报名的人。平均而言,人类在所有概念组上的得分为91%(其中一组为97%);GPT-4在其中一组上的得分为33%,其余所有概念组上的得分均低于30%。
米切尔说:“我们表明,机器仍然无法接近人类的水平。”“令人惊讶的是,它可以解决一些问题,因为它从来没有被训练过,”她补充说。
该团队还测试了Chollet竞赛中的主要机器人,它们不是像LLM那样的通用能力系统,而是为解决ARC这样的视觉难题而设计的。总的来说,他们的表现比GPT-4好,但比普通人差,其中一个类别的得分最高的 77 %,但在大多数 1 。
ChatGPT:五个研究重点
然而,鲍曼说,GPT-4与ConceptARC的斗争并不能证明它缺乏抽象推理的潜在能力。他说ConceptARC是对GPT-4的倾斜,因为它是一个视觉测试。“即使你假设这些模型非常擅长这种推理,我也不认为你真的期望这个实验能成功,”他说。
测试方式的局限性可能使GPT-4更难进行测试。LLM的公开版本只能接受文本作为输入,因此研究人员给GPT-4一组数字来代表图像。(例如,空白像素可能是0,彩色正方形可能是数字。)相比之下,人类参与者只是看到了图像。Mitchell说:“我们把一个只有语言的系统与人类进行比较,人类拥有高度发达的视觉系统。”“所以这可能不是一个完全公平的比较。”
OpenAI已经创建了一个GPT-4的“多模态”版本,可以接受图像作为输入。Mitchell和她的团队正在等待它的公开发布,这样他们就可以在上面测试ConceptARC,尽管她并不认为多模式GPT-4会做得更好。她说:“我不认为这些系统具有人类所具有的那种抽象概念和推理能力。”
剑桥麻省理工学院的计算认知科学家Sam Acquaviva对此表示赞同。“我会震惊的,”他说。他指出,另一个研究小组已经在一个名为1D-ARC的基准上测试了GPT-4,在这个基准上,图案被限制在一行中,而不是在网格中 8 .他说,这应该会消除一些不公平。Acquaviva说,尽管GPT-4的表现有所改善,但这并不足以表明LLM可靠地掌握了基本规则并进行了推理。
推理论证
鲍曼指出,其他实验综合起来,向他表明,LLM至少已经获得了对抽象概念进行推理的基本能力。在一个例子中,哈佛大学的计算机科学家Kenneth Li和他的同事们使用了一个数字版的棋盘游戏《奥赛罗》 的预印本中,两名玩家通过将黑白圆盘放在 8×8 网格上进行竞争,他们的目标是调查LLM是否依赖记忆的语言表面统计数据来生成文本,或者他们是否构建了语言的内部表示人类所做的世界。
当他们训练LLM并为其提供球员动作列表时,它变得非常擅长为下一个合法动作提出精确的建议。研究人员相信他们有证据表明LLM已经跟踪了LLM的状态板并使用此表示来做出手势,而不是简单地提出文字建议 9 。
Bowman 承认,LLM的推理能力通常是“稍纵即逝的”,并且比人类的推理能力更加有限,但他表示,这种能力是存在的,而且似乎会随着模型大小的增加而提高。这向他表明LLM未来会更好。 “这些系统肯定不像我们希望的那样可靠或通用,并且可能存在一些临时的抽象推理技能,但它们仍然完全失败,”他说。 “但我觉得基本能力还是有的。”
鲍曼、米切尔和其他人都同意的一件事是,测试LLM抽象推理和其他智力标志的最佳方法仍然是悬而未决的问题,未解决的问题。加利福尼亚州帕洛阿尔托斯坦福大学的认知科学家迈克尔·弗兰克(Michael Frank)并不期望任何单一测试能够取代图灵测试。 “没有卢比孔河行动,也没有队伍,”他说。相反,他认为研究人员需要进行全面的测试来量化不同系统的优点和缺点。 “这些代理很棒,但它们破坏了很多很多方面,探索它们的系统绝对至关重要,”他说。
沃瑟姆向任何试图理解人工智能系统的人提供建议——避免他所说的拟人化诅咒。 “我们将任何表现出智慧的东西拟人化,”他说。
“这是一个诅咒,因为除了使用人体模型之外,我们想不出任何其他方式可以表现出有目的的行为,”他说。 “我们想象它会这样做,因为它像我们一样在床上思考。”
来源:未来智能实验室
版权声明
本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。