为什么电子游戏和棋盘游戏不是衡量人工智能的好方法

测量AI的智能是计算机科学领域中最棘手但最重要的问题之一。如果您不知道自己建造的机器今天比昨天的机器聪明，您如何知道自己正在取得进步？

乍一看，这似乎不是问题。一个答复是：“显然，人工智能正在变得越来越智能”。 “只要看看涌入该领域的所有资金和人才。查看里程碑，例如在Go上击败人类，以及十年前无法解决的应用程序，这些应用程序如今很常见，例如图像识别。进展如何？”

智能对于发展AI有何意义？

另一个答复是，这些成就并不是衡量智力的好标准。是的，在国际象棋和围棋上击败人类令人印象深刻，但是，如果最聪明的计算机可以解决幼儿或老鼠的一般问题，那么这有什么关系呢？

乔莱特在最近发表的题为“关于智能的度量”的论文中也提出了一个论点，即人工智能世界需要重新关注什么是智能，什么不是智能。乔莱特说，如果研究人员想要在通用人工智能方面取得进展，就需要超越诸如电子游戏和棋盘游戏之类的流行基准，并开始思考实际上使人类变得聪明的技能，例如我们的概括和适应能力。

在接受采访中，乔莱特解释了他对这个主题的想法，并解释了为什么他认为目前在AI方面的成就被“歪曲了”，我们如何衡量未来的智能以及为什么有关超级智能AI的恐怖故事（如由埃隆·马斯克和其他人讲述）毫无根据地掌握了公众的想象力。

为了清楚起见，对这次采访进行了少量编辑。

在您的论文中，您描述了塑造AI领域的两种不同的智能概念。一种将智能表示为在各种任务中表现出色的能力，而另一种则将适应性和概括性放在优先地位，这是AI应对新挑战的能力。目前哪个框架影响更大，其后果是什么？

在该领域的前30年中，最有影响力的观点是前者：将情报作为一组静态程序和明确的知识库。现在，钟摆朝着相反的方向摇摆了很多：在AI社区中，将智力概念化的主要方式是“空白”，或者用一个更相关的比喻，是“新初始化的深度神经网络”。，这个框架在很大程度上没有受到挑战，甚至没有受到审查。这些问题有很长的学术历史（实际上是几十年），而我今天在该领域对此知之甚少，这也许是因为当今从事深度学习的大多数人都是在2016年之后加入该领域的。

拥有这样的知识垄断绝对不是一件好事，特别是作为对理解不充分的科学问题的解答。它限制了提出的一系列问题。它限制了人们追求的思想空间。我认为研究人员现在已经开始意识到这一事实。

还提出了AI需要更好地定义智能才能提高的理由。您认为，现在，研究人员专注于在静态测试（例如击败视频游戏和棋盘游戏）中对性能进行基准测试。为什么您会发现缺乏这种智力测度？

关键是，一旦您选择了一个度量，就将采取一切捷径可用。例如，如果您将下棋游戏作为您的智力衡量标准（我们从1970年代开始一直进行到1990年代），那么您最终将获得一个下棋系统，就是这样。没有理由认为这对其他任何事情都有利。您最终会进行树形搜索和最小极大化，但这并不会告诉您有关人类智能的任何知识。如今，在诸如Dota或StarCraft之类的视频游戏中寻求技能来代替一般情报，就陷入了完全相同的智力陷阱。

这也许并不明显，因为在人类中，技能和智力是密切相关的。人脑可以利用其一般智慧来获取特定于任务的技能。一个真正擅长国际象棋的人可以被认为是非常聪明的，因为我们隐式地知道他们从零开始，必须使用他们的一般智慧来学习下棋。他们不是为了玩棋。因此，我们知道他们可以将通用情报指导其他许多任务，并学会有效地类似地完成这些任务。这就是一般性。

关于人类智能的假设不应应用于机器

但是机器没有这种限制。绝对可以将机器设计为下棋。因此，我们为人类所做的推论-“可以下棋，因此必须是聪明的”-被推翻了。我们的拟人化假设不再适用。通用情报可以产生特定于任务的技能，但是没有从特定任务到普遍性的反向路径。完全没有因此，在机器中，技能与智力完全正交。您可以在任意任务上获得任意技能，只要您可以采样有关任务的无限数据（或花费无限数量的工程资源）即可。但这仍无法使您更接近一般情报。

关键的见解是，没有什么任务可以使高技能成为智力的标志。除非该任务实际上是一个元任务，否则它涉及在以前未知问题的广泛范围内获得新技能。这正是我提出的情报基准。

AI实验室DeepMind的研究人员一直在观察他们的AI AlphaStar在《星际争霸II》中如何对付人类玩家。

如果这些当前基准无法帮助我们开发具有更通用，更灵活的智能的AI，那么为什么它们如此受欢迎？

毫无疑问，在特定的知名视频游戏中击败人类冠军的努力主要是由这些项目可以产生的新闻报道推动的。如果公众对这些浮华的“里程碑”不感兴趣，这些里程碑很容易被误认为是迈向超人通用AI的步骤，那么研究人员将在做其他事情。

AI播客视频游戏的关注点是“由新闻报道驱动”

我认为这有点可悲，因为研究应该解决开放的科学问题，而不是产生公关。如果我打算使用深度学习以超人的水平“解决”《魔兽争霸III》，那么你可以肯定的是，只要我有足够的工程人才和计算能力（大约是数十万美元），我就能到达那里。数百万美元的任务）。但是，一旦我做到了，我将学到什么关于智力或泛化的知识？好吧，什么都没有。充其量，我会掌握有关扩展深度学习的工程知识。因此，我并不真正将其视为科学研究，因为它没有教给我们任何我们不知道的东西。它没有回答任何未解决的问题。如果问题是“我们可以在超人的水平上玩X吗？”，答案肯定是：“是的，只要您可以生成足够密集的训练情况样本并将其输入到具有足够表现力的深度学习模型中即可。”我们已经知道了一段时间了。（实际上，在Dota 2和StarCraft II AI达到冠军级别之前，我说了很多时间。）

您认为这些项目的实际成就是什么？他们的结果在多大程度上被误解或歪曲了？

我看到的一个明显的错误表述是，这些高技能的游戏系统代表着朝着“可以应对现实世界的复杂性和不确定性的AI系统”的真正进步的争论（如OpenAI在其Dota的新闻稿中声称的那样） 2人玩的机器人OpenAI五]。他们不。如果他们这样做的话，那将是一个非常有价值的研究领域，但事实并非如此。以OpenAI Five为例：它无法处理Dota 2的复杂性，因为它训练有16个字符，并且不能推广到拥有100个字符的完整游戏。它经过了45,000年的游戏训练，然后再次注意训练数据的需求如何与任务复杂性相结合地增长，然而，结果模型却非常脆弱：无冠军的人类玩家能够找到可靠地战胜它的策略。在AI对公众开放之后的几天。

如果您希望有一天能够处理现实世界的复杂性和不确定性，那么您必须开始问一些问题，例如什么是泛化？我们如何衡量和最大化学习系统的泛化能力？这与在大型神经网络中投入10倍以上的数据和进行计算完全正交，从而可以将其技能提高一点点。

那么，对于该领域重点关注的是哪种更好的智力测度？

简而言之，我们需要停止对事先已知的任务（如国际象棋，Dota或《星际争霸》）进行技能评估，而应开始评估技能习得能力。这意味着仅使用系统事先不知道的新任务，测量有关系统开始执行的任务的先验知识，并测量系统的采样效率（即学习此过程需要多少数据）。

在给定的技能水平下，您越聪明。如今的AI系统实际上根本不是很智能。

另外，我认为我们的智力测度应该使人的相似性更加明确，因为可能存在不同类型的智力，而当我们谈论一般智力时，我们实际上就是在隐含地谈论类人的智力。这涉及试图了解人类天生具有哪些先验知识。人类的学习效率令人难以置信，他们只需要很少的经验就能掌握新技能，但是他们并不会从头开始。除了一生积累的技能和知识，他们还利用先天先验知识。

[我最近的论文]提出了一个新的基准数据集ARC，它看起来很像IQ测试。 ARC是一组推理任务，其中每个任务都是通过一小段演示（通常是三个演示）来解释的，您应该从这几个演示中学习完成任务。 ARC的立场是，您的系统所评估的每个任务都应该是全新的，并且只应包含适合人类固有知识的知识。例如，它不应使用语言。目前，ARC完全可以被人类解决，无需任何口头解释或事先培训，但迄今为止我们尝试过的任何AI技术都无法解决。这是一个明显的信号，表明正在发生某些事情，我们需要新的想法。

Chollet为他的新ARC基准数据集提出的一种智力测验的例子。

您是否认为仅通过在问题上投入更多的计算能力，人工智能世界就能继续发展吗？有人认为，从历史上看，这是提高性能的最成功方法。尽管其他人则建议，如果我们沿着这条路走下去，我们很快就会看到收益递减。

如果您要执行特定任务，这是绝对正确的。在垂直任务上投入更多的训练数据和计算能力将提高该任务的性能。但这将使您对如何实现人工智能的普遍性了解达到零增量。

如果您有足够大的深度学习模型，并且在任务的输入-输出跨空间的密集采样中对其进行训练，则无论如何，它将学习解决任务的方法-Dota，StarCraft，您命名它。它非常有价值。它在机器感知问题中几乎具有无限的应用。这里唯一的问题是，所需的数据量是任务复杂性的组合功能，因此即使是稍微复杂的任务也可能变得非常昂贵。

以自动驾驶汽车为例。数以百万计的培训情况不足以使端到端深度学习模型学习安全驾驶汽车。这就是为什么首先没有L5自动驾驶的原因。其次，最先进的自动驾驶系统主要是使用深度学习将这些人工设计的模型与传感器数据进行交互的符号模型。如果深度学习可以推广，那么我们将在2016年进行L5自动驾驶，它将采用大型神经网络的形式。

自动驾驶汽车的发展比许多人所预测的要慢得多。

最后，考虑到当前AI系统的局限性，似乎值得质疑超级智能的概念-担心功能强大的AI可能在不久的将来对人类造成极大伤害。您认为这种恐惧是合理的吗？

不，我不认为超级智能的叙述是有根据的。我们从未创建过一个自主的智能系统。绝对没有迹象表明我们可以在可预见的将来创建一个。（这不是当前AI进步的方向。）而且我们绝对无法推测如果我们最终在不久的将来创造出一个人工智能，它的特征可能是什么。打个比方，有点像在1600年问：“弹道学发展非常快！因此，如果我们拥有能消灭整个城市的大炮该怎么办？这是一个形式不正确的问题，在没有任何关于我们正在谈论的系统的知识的情况下进行辩论，充其量只是哲学上的争论。

“对于某些人工智能应用来代表危险，我们不需要超级智能。”

关于这些超级智能的恐惧的一件事是，它们掩盖了AI有可能在当今变得非常危险的事实。为了某些AI应用程序表现出危险，我们不需要超级智能。我已经写过关于使用AI来实现算法宣传系统的文章。其他人则写了关于算法偏差，在武器系统中使用AI或将AI作为极权主义控制工具的文章。