强化学习使合作游戏中的AI队友变得很糟糕

人工智能已经证明，复杂的棋盘和视频游戏不再是人类思维的专属领域。从国际象棋到围棋再到《星际争霸》，使用强化学习算法的人工智能系统近年来已经超越了人类世界冠军。

但是，根据麻省理工学院林肯实验室的人工智能研究人员的一项研究，尽管RL代理的个人表现很高，但在与人类玩家配对时，它们可能成为令人沮丧的队友。这项研究涉及人类和人工智能代理在纸牌游戏Hanabi中的合作，显示玩家更喜欢经典和可预测的基于规则的人工智能系统而不是复杂的RL系统。

为什么我们应该拥抱评论经济

发表在arXiv上的一篇论文中的这些发现，突出了将强化学习应用于真实世界的一些未被探索的挑战，并可能对旨在与人类合作的人工智能系统的未来发展产生重要影响。
寻找强化学习中的差距

深度强化学习是最先进的游戏机器人所使用的算法，它首先为代理提供一套游戏中的可能行动，一个从环境中接收反馈的机制，以及一个要追求的目标。然后，通过无数次的游戏，RL代理逐渐从采取随机行动到学习能够帮助其最大化目标的行动序列。

早期的深度强化学习研究依赖于代理人在人类玩家的游戏数据上进行预训练。最近，研究人员已经能够开发出能够通过纯粹的自我游戏从头开始学习游戏的RL代理，而无需人类输入。

在他们的研究中，麻省理工学院林肯实验室的研究人员有兴趣找出一个超越人类的强化学习程序是否能成为人类的可靠同事。

"在一个非常高的水平上，这项工作的灵感来自于这个问题。存在哪些技术差距，使强化学习（RL）无法应用于现实世界的问题，而不仅仅是视频游戏？" 林肯实验室的人工智能研究员、该论文的共同作者罗斯-艾伦博士告诉TechTalks。"虽然存在许多这样的技术差距（例如，现实世界的特点是不确定性/部分可观察性，数据稀缺，目标模糊/不平衡，决策的时间尺度不同，等等），但我们发现需要与人类合作是在现实世界中应用RL的一个关键技术差距。"

对抗性游戏与合作性游戏

人工智能在游戏《Dota》中使用的强化学习的描述 2A 人工智能在游戏《Dota 2》中使用的强化学习的描述

最近的研究大多将强化学习应用于单人游戏（如Atari Breakout）或对抗性游戏（如《星际争霸》、围棋），其中人工智能与人类玩家或其他游戏机器人对立。

"我们认为强化学习很适合解决人与人工智能协作方面的问题，原因与RL在人与人工智能竞争中的成功相似，"艾伦说。"在竞争领域，RL是成功的，因为它避免了对游戏应该如何玩的偏见和假设，而是从头开始学习这一切。"

事实上，在某些情况下，强化系统已经成功地入侵了游戏，并找到了让最有天赋和经验的人类选手都感到困惑的技巧。一个著名的例子是DeepMind的AlphaGo在与围棋世界冠军李世石的对决中做出的一个动作。分析师们首先认为这一步是个错误，因为它违背了人类专家的直觉。但同样的动作最终扭转了局势，有利于人工智能选手，并击败了李世石。艾伦认为，当RL与人类联手时，同样的聪明才智也能发挥作用。

"Allen说："我们认为，通过避免'基于规则的专家系统'所特有的先入为主的假设和偏见，可以利用RL来推动人类与AI合作的技术发展。

对于他们的实验，研究人员选择了Hanabi，这是一种纸牌游戏，两到五个玩家必须合作，按照特定的顺序出牌。Hanabi特别有趣，因为它虽然简单，但也是一个充分合作和信息有限的游戏。玩家必须向后拿着他们的牌，不能看到他们的脸。相应地，每个玩家可以看到他们队友的牌面。玩家可以使用数量有限的代币来为对方提供关于他们所持牌的线索。玩家必须利用他们看到的队友手中的信息和他们知道的关于自己手中的有限提示来制定一个获胜的策略。

"在追求现实世界的问题时，我们必须从简单开始，"艾伦说。"因此，我们专注于Hanabi这一基准协作游戏。"

近年来，一些研究团队已经探索开发了可以玩Hanabi的人工智能机器人。其中一些代理使用符号人工智能，即工程师事先提供游戏规则，而其他代理则使用强化学习。

人工智能系统是根据它们在自我游戏（代理与自己的副本一起玩）、交叉游戏（代理与其他类型的代理组队）和人类游戏（代理与人类合作）中的表现来评定。
Hanabi强化学习和符号AI系统Hanabi强化学习和符号AI系统

"与人类的交叉游戏，被称为人类游戏，具有特别重要的意义，因为它衡量人机合作，是我们论文中实验的基础，"研究人员写道。

为了测试人类-AI合作的效率，研究人员使用了SmartBot，在自我游戏中表现最好的基于规则的AI系统，以及Other-Play，这是一个Hanabi机器人，在RL算法中交叉游戏和人类游戏排名最高。

"这项工作直接扩展了以前关于训练Hanabiagents的RL的工作。特别是我们研究了来自Jakob Foerster实验室的'其他游戏'RL代理，"艾伦说。"这个代理被训练成这样，使它特别适合与它在训练期间没有遇到的其他代理合作。当它与训练期间未曾谋面的其他人工智能合作时，它在Hanabi产生了最先进的性能。"

人类与人工智能的合作

在实验中，人类参与者与一个人工智能队友进行了几场Hanabi游戏。参赛者接触到了SmartBot和Other-Play，但并没有被告知哪种算法在幕后工作。

研究人员根据客观和主观指标评估了人类与人工智能的合作水平。客观指标包括分数、错误率等。主观指标包括人类玩家的经验，包括他们对人工智能队友的信任和舒适程度，以及他们理解人工智能的动机和预测其行为的能力。

两个人工智能代理的客观表现没有明显差异。但研究人员预计人类玩家会对 "其他游戏 "有更积极的主观体验，因为它已经被训练成与自己以外的代理人合作。

"我们的结果让我们感到惊讶，因为人类参与者对与其他游戏代理合作的反应是如此强烈。简而言之，他们憎恨它，"艾伦说。

根据参与者的调查，与基于规则的SmartBot代理相比，更有经验的Hanabi玩家对Other-Play RL算法的体验较差。在Hanabi中，成功的关键点之一是向其他玩家提供微妙暗示的技巧。例如，假设 "方块之一 "的牌放在桌子上，而你的队友手里拿着方块之二。你指着这张牌说 "这是一张二 "或 "这是一个正方形"，就是隐晦地告诉你的队友出这张牌，而不给他关于这张牌的全部信息。一个有经验的玩家会立即抓住这个暗示。但向人工智能队友提供同样的信息证明要困难得多。

"我给了他信息，他却把它扔掉了，"一位参与者在对 "其他游戏 "代理感到沮丧后说，据该文件称。另一位说，"在这一点上，我不知道有什么意义"。

有趣的是，Other-Play的设计是为了避免产生RL代理在只通过自我游戏时形成的 "秘密 "约定。这使得Other-Play成为不属于其训练制度的AI算法的最佳队友。但它仍然有关于它将遇到的队友类型的假设，研究人员指出。

"值得注意的是，[Other-Play]假设队友也是为零距离协调而优化的。相比之下，人类的Hanabi玩家通常不以这种假设来学习。研究人员在他们的论文中指出："赛前约定和赛后审查是人类Hanabi玩家的常见做法，这使得人类的学习更类似于少数人的协调。

对未来人工智能系统的影响

"我们目前的发现给出了证据，人工智能的客观任务表现本身（我们在论文中称为'自我游戏'和'交叉游戏'）可能与人类在与该人工智能合作时的信任和偏好不相关，"艾伦说。"这就提出了一个问题：什么客观指标确实与人类的主观偏好相关？鉴于训练基于RL的代理需要大量的数据，在循环中与人类一起训练其实是不可行的。因此，如果我们想训练被人类合作者接受和重视的人工智能代理，我们很可能需要找到可训练的客观函数，作为人类偏好的替代物，或与人类偏好强烈相关。"

同时，Allen警告说，不要将Hanabi实验的结果推断到他们未能测试的其他环境、游戏或领域。该论文还承认了实验中的一些局限性，研究人员正在努力在未来解决这些问题。例如，受试者人数不多（29人），而且偏向于精通Hanabi的人，这意味着他们对人工智能队友有预定的行为期望，更有可能对RL代理的古怪行为产生负面的体验。

尽管如此，该结果可以对强化学习研究的未来产生重要影响。

"如果最先进的RL代理甚至不能在像Hanabi这样受限制和范围狭窄的游戏中做出一个可接受的合作者；我们真的应该期望同样的RL技术在应用于更复杂、细微、有后果的游戏和真实世界的情况下'只是工作'？" 艾伦说。"在技术和学术领域内有很多关于强化学习的讨论；这也是正确的。然而，我认为我们的发现表明，在所有可能的应用中，不应该将RL系统的卓越性能视为理所当然。"

例如，人们可能很容易认为RL可以用来训练能够与人类密切协作的机器人代理。但在麻省理工学院林肯实验室所做的工作的结果表明情况恰恰相反，至少考虑到目前的技术状况，艾伦说。

"他说："我们的结果似乎暗示，在基于学习的代理将成为人类与机器人互动等复杂情况下的有效合作者之前，还需要更多的理论和应用工作。

这篇文章最初由Ben Dickson在TechTalks上发表，TechTalks是一份研究技术趋势的出版物，它们如何影响我们的生活和做生意的方式，以及它们解决的问题。但我们也讨论了技术的邪恶面，新技术的黑暗影响，以及我们需要注意的问题。