如果你曾希望在《我的世界》(Minecraft)中拥有一个类似于 Alexa 的助手,能够执行任何任务,那么你并不孤单。Facebook 的研究人员最近提出了一种用于《我的世界》的基于自然语言理解(NLU)的互动、协作机器人。他们的研究一定程度上建立在开源研究环境 LIGHT 的基础上,其形式是大规模的众包文本冒险,在其中 AI 系统和人类作为玩家角色进行交互。

《我的世界》是一款基于体素的构建和制作游戏,其中包含基于块的树木、山脉、田野、动物、非玩家角色(NPC)等等。块被放置在一个三维体素网格上,网格中的每个体素包含一种材料。玩家可以移动、放置或移除不同类型的方块,并攻击或抵御 NPC 或其他玩家的攻击。

Facebook 研究团队在 Arxiv.org 上发表的一篇预印本论文中详细阐述了他们的研究。他们假设《我的世界》的约束使其非常适合在不同 NLU 子领域进行实验,为此,他们在 GitHub 上免费提供基线数据、代码、标签工具和基础设施。

“尽管有许多与虚拟助理相关的重要研究方向,但它们本身并不是研究社区的理想平台。它们的范围很广,需要大量的世界知识,而且它们有复杂的代码库,由数百名(甚至数千名)工程师维护,”研究人员在论文中写道。“此外,它们的专利性质和商业重要性使它们很难进行试验。我们建议在《我的世界》的沙盒构建游戏中工作,而不是一个‘现实世界’助理。”

研究人员描述了一个能够理解自然语言命令的《我的世界》机器人(例如,“建造一座 15 个街区高的塔,然后在塔顶放一个巨大的笑脸”),并通过游戏内聊天窗口提供给它。他们承认,实现这一点说起来容易做起来难,因为玩家可能会要求机器人执行的任务很复杂。在上面的例子中——“建造一座 15 个街区高的塔,然后在塔顶放一个巨大的笑脸”——助理需要理解“塔”和“笑脸”的含义,以及如何建造它们,知道“15 个街区高”测量的是塔的高度,认识到“15”的重要性;并调和相对位置“顶”。

尽管如此,论文的合著者断言《我的世界》的任务空间和环境具有“规律性”,可以用来简化任务执行。例如,用于生成示例任务命令的语言/操作模板集可用于构建培训数据,并告知机器人的底层 NLU 模型的结构。此外,《我的世界》的结构可以作为 AI 和玩家之间共享的知识资源。例如,如果用户要求助理“构建一个笑脸”,代理可以推断“笑脸”是一种块对象,因为“构建”是一个机器人已经理解的常见任务。

研究人员提出了一种模块化方法来简化假设助理的设计和后续研究。他们建议,完成《我的世界》基本任务(如路径规划和构建)所需的行动可以通过访问游戏的内部世界状态来编写脚本。此外,他们指出,通过记录玩家与助理的互动,收集或生成动作数据相对容易。

研究团队指出,《我的世界》中的机器人“迷人”而“有趣”,但面临着巨大的挑战。它需要立即对反馈做出反应,因为延迟常常对玩家的表现印象有很大影响,并且它必须通过寻求澄清而不是用烦人的问题轰炸玩家来“最佳”地与玩家互动。但尽管有这些障碍,团队坚信《我的世界》是研究从互动中学习的理想选择,尤其是从语言互动中学习。

“我们感兴趣的是,何种方法能够让一个代理理解玩家意图,并通过互动来改进自己,而这正是我们能够创造的最有利的环境。”研究人员写道。“尽管我们赞同这样的观点,即如果没有表征学习方法的根本进步,我们将无法有效地解决 NLU 问题,但我们认为,无论如何,现在是时候尝试一下了。” (编译自 venturebeat)

【数字叙事 原作:KYLE WIGGERS;编译:Lighting】