Facebook 的研究人员正在创建一种人工智能系统,名为 Talk the Walk(边谈边走),它能够使用 360 度图像、自然语言,以及包含地理标志的地图进行导航。这无疑是一项艰巨的挑战,为了引入更多的智慧参与其中,Facebook 近日面向全球科技界开源了这一系统。

“在我看来,这是人工智能的前进方向。”Facebook AI 研究科学家 Douwe Kiela 说,“如果我们没有这个,那么看起来我们也会取得很大的进展,但我们不会真正取得我们本应取得的进展。“

Talk the Walk 是世上一个以行动和感知为基础的大型对话数据集。系统涉及两个代理——“导游”和“游客”——它们通过自然语言进行交流,以实现共同的目标:将游客导航到给定的目标位置。

Facebook 在 Arxiv 发布的消息说:“详细描述的任务和数据集具有挑战性,它们的完整解决方案是我们向社区提出的一个开放性问题。我们专注于旅游本地化的任务,并开发新颖的空间卷积掩盖注意(MASC)机制,允许将旅游话语引入指南的地图,显示它能为紧急和自然语言交流带来显着改善,使用这种方法,我们能在完整的任务上建立非平凡的基线。“

研究人员正在训练两个 AI 系统来完成两项具体的任务:游客代理向导游代理描述它的周围环境,然后导游代理根据地图的描述和使用来解释游客的位置。目前,只能在纽约两个街区的十字路口向前、向左或向右移动,而游客代理商只能用一张没有街道名称的地图来描述位置。

训练中使用的自然语言是根据完成相同任务的人类文本记录创建的。“与其他数据集不同的是,我们有实际的自然语言注释,所以它不是某种人为的模板语言,其他人也尝试过。”Douwe Kiela 说。

据介绍,这一 AI 系统汇集了很多不同的挑战,它们都是人工智能研究必须面对的,比如现实 360 视觉感知、基于地图的导航、视觉推理、自然语言交流对话等。如果人类想要在 AI 研究上取得重大进展,这些都是必须解决的问题。Kiela 说:“这项工作的目的是将所有这些问题整合到一个包罗万象的解决方案中。”

Kiela 认为,虽然 360 度全景视频和地图是训练系的输入的一部分,但任务和基准数据集主要是为了促进对话 AI 的发展。他们的工作目前主要集中于基础打造,使用多模式方法来发展 AI 对自然语言的理解。

“这种研究的长期愿景是提高自然语言的理解,因此这对人类来说当然是有趣的。”他说。“基本上,如果我们能让人工智能真正了解自然语言,那么这将是 AI 的关键时刻,我认为我们还没有接近这一点,我非常关心这一长期的愿景,首先,最重要的是,我们如何才能达到这种语言理解,以及我们怎样才能让 AI 真正拥有这种迄今为止一直缺失的常识。”

【数字叙事 Lighting】