深度学习系统从数据中挑选出统计模式——这就是它们解释世界的方式。但是统计学习需要大量的数据,而且它并不擅长将过去的知识应用到新的情况中。而麻省理工学院研发的符号 AI 模型能藉很少的训练数据学习描述场景中对象之间的关系。

麻省理工学院-Watson AI 实验室和 DeepMind 的一组研究人员进行的这项新研究,展示了符号 AI 应用于图像理解任务的潜力。他们说,在测试中,他们的混合模型成功地学会了与对象相关的概念,如颜色和形状,并使用这些知识来描述场景中的对象关系。

“孩子们学习概念的一种方式是把单词和图像联系起来,”研究报告的主要作者 Jiayuan Mao 在一份声明中说。“一台以同样方式学习的机器只需要很少的数据,而且能够更好地将其知识转移到新的场景中。”

该团队的模型包括一个感知组件,该组件将图像转换为基于对象的表示,以及一个语言层,该层从单词和句子中提取含义,并创建“符号程序”(即指令)告诉 AI 如何回答这个问题。第三个模块运行现场的符号程序并给出答案,当模型出错时更新模型。

研究人员将这些图片与斯坦福大学 CLEVR 图像理解测验的相关问题和答案进行配对,并对其进行训练。(例如:“物体的颜色是什么?”“有多少物体都在绿色圆柱体的右侧,并且与小蓝球具有相同的材料?”)随着模型的学习进程,问题逐渐变得越来越难,一旦它掌握了对象级概念,该模型会进一步学习如何将对象及其属性相互关联。

在实验中,该模型能够“几乎完美地”解释新的场景和概念。研究人员报告说,它仅用 5000 张图片和 10 万个问题(传统方法一般需要使用 7 万张图片和 70 万个问题)就轻松地超越了其他尖端的 AI 系统。该团队将在未来的工作中改进其在真实照片上的表现,并将其扩展到视频理解和机器人操作。

【数字叙事 黎雾】