微软的研究人员创建了一个人工智能系统,可通过模仿人类理解世界的方式,来学习、理解图像-文本对,既可以生成图像描述,又能够回答关于场景的自然语言问题。他们说,这一单模型编码器-解码器视觉语言预训练(VLP)模型,为将来构建达到人类水平的框架奠定了基础。

“对周围世界的感知是我们人类从小就开始学习的一种技能……我们与身处环境的互动越多……我们越能更好地理解和使用语言来解释存在的事物,以及我们周围正在发生的事情。”微软高级研究员 Hamid Palangi 在微软研究博客中写道。“另一方面,对于机器来说,场景理解和语言理解是非常具有挑战性的,尤其是在只有弱监督的情况下,本质上来说,间接学习的人能够很好地利用它。”

根据 Palangi 的解释,图像字幕和视觉问答质量算法的表现通常不佳,原因有三个:1、它们不能利用上下文来描述图像并对其进行推理;2、未能利用更多的训练数据进行预训练;3、架构设计不适合执行语言、视觉对齐和语言生成任务。

Palangi 和他的同事试图攻克这些难关。他们的架构包括编码器(学习给定数据的数字表示)和解码器(将编码器的表示转换为人类可解释的信息),他们对它们同时进行预训练,并针对两种预测进行优化。他们说,这最终创造了更好的编码器和解码器表示,允许他们使用相同的模型来实现不同的目标,如图像字幕和视觉问题回答。

研究人员评估了 VLP 在公共基准(包括 COCO、Flickr30K 和 VQA 2.0)上对图像进行描述和推理的能力。他们报告说,它不仅在几个图像字幕和视觉问题回答指标上超过了当前最先进的模型,而且还成功回答了一些关于图像的语言问题(比如服装设计中的相似性问题),而之前只接受过语言训练的模型很难回答这些问题。

“通过智能模型设计和智能数据选择,我们可以利用现有的公共资源,在语言和场景理解方面达到更高的水平,VLP 就是证明。”Palangi 写道,“通过 VLP,我们相信我们展示了统一模型达到语言和场景理解水平的潜力,这是成功完成各种不同的下游任务所必需的——单个模型在不牺牲性能的情况下高效地完成多个任务。这意味着有了这一更有效和更有能力的视觉语言系统,不再需要用几个单独训练的模型来实现相同的目标。”

该研究团队表示,将在未来的工作中完善模型的架构,同时在预训练期间添加更多的数据。

【数字叙事 黎雾】