微软在通过人工智能对图像进行分析方面取得重要进展,其图像描述 AI 在受控条件下达到了近似人类的能力。

我们执导,描述图像内容的文本可以存储在 Web 上以及描述图像内容的文档中。这些描述有助于视力受损的人理解视觉内容,并将其纳入文章的上下文中。然而,通常人们似乎懒于对图像添加描述,因此,如果能用机器来自动化这个过程应是十分受欢迎的事情。

微软现在提出了一种改进的 AI 来实现这一点。它首先将图像分割成前景和背景以及人、脸、情感等组成部分,然后分析这些元素并生成适当的描述。微软表示,与自 2015 年以来一直使用的早期版本相比,新系统的性能增强了两倍。它在图像说明基准 nocaps 中取得了非常好的效果。与同类系统相比,它犯的错误更少,对图像的描述更精确。

根据微软的说法,AI 在图像标注方面的表现可与人类媲美。但这仅基于 nocaps 基准中包含的大约 15,000 张图像,而视觉主题的多样性和复杂性远远超出了 nocaps 图片集所能代表的范围。此外,图像描述好坏的评价标准只能反映人们在不同环境下的需求,这也是基准开发人员将其称为 AI 性能的“粗略指标”的原因。

强大的图像分析 AI 的用途不仅仅是在互联网上或文档中自动标记图像:有视觉障碍的人可以在日常生活中使用它们来更好地实时定位周围环境。微软已经在图像描述应用程序”Seeing AI”中已经使用了这一 AI 技术。最终,自主机器人技术也将从图像和视频内容的自动而可靠的识别和描述中获益。微软在其研究博客中介绍了研究工作和知识技能培训的细节。

目前,谷歌甚至使用 AI 让 Chrome 浏览器自动为没有文字说明的图像添加描述。【数字叙事 Lighting】