人眼可以轻松地从各种风格的图片中认出猫来,但现在的计算机视觉 API 却不一定能做到。本周,在美国盐湖城举行的计算机视觉和模式识别会议上,来自 UnifyID 的研究人员证明,猫科动物的风格化照片,有超过 97.5%难倒了沃森物体识别工具。

研究人员使用神经网络 Magenta——一个由谷歌大脑团队创建的开源的 TensorFlow 研究项目,它可以生成歌曲、图像和绘画——将猫的图片转换成毕加索式的立体派作品。

在一开始,计算机视觉算法在识别不同品种、毛发长度和颜色的猫方面没有困难。当样式转换算法的插值权重设置在 0(原始图像)和 0.1(轻微风格化图像)之间时,机器学习算法以高自信度(97%-99%)将图像归类为“猫”。但是,当研究人员对插值进行放大,图像变得越来越后印象派时,该算法的猜测从“猫”、“食肉动物”变成了“玻璃纸”、“飞蛾”和“无脊椎动物”。

UnifyID 的首席机器学习科学家 Vinay Prabhu 在一篇 Medium 文章中写道:“虽然这两种图片人眼几乎无法区分,但……分类器为这两张图片分配的标签却截然不同。”

在另一项更大规模的测试中,研究人员在 Kaggle 犬和猫的数据集上随机选择了 200 张猫图像,然后在通过沃森视觉识别 API 进行测试之前,应用了一种风格的转移。结果呢?这一算法将这些猫归类为“疯狂的被子”、“迷彩”、“马赛克”和“拼凑物”。

“我们的目标不是宣布新的黑箱攻击配方,也不是要对使用的商业 API 进行指责,”Prabhu 说。“除了展示将样式转换作为一种对抗性的示例生成技术的潜力之外,我们还想让人们注意到,在这种 API 和 EthAI 的情况下,构成图像类别/标签定义的模糊性,以及什么导致了图像的错误分类。”

这并不是研究人员所称的“对抗性扰动”的第一个例子。在 2017 年 10 月,来自九州大学和麻省理工学院的研究人员演示了一种算法,该算法可以改变图像中的单个像素,从而导致人工智能对物体进行错误分类。去年 12 月,麻省理工学院的学生成功地欺骗了谷歌云视觉服务,使其将狗的图像识别为“滑雪者”。

【数字叙事 黎雾】