用人工智能(AI)生成的视频,可以将一个人的脸叠加在另一个人的身上,这一技术被用在了诸如将哈里森·福特替换成尼古拉斯·凯奇的诸多电影片段中,也见于一些邪恶的事情,比如假的名人色情和宣传。这就是所谓的“deepfakes”。在搜索引擎中,除了电影,它经常与“女神下海”、“宅男福音”联系在一起,有的甚至扯上了隔壁老王的老婆。我们这里暂不作道德评判。这里,我们要说的是来自卡耐基梅隆大学研究人员的一种更新的 AI 系统,比以往的尝试更强大、更通用。

它被称为“Recycle-GAN”,研发团队将其描述为用一种“无监督的数据驱动的方法”,将一个视频或照片的内容传输给另一个视频或照片。“这样的内容转换和风格保存有很多应用,包括从一个人到另一个人的人体运动和面部表情的转换,用人类演示教授机器人,”研发团队说,“或者把黑白视频转换成彩色的。”

迄今为止,大多数先进的转换技术都是针对人脸的,研究人员说它们“缺乏对其他领域的概括”,“在面孔被遮挡时失效”。这些技术依赖于成对的图像到图像的转换,这需要劳动密集型的手工数据标记和对齐。

相比之下,Recycle-GAN 利用有条件的生成对抗网络(GAN)和“时空线索”来学习和掌握两幅图片或两个视频之间的“更好的联系”。(GANs 是由两部分组成的模型,由生成器通过从输入数据中生成越来越逼真的输出来“愚弄”鉴别器。)当训练人类主体的镜头时,它能够生成捕捉微妙表情的视频,比如微笑时形成的酒窝和嘴线的运动等面部表情。

“在没有任何人工监督和领域特定知识的情况下,我们的方法会通过互联网使用来自两个领域的公开的视频数据,从一个领域到另一个领域进行重新定位。” 研发团队写道。

Recycle-GAN 远不止于捕捉面部表情。研究人员还用它来修改视频中的天气状况,把无风的一天变成了一个有风的日子。他们还把盛开的花朵和凋谢的花朵结合在一起,用网络上的视频合成了一个令人信服的日出。

实验的结果是让 15 个测试对象在 28.3%的时间里被愚弄,但是团队相信,如果系统掌握了“生成输出”的速度变化,那么这个系统的未来版本就会变得更加精确。“一个真正的风格概念应该能够在传递语音/内容所需的时间内产生这种变化。”该团队写道。“我们相信,更好的时空神经网络体系结构可以在不久的将来尝试解决这个问题。”

毫无疑问,Deepfakes 仍然是一个热点问题。Reddit、Pornhub、Twitter 等平台已经表明了反对立场,而研究人员也在继续寻找检测深度伪造的方法。

但是,技术的发展是绕不开的。或许我们应该像圣克拉拉大学法学院教授、该学院高科技法律研究所所长埃里克·高德曼说的那样,最好是“为一个我们经常接触到真实和虚假的照片、视频的世界做好准备”。

【数字叙事 黎雾】