Nvidia 一直在进行人工智能生成电子游戏的可能性研究,新研发的一种 AI 模型可以对视频和 3D 世界进行纹理处理,并在事后记住它们。在一篇题为《世界一致的视频到视频合成》的论文中,研究人员展示了令人印象深刻的结果,并说,对于电子游戏,AI 可以实时真实地构建世界。

2018 年 9 月,Nvidia 与麻省理工学院合作,研发了一种 AI 模型,可以控制所谓的视频到视频合成。这种 AI 可以改变视频的某些内容或运动模式,或者传输到另一个视频。其原理让人联想到广泛存在的深度伪造,但 Nvidia 的技术可以做得更多:替换街道、峡谷、树木和天气,甚至让雕像跳舞。

通过视频到视频合成,AI 应该能够基于有关场景内容的足够信息来生成逼真的视频或 3D 世界。为此,研究人员首先创建了一个所谓的语义蒙版,将原始材料中的房屋、树木或汽车等对象分类,然后,AI 会读取此信息并生成合适的表面和颜色。

结果很有趣,但也有缺陷:缺少细节,造成几何伪影或时间异常。许多错误是由于 AI 健忘而产生的:它会忘记汽车的颜色、表面或房屋正面。对于连续处于视频焦点或出现多次的对象来说,这是一个问题。

研究人员写道,到目前为止的问题是,AI“缺乏对正在渲染的三维世界的了解,他们只根据最后一幅图像生成每幅图像”。为此,Nvidia 引入“任务说明”来影响下一张照片的纹理。任务说明的目的是确保视频中的颜色、表面一致,因此它们包含所有先前已知图像的深度和内容信息。然后,任务说明中的信息将用作下一张生成图像的颜色和表面的参考点。

相比其前身,Nvidia 的新 AI 实现了明显更一致的结果。在测试中,颜色的均匀性和表面的一致性还是很接近的。【数字叙事 黎雾】