谷歌新AI可利用众源图片自动化创建3D地标

用 3D 模型重现真实世界的位置,对于人类艺术家来说一直是个挑战。谷歌的研究人员研发出一种名为 NeRF-W 的神经网络,可利用众源照片中的位置,自动化 3D 建模过程,并改善其结果,从而令人信服地创建 3D 地标和照明。

研究人员在一篇论文中对 NeRF-W 进行了详细的讨论,这篇论文将在 8 月 23 日召开的 2020 欧洲计算机视觉会议上发布。

NeRF(Nergular Radiance Fields,神经辐射场)背后的想法是通过确定光线在何处终止,从 2D 图像中提取 3D 深度数据。这是一种复杂的技术,可以单独创建可信的地标纹理 3D 模型。而谷歌的 NeRF-W(NeRF in the Wild )系统在许多方面具有先进性。首先,它使用“野外照片集”作为输入,扩大了计算机从多个角度观察地标的能力。接下来,它评估图像以找到结构,分离出摄影和环境的变化,如图像曝光、场景照明、后处理和天气条件,以及逐个拍摄对象之间的差异,如在一张图像中可能有人,而另一张图像中没有。然后,它将静态元素(结构几何和纹理)与提供体积辐射度的瞬态元素混合在一起,重新创建场景。

因此,NeRF-W 的地标 3D 模型可以从多个角度平滑地观看,而不会出现抖动或伪影,同时照明系统使用检测到的变化来为场景照明和阴影提供亮度指导。NeRF-W 还可以将图像到图像的对象差异视为不确定性场,弱化或加重它们,而标准的 NeRF 系统允许这些差异以类似云遮挡的伪影的形式出现,因为在图像摄取过程中,它不会将它们与结构分离。

研究人员对标准 NeRF 结果与 NeRF-W 视频进行比较后发现,新的神经系统可以令人信服地重新创建 3D 地标,以使虚拟现实和增强现实设备的用户将能够体验其实际外观的复杂架构,包括一天中的时间和天气变化,超越了之前使用 3D 模型进行的工作。这也是对去年公开的类似替代产品“野外神经渲染”的改进,因为它可以更好地完成将 3D 结构与照明分离并从不同角度查看对象时在时间上更加平滑的效果。

谷歌并不是唯一一家研究如何使用照片作为 3D 建模输入的公司,英特尔的研究人员正在使用多张照片以及循环编码器-解码器网络对未捕获的角度进行插值,以生成真实世界的合成版本。虽然英特尔的系统在像素级的锐度和时间平滑度上比其他许多替代品(包括标准的 NeRF)表现得更好,但它似乎没有提供像 NeRF- W 那样的可变光照能力,也没有像 NeRF-W 那样专注于使用随机来源的照片来重现真实世界的位置。

还有 Magic Leap 也研发出一种通过神经网络来从 2D 图像生成 3D 环境的方法,名为 Atlas。其研究人员认为,使用 AI 基于 2D 图像的 3D 重建比基于 3D 数据的重建更有效。【数字叙事 Lighting】

有问题和想法?与数字诗人讨论、交流,以获得更多的信息、意见。

赞赏
lighting
lighting
笛卡尔的“思”正在进入明斯基的“情感机器”
本文系数字叙事原创(编译)内容,未经授权,不得用于商业目的,非商业转载须注明来源并加回链。

订阅

受欢迎的

相关文章
Related