人工智能
Apple 的 HDR 增强现实环境能否解决神经渲染的反射问题?
目录

苹果公司今年正在加速对增强现实技术的大力长期投资,推出了一系列新的开发工具 捕获并转换 将现实世界的物体转化为 AR 方面,以及 不断增强的行业信念 专用 AR 眼镜将支持这场研发风暴所带来的沉浸式体验。
在有关苹果在增强现实方面所做努力的一系列新信息中, 新文 从公司的 计算机视觉 研究部门揭示了一种使用 360 度全景高动态范围 (HDR) 图像为叠加到增强现实场景中的对象提供特定场景反射和照明的方法。
有权 实时增强现实的 HDR 环境图估计 论文作者:Apple 计算机视觉研究工程师 Gowri Somanath 和高级工程师 机器学习 经理 Daniel Kurz 提议通过 卷积神经网络 (CNN)在移动处理环境中运行。 结果是反射物体可以根据需要真实地反映新颖的、看不见的环境:

在 Apple 的新 AR 对象生成工作流程中,通过摄影测量对其周围环境进行实例化,从而产生令人信服的反射,但不会“烘焙”到纹理中。 来源:https://docs-assets.developer.apple.com/
该方法在 CVPR 2021 上首次亮相,拍摄整个场景的快照并使用 环境图网 CNN 估计视觉上完整的全景 HDR 图像,也称为“光探针”。
生成的贴图识别出强光源(在上面的动画末尾概述)并在渲染虚拟对象时考虑它们。

EnvMapNet 的架构,将有限的图像处理为全场景 HDR 光探测器。 资料来源:https://arxiv.org/pdf/2011.10687.pdf
该算法在 iPhone XS 上的运行时间可以低于 9 毫秒,并且能够实时渲染反射感知对象,与以前的不同解决问题的方法相比,方向误差减少了 50%。
光探头
自从高动态范围图像(1986 年发明)通过 1990 世纪 XNUMX 年代计算机技术的进步成为一股重要力量以来,HDR 照明环境一直是视觉效果的一个因素。 观看幕后花絮的任何人可能都注意到,现场技术人员举着棍子上的镜面球,这是超现实的存在——在重建场景的 CGI 元素时,参考图像将作为环境因素纳入其中。

来源:https://beforesandafters.com/
然而,使用铬球 反射映射 纹理早于 1990 世纪 1983 年代,可以追溯到 XNUMX 年的 SIGGRAPH 论文 金字塔参数 ,其中以反射 CGI 机器人的静态图像为特色,这种风格在近十年后通过詹姆斯·卡梅隆 (James Cameron) 的“液态金属”效果而闻名 终结者2:审判日 .
神经渲染中的 HDR 环境?
神经渲染提供了从非常稀疏的输入(包括粗略的分割图)生成逼真视频的可能性。

Intel ISL 的分割>图像神经渲染(2017)。 来源:https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis
XNUMX 月,英特尔研究人员 发现 这是一项神经图像合成的新举措,其中使用 Grand Theft Auto V 中的镜头根据德国街道图像数据集生成逼真的输出。

来源:https://www.youtube.com/watch?v=0fhUJT21-bs
开发可适应各种照明条件的神经渲染环境的挑战是将对象内容与影响它的环境因素分开。
就目前而言,反射和各向异性效果仍然是原始数据集镜头的功能(这使得它们不灵活),或者需要英特尔研究人员使用的相同类型的模式,该模式从原始(游戏)引擎生成半真实感输出,对它执行分割,然后应用来自“烘焙”数据集的风格转移(例如最近研究中使用的德国 Mapillary 街景视图集)。

在这张源自 GTA V 镜头(左)的神经渲染中,前面的车辆表现出令人信服的眩光,甚至使虚拟虚拟摄像机的传感器充满了太阳的反射。 但这种照明方面源自原始游戏镜头的照明引擎,因为场景中的神经方面没有可以更改的自主和自引用照明结构。
NeRF 中的反射率
图像源自 神经辐射场 (NeRF) 也面临着类似的挑战。 尽管最近对 NeRF 的研究在分离出构成神经场景的元素方面取得了长足进步(例如,麻省理工学院/谷歌 NeRFactor 上的合作 ),反射仍然是一个障碍。

麻省理工学院和谷歌的 NeRFactor 方法将法线、可见性(阴影)、纹理和局部反照率分开,但它并不能反映更广泛(或移动)的环境,因为它本质上存在于真空中。 资料来源:https://arxiv.org/pdf/2106.01970.pdf
NeRF 可以通过 Apple 使用的同类 HDR 映射来解决这个问题。 神经辐射场中的每个像素都是根据从虚拟相机到“光线”无法进一步传播的点的轨迹进行计算的,类似于传统 CGI 中的光线追踪。 将 HDR 输入添加到该光线的计算中是实现真正环境反射率的潜在方法,并且实际上类似于 CGI 的“全局照明”或光能传递渲染方法,其中场景或对象由其自身的感知反射部分照亮环境。
尽管可以保证 HDR 矩阵不会减轻 NeRF 显着的计算负担,但大量 研究 目前该领域的研究重点是解决处理管道的这一方面。 不可避免地,反射率是等待重新填充和挑战新优化架构的众多因素之一。 然而,如果不采用考虑周围环境的方法,NeRF 就无法发挥其作为离散神经图像和视频合成方法的全部潜力。
神经渲染管道中的反射率
在假定的支持 HDR 的英特尔 GTA V 神经渲染场景中,单个 HDR 无法容纳需要在移动对象中表达的动态反射。 例如,为了在前方车辆驶近灯光时看到自己的车辆在前方车辆中的反射,前方车辆实体可以拥有自己的动画 HDR 光探头,其分辨率会随着其远离末端而逐渐降低从用户的角度来看,随着距离的拉远,它会变得低分辨率并且仅仅具有代表性——一种基于邻近度的 LOD,类似于视频游戏中的“绘制距离”分隔符。
Apple 在 HDR 照明和反射贴图方面的工作的真正潜力并不在于它特别创新,因为它建立在之前在一般图像合成和 AR场景开发 。 相反,可能的突破体现在严格的本地计算限制与 Apple M 系列机器学习硬件创新相结合,产生轻量级、低延迟的 HDR 映射,该映射旨在在资源有限的情况下运行。
如果这个问题可以经济地得到解决,那么语义分割>真实感视频合成的出现可能会更近一步。
来源:https://docs-assets.developer.apple.com/