本篇学习报告基于CVPR 2022的论文《Point-NeRF:Point-based Neural Radiance Fields》[1],这篇论文由南加州大学、Adobe Research的Qiangeng Xu等人共同完成。2020年提出的神经辐射场(Neural Radiance Fields,简称NeRF)可以生成高质量的视图合成结果,但因为对每一个场景进行训练,所以NeRF的重建时间比较长。Point-NeRF提出结合神经3D点云来构建辐射场,基于点的辐射场可以通过多视图的网络正向推理进行预测。该方法的的训练速度比NeRF提升30倍。
1.研究背景
近年来,使用深度学习完成图形学任务的工作数量快速增加,ECCV 2020提出的NeRF将隐式场景表示推向了新的高潮。NeRF的核心思想是使用多层感知机(Multilayer Perceptron,MLP)拟合Radiance Fields,其步骤是:将点的坐标、观察视角和光线方向作为MLP的输入,输出点的密度和颜色,取多个位置使用体渲染技术合成图像。NeRF的缺陷在于,经过训练后这样一个模型只含有该场景的信息,不具有生成其他场景的能力。并且由于对每一个视角都进行拟合,同时难以避免地对一些空旷地区进行不必要的采样,导致了最后的重建时间非常糟糕。
多视角合成的另一个主流思路是MVS(Multi-View Stereo)[2]技术,应用一个基于cost-volume的网络预测深度值,然后将其投影到三维空间。具体来说,首先提取深度图像特征,然后将特征做单应性变换,接下来应用三维卷积对初始深度图进行正则化和回归,最后使用多张图片之间的重建约束来选择预测正确的深度信息以生成最终的输出。MVS直接使用网络推理快速重建场景几何,他的重建速度非常可观。
受到以上两种方法的启发,论文作者提出了Point-NeRF,使用点云和相关的神经特征来构建辐射场。先利用MVS生成点云,再利用点云做体渲染。该方法的生成质量超过NeRF,并且训练速度也快了30倍。
2.算法细节
Point-NeRF使用MVS生成点云,再利用点云做体渲染。这样的方法带来的好处是会有一个先验:点云已经标记了surface附近的点,这些点带来的空间信息可以大大减少渲染的压力。NeRF需要做一些等距的采样点划分,并且创建两个网络(Coarse和Fine,fine在coarse的基础上预测surface的信息,再进行二次重采样),而Point-NeRF已经预测出一个点云,利用点云做代理,可以迅速找到surface。
2.1点云生成器
点云由三个部件构成:
作者提出一个神经生成模块,使用前馈神经网络进行两次点云属性的预测。首先进行深度预测,对深度置信体进行三次线性采样获得每个点的Pi和γi。然后进行特征预测,使用一个二维的卷积神经网络进行卷积计算得到驻点的Fi。网络的直接推理输出了一个良好的基于点云的辐射场,并且该点云可以被微调。
图1 点云生成器
2.2体渲染表示
从相机位置向场景发出射线,沿着该射线寻找离surface比较近的点,以该点为中心划定指定半径的球区域。该区域内的k个临近点就可以用来传递进MLP做卷积计算获得目标点的RGB值和体密度。整个过程是端到端可训练的,Point-NeRF可以根据渲染损失进行优化。
图2 Point-NeRF的体渲染表示
3.实验数据和实验结果
作者在DTU测试集上对Point-NeRF进行了评估,从直接网络推理和场景微调优化两方面生成了新的视图合成。并与包括PixelNeRF、IBRNet、MVSNeRF和NeRF在内的方法进行比较,以上方法均使用10k次迭代微调,而Point-NeRF仅使用1k次迭代。
表1 不同方法定量比较下的PSNR、SSIM、LPIPS
图3 DTU数据集上场景优化的定性比较
由表1可知,在10k次迭代后,Point-NeRF的SSIM(Structural Similarity)和LPIPS(Learned Perceptual Image Patch Similarity)均达到最佳,分别为0.957和0.117。IBRNet生成的PSNR(Peak Signal-to-Noise Ratio)结果要更好一点,但是IBRNet的微调成本更高,在相同迭代次数的情况下,要比Point-NeRF多花费40分钟。因为IBRNet依赖大量的全局CNN,而Point-NeRF利用局部点特征以及MLP更容易优化。与其他方法相比,Point-NeRF可以更准确地恢复纹理细节和几何结构。
4.学习总结
在新视角合成这个领域,NeRF从诞生至今一直保持着不俗的热度,这篇ECCV2020最佳论文提名的文章将隐式表达推向新的高度,基于NeRF的后续工作也针对它的局限性做出了许多改动,Point-NeRF引入神经点云的辅助,改善了NeRF训练速度慢、泛化性弱的问题,并且点云在大场景生成中依旧有不俗的表现力。隐式表达为基于深度学习的图形学任务开辟了一片探索空间,相关的研究在数字化人体、街景重建和视频处理等强应用性的方面已经在开展。
原论文地址:Point-NeRF: Point-based Neural Radiance Fields (xharlie.github.io)
参考文献
[1] Qiangeng Xu, Zexiang Xu, Julien Philip, Sai Bi, Zhixin Shu, Kalyan Sunkavalli, and Ulrich Neumann. Point-nerf: Point-based neural radiance fields. arXiv preprint arXiv:2201.08845,2022.
[2] Yao Yao, Zixin Luo, Shiwei Li, Tian Fang, and Long Quan. Mvsnet: Depth inference for unstructured multi-view stereo. In Proceedings of the European Conference on Computer Vision (ECCV), pages 767–783, 2018.
撰稿人:李维杰
审稿人:罗胜舟