你能相信这是人工智能利用图像重建的3D场景吗。
这么大规模的场景还能保持这么高的清晰度你确定这不是谷歌地图的错误不要!这是HKCU团队提出的模型:BungeeNeRF,适用于各种尺度的场景还原目前,该论文已被收录到ECCV2022中
也许这是我最近几周最喜欢的NeRF项目之一,这是一个非常有趣和令人兴奋的结果!
这么厉害,邦奇纳夫是怎么做到的。
多级监管的渐进模式
多尺度还原3D场景会导致大规模的数据变化,这也意味着会增加学习的难度,改变图像的焦点。
BungeeNeRF以渐进的方式建立和训练模型,使用渐进的神经辐射场来表示各种尺度下的场景用于生成3D场景的照片包括各种视角和距离这种渐进的方式对各网络层的工作进行了分工,并使位置编码能够在不同的尺度上激活不同的频道,在每个尺度上释放相应的细节它既能很好地渲染大规模场景的细节,又能保持小规模场景的细节
具体来说,该模型可以很好地恢复各种尺度的3D场景,主要是由于以下两个部分:
首先,它是一个具有残差块结构的渐进式增长模型,可以解决以往模型在大尺度下的伪影问题BungeeNeRF模型预设了训练阶段的总数,训练阶段的数目是摄像机与场景的连续距离离散后的分段数换句话说,模型每个阶段的训练都是指不同尺度下的训练
然后从远处看,伴随着训练的进行,BungeeNeRF会在每个训练阶段加入一个更接近的音阶通过允许模型在早期训练阶段对外围区域投入更多的成本,可以补偿样本分布的偏差在训练阶段,训练集的增加伴伴随着残差块的增加
每个残差块都有自己的输出头,可以用来预测连续阶段之间的颜色和密度残差,并在近距离观察时捕捉场景中新的复杂细节其次,BungeeNeRF具有包容性的多层监管结构
因为需要保持所有尺度下的图像渲染质量一致,所以在训练阶段,输出头由之前更大尺度的图像共同监督,这个阶段的损失会汇总到之前所有尺度的输出头上。
多级监督的设计考虑到了更深的输出头上细节的复杂程度,所以渲染出来的视图会更清晰,更真实相比其他模型在各种尺度上的细节渲染效果,BungeeNeRF的效果更明显
全尺寸细节渲染
在论文中,研究小组对BungeeNeRF和其他模型生成的3D场景进行了比较BungeeNeRF明显优于其他模型,非常接近真实场景
此外,BungeeNeRF允许从不同的残差块灵活退出,以控制LOD在放大图像时,后一级输出头在前一级的粗输出中逐渐加入更复杂的几何和纹理细节,而保持浅层学习的特点对早期输出头是有意义的
有兴趣的可以戳下面的链接了解更多~
参考链接: