尽管当前对能够创建AI生成的3D图像的技术:神经辐射场(NeRF)产生了浓厚的兴趣,但是这种新的图像合成技术方法仍需要大量的训练时间,并且缺乏能够实现该功能的实现方式。


NeRF技术,实现实时视图合成,让AI人类不是梦


业界和学术界的一些知名人士之间的合作为这一挑战提供了新的思路(通常称为Novel View Synthesis,即NVS)。


该研究论文名为《神经发光着色》,声称对现有技术进行了大约两个数量级的改进,这代表了通过机器学习管道实现实时CG渲染的若干步骤。


NeRF技术,实现实时视图合成,让AI人类不是梦


与以前的方法相比,神经Lumigraph渲染(右)提供了更好的混合伪像分辨率,并改进了遮挡的处理。


虽然信用为本文仅引用斯坦福大学和全息显示技术公司Raxium(目前在操作隐身模式),贡献者包括:主机器学习建筑师在谷歌,计算机科学家在Adobe公司,以及CTO在StoryFile(这使头条新闻最近AI版本的威廉·沙特纳(William Shatner)。


关于最近的Shatner宣传闪电战,StoryFile似乎在其新过程中采用了NLR,以根据个人的特征和叙述来创建由AI生成的交互式交互式实体。


NeRF技术,实现实时视图合成,让AI人类不是梦


StoryFile计划在博物馆展览,在线互动叙事,全息展览,增强现实(AR)和遗产文献中使用此技术,并且似乎还在关注NLR在招聘面试和虚拟约会应用中的潜在新应用。


在主题上积累的各种论文中,体积捕获的原理是拍摄主题的静态图像或视频,并使用机器学习来“填充”原始文档未涵盖的观点的想法。


NeRF技术,实现实时视图合成,让AI人类不是梦


在上图中,取自Facebook的AI 2019 AI研究(见下),我们看到了体积捕获的四个阶段:多个摄像机获取图像/足迹; 编码器/解码器体系结构(或其他体系结构)计算并连接视图的相对性;射线行进算法计算体积空间中每个点的体素(或其他XYZ空间几何单位);并且(在最近的论文中)进行了训练,以合成可以实时操纵的完整实体。


到目前为止,正是这种通常广泛且数据繁重的训练阶段使新颖的视图合成脱离了实时或高响应捕获的领域。


Novel View Synthesis可以绘制体积空间的完整3D地图这一事实意味着,将这些点缝合到传统的计算机生成的网格中相对容易,可以有效地捕获和清晰表达CGI人(或任何其他相对有界的物体),飞行中。


使用NeRF的方法依赖点云和深度图在捕获设备的稀疏视点之间生成插值:


NeRF技术,实现实时视图合成,让AI人类不是梦


尽管NeRF能够计算网格,但是大多数实现并不使用它来生成体积场景。


相比之下,魏兹曼科学研究所(Weizmann Institute of Science)于2020年10月发布的隐式可区分渲染器(IDR)方法取决于利用从捕获数组自动生成的3D网格信息:


NeRF技术,实现实时视图合成,让AI人类不是梦


虽然NERF缺乏IDR对形状估计能力,IDR无法比拟的nerf的图像质量,都需要大量的资源来培养和整理(尽管最近在NERF创新点开始,以解决这个问题)。


NLR的Custom相机装置具有16台GoPro HERO7和6台中央Back-Bone H7PRO相机。对于“实时”渲染,它们的最低运行速度为60fps。


NeRF技术,实现实时视图合成,让AI人类不是梦


相反,神经发光图形渲染利用SIREN(正弦表示网络)将每种方法的优势整合到自己的框架中,该框架旨在生成可直接用于现有实时图形管线中的输出。


在过去的一年中,SIREN已用于类似的实现,现在代表了图像合成社区中针对爱好者Colabs的流行API调用;但是,NLR的创新在于将SIREN应用到二维多视图图像监控中,这是有问题的,因为SIREN产生过度拟合而不是广义输出的程度。


从阵列图像中提取CG网格后,通过OpenGL对网格进行栅格化,并将网格的顶点位置映射到适当的像素,然后计算各种贡献图的融合。


所得的网格比NeRF的网格更具通用性和代表性,所需的计算量更少,并且不会对无法从中受益的区域(例如光滑的面部皮肤)应用过多的细节:


NeRF技术,实现实时视图合成,让AI人类不是梦


不利的一面是,NLR尚不具备动态照明或重新照明的能力,并且输出仅限于阴影图和在捕获时获得的其他照明注意事项。研究人员打算在以后的工作中解决这个问题。


此外,由NLR生成的形状不如某些替代方法准确,例如非结构化多视图立体声的逐像素视图选择,或之前提到的魏茨曼研究所的研究。


用神经网络从一系列有限的照片中创建3D实体的想法早于NeRF,远见卓识的论文可以追溯到2007年或更早。在2019年,Facebook的AI研究部门发表了一份开创性的研究论文《神经体积:从图像中学习动态可渲染体积》,它首先为基于机器学习的体积捕获生成的合成人启用了响应界面。


免责声明

我来说几句

不吐不快,我来说两句
最新评论

还没有人评论哦,抢沙发吧~