今年5月底,Facebook Reality Labs推出了Half Dome原型机。这是业界首款集成了眼动追踪相机、宽视场光学系统和可独立变焦显示器的VR头显,展示了VR体验发展方向。
Half Dome的变焦设计可以根据用户眼球的运动来显示相应的画面,使每个虚拟物体都能清晰聚焦。这种更加先进的显示方法可以在VR中创造更舒适、自然和富有沉浸感的真实画面。但要充分发挥其潜力,Half Dome不仅需要更高级的硬件,同样需要具有创新性的软件。
于是DeepFocus应运而生。这是一种新的人工智能渲染系统,可与Half Dome配合使用,模仿我们在日常生活中观察世界的方式,创建逼真的散焦效果。DeepFocus是第一个能够产生这种效果的系统,它以一种实时的、逼真的且依赖于凝视方式来对VR头显佩戴者没有聚焦的场景部分进行模糊。
本月在东京举办的SIGGRAPH Asia大会上Facebook Reality Labs展示了该研究论文,目前DeepFocus正在进行开源,开源内容包括系统代码和我们用来训练它的数据集,以帮助更广泛的VR研究人员将模糊画面的效果融入他们的工作中。
下面的动图演示了一款使用了DeepFocus技术的Half Dome原型,该头显与Oculus Rift拥有相同的视场角。红色光标表示佩戴者的注视位置。
DeepFocus由Facebook Reality Labs的多学科研究团队开发,与电影美学或引人注目的视觉效果无关。实际上,模糊渲染越精确,观察者就越不可能注意到它。“我们的最终目标是提供与现实无法区分的视觉体验”,Facebook Reality Labs的视觉科学家Marina Zannoli表示,他很早就加入了DeepFocus项目。
真正逼真的体验的关键是聚焦(Focused)和散焦(Defocused)视觉效果的组合。“我们的眼睛就像微小的相机:当它们聚焦在一个特定的物体上时,视野中处于其他景深的部分场景看起来很模糊。那些模糊的区域有助于我们的视觉系统理解世界的三维结构,并帮助我们决定下一步关注的焦点。
虽然可变焦VR头显可以在观看者看向场景中任何地方时提供清晰的图像,DeepFocus允许我们以现实世界中的外观呈现场景的其余部分:自然模糊。“
此动图演示了DeepFocus系统如何呈现模糊,头显佩戴者的焦点(由红色光标表示)在场景中的不同元素之间移动。
逼真的视网膜模糊的最大潜在好处之一是更舒适的VR体验。Facebook Reality Labs显示系统研究总监Douglas Lanman说:“这种技术可以实现全天沉浸。无论你是玩电子游戏几个小时还是看一个无聊的电子表格到眼睛和视觉疲劳,又或者只是花一天的时间来陪伴着一幅美景,DeepFocus对所有这一切都很重要。”
在2015年Half Dome项目的早期阶段,Lanman已经认识到了模糊渲染的必要性。那时他刚加入该项目几个月,早期的Half Dome原型展示了在VR中创造清晰焦点的希望。然而,基于软件的散焦被证明是实现这一希望的主要障碍之一。
Facebook Reality Labs想要实现的方法无法利用用于渲染非VR游戏中的实时模糊的现有技术,这些非VR游戏更多地需要产生引人注目的电影效果(如漂亮的散焦背景)而不是真实感。这些快速但不准确的创造游戏里的背景模糊的方法与Half Dome的目标背道而驰,Half Dome想要重现光线传播时落在人类视网膜上的方式。
经过几个月对传统技术的探索,Facebook Reality Labs优化了计算机处理后的显示画面,但这一处理过程仍然不够快,无法实时生成能准确匹配物理现实的模糊效果。
这些早期的努力暴露了在VR中渲染真实且逼真的模糊所遇到的双重挑战——要实现这样的效果需要将令人难以置信的高渲染速度与先进的VR头显所需的图像质量水平相结合。
模糊渲染不是在场景开发时或观看者第一次进入某一场景时应用于场景的一次性过程。依赖于人眼凝视目标的模糊渲染要求设备必须提供快速且近乎即时的散焦处理,以匹配每只眼睛的运动,这种拟真程度的模糊渲染不能简单的通过拉低头显佩戴者焦点以外物体的分辨率来实现。
Lanman意识到在这个问题上投入更多的计算机处理能力是不可行的。2016年的Half Dome在演示中通过被称为“累积缓冲区渲染(Accumulation Buffer Rendering)”的过程实现了实时模糊,每只眼睛对应的每一个场景都被渲染了32次。但使用这种方法只是因为整个场景很简单,它不可能应用于更广泛的VR体验,而Lanman专注于为整个VR社区提供软件解决方案。
“我想要的是可以立即用于每一个游戏的东西,这样我们就不必要求开发人员改动他们的作品,只需要打开箱子使用 Half Dome即可”,Lanman说。
将深度学习带入VR应用中
Lanman决定开发由AI驱动的软件,而不是等待未来的处理器满足我们的需求或要求客户为更多的总处理能力支付更多的资金。具体而言,他希望探索深度学习的使用,这是一种通过使用大量相关数据进行训练来学习执行特定任务的方法的AI系统。
深度学习算法通常用于分析甚至是生成图像。芯片制造商一直在朝这个方向发展,它们为其最新的显卡添加了与AI兼容的学习核心来提高图像质量的上限,但深度学习在VR相关系统中的应用却相当少见。
“我们决定利用那些推动行业趋势的人工智能工具”,Lanman说,“不仅仅是生成画面,还要真正让画面比你以前看到的更真实。”
Lanman在其深度学习战略开始时,聘请了刚刚博士毕业的人工智能研究员Lei Xiao。Lei Xiao读博士期间的研究包括数值优化和针对计算机摄影的机器学习。“我相信从Lei在实验室工作的第一天,我就告诉他,‘我想开发首个能像Half Dome那样实时运行的计算显示方案"”,Lanman说,“该解决方案必须适用于Oculus Store中的每一款体验,且不需要开发人员重新编译。”
Lei Xiao现在是Facebook Reality Labs的研究科学家,他的任务是抛开一系列复杂的、与焦点相关的参数,仅仅通过已经应用于ASW 2.0帧率平滑技术中的颜色与深度(RGB-D)输入数据,来生成逼真的模糊效果,这些输入数据大多数游戏引擎中也有提供。
此领域先前的工作一直受到虚拟场景深度不连续处出现的伪影以及在主流VR头显分辨率下运行时的性能不足困扰。理论上,对散焦有充分理解的AI系统可以预测相邻像素应该如何混合在一起,无论它们的相对深度是多少或注视位置(例如VR头显佩戴者的视点)位于三维空间中的哪里。
图片中红圈的位置在渲染过程中出现了伪影
如果这种技术可以使用简单的RGB-D输入就能实现逼真的模糊效果,那它对于几乎任何VR体验都是可行的。
上面的动图演示了DeepFocus如何结合输入的颜色、深度和混淆圆(Circle of Confusion)数据,快速模糊处于各种焦距的物体。CoC图确定每个像素位置所需的散焦水平,以模拟视网膜上的模糊形状。
为了实现这种复杂的图像理解和直接数据输入的组合,Lei Xiao建立了一个全新的神经网络架构,专门针对实时模糊渲染进行了优化。与传统的基于深度学习的图像分析AI系统不同,该系统可以在处理视觉效果的同时保持高质量VR所需的超清晰图像分辨率。
但与所有深度学习AI系统一样,Facebook Reality Labs需要大量的训练数据来供AI系统学习。具体来说,DeepFocus需要通过查看数千个以不同距离放置各种物体的图像来形成对聚焦和散焦的理解。没有现成的数据集具有DeepFocus团队所需的各种曲面和形状。所以Lei Xiao和Facebook Reality Labs的技术美术Matt Chapman创造了一个数据集。
Facebook Reality Labs的DeepFocus团队(从左上角开始顺时针方向):Douglas Lanman,Matthew Chapman,Lei Xiao,Salah Nouri,Alexander Fix,Marina Zannoli,Anton Sochenov,Anton Kaplanyan,Paul Linton。
Chapman从Oculus产品团队来到Facebook Reality Labs,在那里他制作了一些我们最知名和最优秀的演示。对于DeepFocus,Chaperman将美学放在一边,并给Lei Xiao一个满是虚拟对象的互动场所。Chaperman的随机场景生成器生成了由大量对象组成的场景,包括来自卢浮宫雕塑的3D扫描以及合成球体、立方体和3D曲线。物体随机放置在3D空间中,深度范围从25厘米到10米不等。
由此产生的对象集合令人眼花缭乱,但这是一种可以解决随机场景生成器视觉问题的疯狂方法。这种不自然且丰富的几何形状和遮挡物具有比现实生活中更多种类的纹理、表面和其他特征,可以作为DeepFocus深度学习系统的一个焦点分析训练营,让DeepFocus能够为它未见过的VR体验渲染模糊效果。
“这是我第一次与技术美术密切合作”,Lei Xiao说。像Matt Chapman这样的技术美术在研究机构中很少见,但对于Facebook Reality Labs的AR和VR创新方法至关重要。
“Matt和我进行了大量的迭代来改进随机场景生成器,从微调物体分布、纹理和材料到减少渲染真实图像所需的时间”,Lei Xiao说。总的来说,他们使用随机场景生成器绘制了19.6万张图像对系统进行训练,使DeepFocus能够理解如何在最多变和最不熟悉的VR环境中进行模糊渲染。
在接下来的一年中,DeepFocus团队成长为包括视觉科学家Zannoli以及研究科学家Alexander Fix和Anton Kaplanyan的团队,他们帮助设计了系统的深度学习方法。
Facebook Reality Labs的图形研究团队负责人Kaplanyan表示:“所有先前渲染高度逼真的模糊物体的方法都是基于人工数学模型,在一些极端情况和限制下会导致低质量的结果和伪影。通过深度学习,我们的系统能够掌握复杂的效果和关系,例如前景和背景散焦,以及遮挡边界处的正确模糊处理。通过生成丰富的实例数据库,我们能够覆盖更广泛的散焦效应,并为景深合成设立了新的标准。”
Facebook Reality Labs的软件研发工程师Salah Nouri也参与了该项目,以帮助证明DeepFocus实际上可以在Half Dome上运行,并能够使用当前的处理器以适合VR的分辨率实时渲染模糊效果。
“当我加入团队时,神经网络架构已经建立起来了,它的表现不错,能够以1080p分辨率运行常规PC或主机游戏”,Nouri说道,他在加入Facebook Reality Labs之前曾参与过3A游戏制作。“但我们至少需要将性能提高四倍,因为VR的需求更高。”
Nouri能够在拥有四块GPU的电脑上演示DeepFocus和Half Dome,尽管这样的电脑配置比消费者目前使用的主流配置要高得多,但仍然是一项重大的技术壮举。“我们需要非常小心地在四个GPU之间进行并行工作,让它们之间的内存传输形成一个流水线,这样四个GPU之间的并行工作才不会引入任何额外的延迟或者是计算开销”,Nouri说。
Facebook Reality Labs并没有满足于这项技术的软硬件,他们的最终目标是在单个GPU上以VR头显目前的分辨率进行实时模糊渲染。但他们在SIGGRAPH Asia大会上展示的四GPU渲染演示和研究代表了一个重要的里程碑,无论是在将人工智能技术集成到图形渲染的层面,还是开发新的更具沉浸感更逼真的VR体验层面。
“我们想看看实时模糊渲染可以为VR带来些什么”,Lanman说,“所以它需要被用于真正的VR游戏中。我们做到了,这解锁了一个认知上的新宇宙。“
借助DeepFocus和Half Dome这两样工具,我们现在可以更好地了解真实性对于用户在VR和AR中的体验做出了怎样的贡献。虽然我们目前在Half Dome上使用DeepFocus这项技术,但DeepFocus这一基于深度学习的散焦渲染系统是与硬件无关。
Facebook Reality Labs的研究报告显示,除了在变焦显示器上进行实时模糊渲染外,DeepFocus还可以支持高质量的多焦点和光场显示图像合成。这使这一系统适用于所有将被广泛使用的下一代头戴式显示器技术。
将DeepFocus的源代码和训练数据开源,不仅为开发新VR系统的工程师提供了框架,也为视觉科学家和长期研究感知问题的其他研究人员提供了框架。例如,我们的视觉系统如何利用环境中的模糊画面来重新让我们的眼睛聚焦?模糊的画面可以告诉我们的大脑哪些关于世界三维结构的信息?
DeepFocus可能是实时模糊渲染的最后一块拼图,但这套系统所能提供的尖端研究才刚刚开始。
来源:87870