機器之心 - VR絲滑全景指日可待？谷歌這個360° NeRF讓人看到未來－鑽石舞台

Mar 09 Wed 2022 22:02
機器之心 - VR絲滑全景指日可待？谷歌這個360° NeRF讓人看到未來

選自arXiv

機器之心編輯部

NeRF 家族的 360° 全景 3D 效果真是越來越絲滑了。

前段時間，CVPR 2022 公布了今年的論文接收結果，同時也意味着投稿的論文終於熬過了靜默期。不少作者都感嘆：終於可以在社交媒體上聊聊我們的論文了！

今天要介紹的論文來自谷歌研究院和哈佛大學。谷歌研究科學家、論文一作 Jon Barron 表示，他們開發了一種名為 Mip-NeRF 360 的模型，該模型能夠生成無界場景的逼真渲染，給我們帶來了 360° 的逼真效果和漂亮的深度圖。

下面是幾張效果圖：

這麼好的效果什麼時候能讓 VR 頭盔用上

作者回答說，「我們已經可以在瀏覽器 (http://nerf.live) 或桌面 GPU (https://nvlabs.github.io/instant-ngp/) 上實時渲染 NeRF，所以把它放到 VR 頭盔上應該是可行的。」

論文概覽

神經輻射場 (NeRF) 通過在基於坐標的多層感知器 (MLP) 的權重內編碼場景的體積密度和顏色，來合成高度逼真的場景渲染。這種方法在逼真的視圖合成方面取得了重大進展 [30]。然而，NeRF 使用 3D 點對 MLP 的輸入進行建模，這在渲染不同分辨率的視圖時會導致混疊。

基於這個問題，Mip-NeRF 擴展了 NeRF ，不再對沿錐體的體積截頭體進行推理 [3]。儘管這樣做提高了質量，但 NeRF 和 mipNeRF 在處理無界場景時會遇到挑戰，無界場景中的相機可能面向任何方向並且場景內容可能位於任何位置。

在這篇論文中，研究者提出了對 mip-NeRF 的擴展 ——mip-NeRF 360，它能夠生成這些無界場景的逼真渲染（圖 1）。

將類似 NeRF 的模型應用於大型無界場景會引發三個關鍵問題：

參數化問題。mip-NeRF 要求將 3D 場景坐標映射到有界域，所以無界的 360 度的場景會占據無窮大的歐式空間區域。

效率問題。巨大且細節化的場景需要巨大的網絡容量，所以在訓練期間，頻繁地沿每條射線去查詢巨大的 MLP 網絡會產生巨大的消耗。

歧義問題。無界 360 度場景的背景區域明顯比中心區域的光線稀疏。這種現象加劇了從 2D 圖像重建 3D 內容的固有模糊性。

基於上述問題，研究者提出了 mip-NeRF 的擴展模型，它使用非線性場景參數化、在線蒸餾和新穎的基於失真的正則化器來克服無界場景帶來的挑戰。新模型被稱為「mip-NeRF 360」，因為該研究針對的是相機圍繞一個點旋轉 360 度的場景，與 mip-NeRF 相比，均方誤差降低了 54%，並且能夠生成逼真的合成視圖和詳細的深度用於高度複雜、無界的現實世界場景的地圖。

論文鏈接：https://arxiv.org/pdf/2111.12077.pdf

視頻解讀：https://www.youtube.com/watch?v=zBSH-k9GbV4

技術細節

讓 mip-NeRF 在無界場景中正常工作存在三個主要問題，而本文的三個主要貢獻旨在解決這些問題。接下來，讓我們結合作者給出的解讀視頻來了解一下。

第一個問題是在表示方面，mip-NeRF 適用於有界坐標空間中，而非無界場景，研究者使用一種看起來很像是一種擴展版的卡爾曼濾波器將 mip-NeRF 的高斯函數扭曲到非歐式空間中。

第二個問題是，場景通常是細節化的，如果想將 mip-NeRF 用於無界場景，可以將網絡變得更大，但是這樣會讓訓練速度變慢。所以，在優化階段，研究者提出訓練一個較小的 MLP 來限制空間大小，這可以讓訓練速度變快三倍。

第三個問題是，在更大的場景下，3D 重建的結果會變得較為模糊，產生偽影。為了解決這個問題，研究者引入了一種新型正則化器，專門用於 mip-NeRF 中的射線間隔。

首先來談第一個問題，以一個有着三個攝像頭的平地場景為例，在 mip-NeRF 中，這些相機將高斯函數投射到場景中。在一個大的場景，這導致高斯函數逐漸遠離原點並且被拉長。這是因為 mip-NeRF 需要基於有界的坐標空間並且高斯函數在某種程度上是各向同性的。

為了解決這個問題，研究者定義了一個扭曲函數，來平滑地將藍色圓（Unaffected Domain）外部的坐標映射到橙色圓（Contracted Domain）內。扭曲函數旨在消除 mip-NeRF 中的高斯非線性間距的影響。

為了將這種扭曲應用於 mip-NeRF 中的高斯函數，研究者使用了一個擴展版的卡爾曼濾波器，這樣一來，沒有邊界的場景就可以被約束到橙色圓內，橙色圓內是一個非歐式空間，其中的坐標就是 MLP 的輸入。

為了能理解論文中的在線蒸餾模型，我們首先需要介紹 mip-NeRF 是如何訓練以及採樣的。在 mip-NeRF 中，首先需要定義一組大致均勻分布的區間，可以理解為直方圖中的端點。如圖所示，每個間隔的高斯都被送入 mlp，並且得到直方圖權重 w^c 和顏色 c^c。然後將這些顏色加權後得到像素點的顏色 C^c。之後這些權重被重採樣，並得到一組新的區間，並且在場景中有內容的地方，端點就會較為聚集。

這個重採樣可以多次進行，但為了方便在這裡只顯示一個。這個新的區間中的數據被送入同一 MLP 來得到一組新的權重和顏色，然後再通過加權得到像素點的顏色 C^f。mip-NeRF 只是最小化所有渲染像素值和輸入圖像真實像素值之間的重構損失。只有精細的顏色被用來渲染最終的圖像是非常浪費的。

粗略渲染需要有監督學習來完成的唯一原因是幫助指導精細直方圖的採樣，這一觀察激發了文中模型的訓練和採樣過程。研究者從一組均勻分布的直方圖開始，將它們送入提出的 MLP 以產生一組權重，但不產生顏色。

這些權重會被重新採樣，同樣這個過程可以重複多次，但他們在視頻中只展示了一個重採用過程。他們提出的 mlp 產生的最後一組區間被送入另一個 mlp，該 mlp 的行為與 mip-NeRF 中的完全相同，他們將其稱為 NeRF mlp。NeRF mlp 為他們提供了一組可以用於渲染像素顏色的權重和顏色。

研究者將通過監督學習的方式，使得像素渲染得到的顏色接近真實圖片中的顏色。他們讓監督輸出權重與 NeRF mlp 的輸出權重一致，而不是監督文中提出的 mlp 來重建圖像。這種設置意味着只需要經常去訪問一個較小的 mlp，而較大的 NeRF mlp 則不需要太多的訪問次數。