遊戲葡萄 - 網易研究五年的AI技術，應用一次最多能省幾十萬？－鑽石舞台

利用AI技術生產美術資源。

整理/以撒

要聊工業化，就肯定避不開程序化生成這樣的技術手段。在這個方向上再進一步，則是近年來相當熱門的AI技術。這絕對是一個能讓所有團隊心動的領域，畢竟AI的潛力極大，如果應用得當，能免去大量繁瑣的底層執行工作。

在研發流程中，大概要數美術資源產出對這種應用需求最為迫切。但想要在這方面用好AI，到底要從哪些模塊入手，又需要落實什麼樣的工具和研究？這種經驗可能相當寶貴。

最近，來自網易互娛AI Lab的陳康，在網易互娛學習發展4月19日舉辦的2022 N.GAME網易遊戲開發者峰會上，分享了他們近幾年利用AI技術生產美術資源的一些嘗試。他目前負責互娛AI Lab滬杭團隊圖形學、3D視覺和語音方向的技術研發和落地。

以下為陳康的分享內容，為方便閱讀，有部分刪減與調整：

美術資產的生產過程，類似一條工業流水線，一環套一環。尤其是在玩家越來越挑剔、遊戲行業越來越激烈的情況下，這塊的開銷一直是遊戲研發成本的大頭。像是現在的3A大作，如果不支持開放世界，已經不好意思說自己是本世代遊戲了。

開放世界是怎麼打造開放感的？簡單來說就是儘量多地生產內容。比如《刺客信條》《孤島驚魂》這種級別的遊戲，地圖動不動就幾十平方公里，這種規模按傳統方式製作已經不現實了。所以如今的遊戲開發會最大程度利用程序化手段。

而我們的工作，本質上就是要在程序化生產這條主線下，引入一些AI技術手段，從而實現一些傳統方案無法做到的效果。下面我來介紹一下我們在原畫、模型和動畫三個方面做過的一些嘗試。

原畫

在原畫方面，我們做了兩個輔助創作的工具。第一個工具用於二次元角色線稿的自動上色，並且可以生成多套不同的上色方案，主要作用是在設計二次元形象時，為美術提供一些色彩搭配的靈感。

第二個工具用於人臉的生成和編輯，它可以基於美術繪製的人臉線稿生成真實人臉照片，並且允許編輯人臉的一些屬性。這裡展示的，是修改人臉年齡後的結果。

由於互聯網上的人臉數據非常豐富，人臉結構也相對比較簡單，所以目前這個工具可以生成非常高清的人臉照片。在設計一些寫實類角色時，美術可以參考這些素材進行二次創作。

當然，我知道很多同學對AI在原畫方面的應用還有更高的期待。比如說利用GAN或風格遷移等技術直接生成場景原畫，這也是AI技術最早出圈的一批應用。不過目前想要落地還稍微有點困難，倒不是說技術本身有什麼問題，主要是因為遊戲原畫設計追求的不一定是真實，更多是一種特定藝術風格下的視覺表達。

我們隨便找一幅遊戲畫面對比一下，就會發現這種圖片跟日常照片有明顯區別。在當前的數據條件下，想生成這種級別的AI模型還比較困難。所以如何讓AI在原畫設計方面發揮更多的作用，也是我們未來的重點方向之一。

模型

在模型方面，我們的主要工作圍繞在人臉模型上。首先簡單介紹一個基礎設施——三維參數化人臉模型，這是一個基於大量三維掃描得到的三維人臉數據製作出來的雙線性模型，有臉型和表情兩個維度，簡單說就是任意給定一組臉型參數、一組表情參數，就會得到一個對應參數下的三維人頭模型。

在2018年，我們自己掃描並製作了一套高質量的三維參數化人臉。當時一共採集了500個中國人的數據，其中男女各占一半，年齡段涵蓋10-60歲，每個人掃描了7套表情，相當於一共採集了3500個人頭。

我相信很多從事相關研究的同學對這個模型概念非常熟悉，這是由一篇1999年的SIGGRAPH論文提出的概念，專業名稱叫3DMM，目前學術界有一些很出名的開源3DMM數據。那我們為什麼不直接用這種開源模型呢？主要有三方面原因：

首先是版權問題，我們希望這套技術真的能在遊戲產品中用起來；

其次是精度問題，這些開源模型的精度距離實際遊戲的標準還有不小的差距，我們早期做實驗也會使用這些模型，但是美術會對質量非常嫌棄。所以我們自己採集時，每一個人頭後續都人工精修過；

最後是人種問題，這些開源模型一般都是歐美機構發布的，他們採集的對象主要是歐美的高加索人種。這種明顯的高鼻樑、深眼窩特點，一看就不是亞洲人，所以我們果斷決定自己製作一套。

在AI領域，參數化人臉的主要作用是提供關於人臉的三維形狀先驗，所以製作好的參數化三維人臉模型可以用於從二維照片中重建三維人臉模型。我們這套參數化人臉模型，在東亞人臉照片上取得了非常好的重建效果。

當然，由於單視角照片會在深度方面存在缺失，很難還原類似鼻樑高度、眼窩這方面的特徵，所以我們也開發了一套多視角的重建算法。如果條件允許，可以拍攝演員的多張照片進行重建。大家可以對比一下——右邊多視角的重建結果對演員鼻子形狀的還原程度，要比單視角高非常多。

除了從照片中重建三維模型，這套參數化人臉還有一個更重要的應用，就是為遊戲批量生成人頭模型。如果遊戲的人頭資源標準跟我們庫里的標準一致，就可以直接在參數化人臉模型的參數空間採樣，把採樣模型給到遊戲項目使用。

當然，這種情況一般不太多。因為每個遊戲都會有自己特定的需求，有些遊戲的角色甚至都不是傳統意義上的人頭。所以更常見的一種生成方式，是對項目組的模型進行自動批量變形。簡單來說，就是把我們生成的模型相對於平均臉的變化，遷移到項目組的模型上面。這種遷移的變化可以是表情，可以是臉型，並且所有變形都可以用項目規定的骨骼蒙皮進行表達。

這是一組我們生成的結果，最左邊是項目組提供給我們的角色模型。我們可以根據這個模型自動批量生成一批風格相同，但臉型和五官有明顯區別的模型，並且每個模型都可以生成一套表情。也就是說，項目組只需要做一個靜態模型，我們就能自動批量生成很多綁定好的模型。這對追求千人千面的開放世界遊戲非常有價值，可以以非常低的成本讓遊戲裡的每個NPC看起來都不一樣。

這是我們對兩個Metahuman模型變形後的效果，可以看到我們生成人頭模型與原始的資源標準是完全兼容的。而且以這個變形質量生成的模型，作為實際遊戲的頭模也綽綽有餘，大家要知道，像Metahuman這種級別的模型，一個頭的成本，保守一點計算都要小几十萬人民幣，所以這個技術是非常有價值的。

為了進一步豐富我們的三維人頭數據，我們也在杭州園區設計和搭建了一套三維掃描實驗室。左邊是我們的設計圖，右邊是搭建完成後的實物。這是一個正20面體，一共包含53台單反和150組定製LED燈光。後續我們還會在網易的廣州和上海園區，分別搭建一套更大的，可以掃描全身的設備。

三維掃描的原理其實非常簡單——利用攝影測量算法，從多視角照片中計算人頭的三維點雲。這是我們系統掃描的一組樣例，這個精度可以對標國內外一線掃描服務供應商。

這套設備150組定製的LED燈光，也是我們花很高成本定做的。每一盞燈的開關和亮度可以獨立控制，每一組燈光包含三個燈頭，分別安裝了一個普通無偏振的UV鏡和兩個偏振鏡。這兩個偏振鏡相對於相機上安裝的偏振鏡方向一個是平行的，一個是垂直的。

了解攝影的同學應該很熟悉偏振鏡的用法，這是一種很常用的UV鏡，主要用於非金屬物體表面一些不必要的反射光，可以還原物體本身的顏色。

無偏振鏡/有偏振鏡

偏振鏡的原理大家在中學物理就學過——光既是粒子、也是一種電磁波，它的振動方向與傳播方向是垂直的，這種類型的波叫橫波，所有的橫波都具有偏振現象。簡單來講，光的偏振方向與偏振鏡方向平行，那麼所有能量都會通過；如果是垂直的，那麼所有能量都會被過濾。

基於這個原理，我們只要給掃描物體拍攝4組平行偏振光和4組交叉偏振光的燈光下照片，就可以算出物體表面的材質，也就是漫反射、高光和法線的信息。每組照片都要首先打開所有燈光，然後是按照燈光在三維空間的坐標值遞減亮度，XYZ三個方向分別可以產生一組燈光。

目前這套設備我們剛剛搭建完成，在人臉材質掃描方面也是剛剛起步，後續我們會逐漸加大投入。

動畫

最後是動畫部分，這是我們這幾年工作的重心。前面提到，遊戲研發總成本的大頭一般是美術資產，那麼美術資產成本的大頭一般就是動畫。因為原畫、模型雖然也很貴，但大部分屬於一次性開銷，而動畫則需要配合劇情持續產出，且高質量動畫一分鐘的製作成本很輕鬆就可以過萬。

在這方面，我們首先在光學動捕數據的清洗方面做了一些工作。光學動捕會在緊身動捕服表面設置很多標記點，通過多視角紅外相機跟蹤這些點的坐標，並算出人體骨骼的旋轉、平移信息。當然，這些數據不可避免會有錯誤，所以會有專人負責清洗標記點。

資深的動捕美術直接看標記點的軌跡曲線，就能知道出現了什麼錯誤、怎麼修改，這也是目前動捕工作流中主要的人工工作量。

2018年，育碧提出了一種通過AI模型來取代這個過程的算法，發表在了SIGGRAPH上；2019年，網易投資了一家法國3A遊戲工作室Quantic Dream，也就是《底特律：變人》的研發商。當時我們開始有一些技術合作，他們提出需求後，我們跟進了相關研究。一年多之後，我們找到了一種精度更高的解決方案，也發表在了SIGGRAPH上。

目前我們已經把這套算法，以vicon軟件的插件形式部署在了網易互娛和Quantic Dream的動捕工作流中。這裡是一個例子：這是原始含噪音的標記點，閃來閃去的就是局部噪音，留在原地的就是跟丟的那些點，這是暫時調用我們算法得到的清洗結果。

接下來介紹幾個我們部門落地最多的項目：首先是一套基於普通單目攝像頭的輕量級面部動捕系統，基本原理就是利用前面的三維參數化人臉模型，對視頻中演員的臉型、表情頭部姿態進行回歸，把回歸得到的係數重定向到遊戲角色上。

當然，我們也會配合一些CV檢測和識別模型，加強算法對眨眼、視線、舌頭和整體情緒的捕捉精度。這個項目我們從2018年開始做，前前後後差不多有十位同事參與。其中所有算法模塊都是我們自己開發，打磨到現在已經是一套非常成熟的in-house面部動捕解決方案。

圍繞這套算法，我們還打造了一整套工具鏈，有實時的動捕預覽工具，有針對動捕結果進行離線調整和編輯的工具，還有Maya/Max里的動捕數據重定向插件。另外為了方便項目組接入面部動捕系統，我們還開發了一套專門適配自家算法的面部自動綁定插件。此外，核心算法我們還打包了全平台的SDK，在iPhones 6s以上的機器，可以做到單核單線程實時。

這套系統在遊戲裡有非常多的應用場景，首先就是輔助動畫師製作正式的遊戲動畫資源。相比於傳統一幀一幀手k，採用動捕方案的製作效率有明顯優勢。而且只要演員表演到位，效果跟美術手k幾乎看不出來區別；

其次，它可以給營銷同學快速產出一些面部動畫素材，營銷場景的特點是精度要求沒那麼高，但時效性要求很高，因為慢了就跟不上實時熱點了。我們這種輕量級方案非常適合這種場景，比如某段短視頻火了，用這套工具可以快速產出面部動畫素材；

另外，因為我們的算法會提供全平台SDK，所以也可以打包在遊戲客戶端里，給玩家提供一些UGC玩法。比如我們在《一夢江湖》里上線的顏藝系統，可以讓玩家錄製自己的表情動畫。右上是我在B站上找到的一個視頻——玩家錄製的打哈欠動畫；

最後，這套算法還可以支持一些虛擬主播場景，比如《第五人格》禿禿杯電競比賽的虛擬解說、雲音樂look直播的虛擬主播，用的都是我們這套技術。

另外，我們還配合高精度三維掃描設備，測試了面部動捕算法在超寫實模型上的效果。我們雇了一位國外模特掃描模型，用模特錄製的視頻來驅動他對應的角色，以便更好地對比表情還原度。

右邊這位模特是我們部門的一位同事。從效果上可以看到，不管是掃描重建還是面部捕捉，我們的技術都足夠支持這種高精度場景。

跟面部動捕類似，我們也做了一套輕量級基於普通攝像頭的身體動捕系統，支持單視角、多視角輸入，原理類似於前面的面部捕捉，同樣也會配合一些CV模型提升優化結果的合理性。這個項目我們打磨了兩年時間，目前效果和穩定性都相當不錯。

這是在冬奧結束之後，我們用這項技術為《哈利波特：魔法覺醒》項目製作的視頻，當時很快就衝上了微博熱搜。

如果按傳統製作方式，這種營銷策劃案是不太可能實現的，因為要找到能還原這套動作的演員，還要約演員和動捕棚的檔期，一套下來沒有六位數開銷和一個多月製作周期的話，是很難完成的。但是用這套AI方案，成本就可以忽略不計。

這是更早時候，我們與《大話西遊》項目組合作的一段視頻。當時請了B站舞蹈區的一位知名Up主，用三部手機錄了這套舞蹈動作，用我們的動捕算法得出數據，重定向到《大話西遊》的角色上。

另外，我們還為《明日之後》項目組製作了一些動畫素材，只用了一個單目攝像頭捕捉身體和面部動作，並且只要拍得足夠清晰，手指動作也可以準確捕捉。

除了基於視頻輸入以外，我們還做了基於音頻輸入生成動畫的技術，比如從語音輸入生成角色面部和肢體動畫的工具鏈。這項技術我們在2018年就已經應用於不少遊戲，當時做得還比較簡單，只支持口型和幾種簡單的基礎情緒。後來我們做了持續的基礎升級和迭代，增加了語音驅動頭動、眼動、手動、面部微表情，還有肢體動作等等。

另一個從音頻輸入生成動畫的工作，是基於音樂生成舞蹈動作。這項工作我們從2018年開始研究，經過幾年迭代最終形成了一套方案，詳細的技術方案在論文裡有介紹，這裡主要展示實際落地效果：首先是二次元女團舞；

這是一段韓舞的動畫，也是網易CC直播年度盛典的開場舞蹈。

另外，我們也會用一些網絡熱門歌曲合成舞蹈。去年聖誕節時，我們用I.F.製作的B站互動視頻，其中所有動畫都是通過AI技術生成的。目前這套解決方案已經相當成熟，在內部經過了大量項目的驗證，也在持續為項目組輸出動作資源。

結語

最後簡單總結一下：AI技術對程序化美術資源生成能產生明顯的促進作用。而且根據我們的實踐經驗，在人臉、人體的模型和動畫方面，它甚至可以在一定程度上取代一些初級執行向美術的工作。並且利用我們的AI方案，普遍可以比傳統方案提升5-10倍的製作效率。

但目前想讓AI從事一些更高級的工作還比較困難，主要難點是高質量數據比較稀缺。大家都知道數據是AI的核心，AI模型有多少能力，很大程度上取決於人給了模型多少有價值的數據。但是遊戲資產的獲取門檻還是很高的，這跟照片、語音、文字這種所有人日常都在生產的數據不太一樣。

比如在某個景點看到一個很有特色的雕塑，絕大部分人的反應可能是掏出手機，拍一張照片記錄一下，但幾乎不會有人掏出電腦現場建個模。當然，隨着技術進步，遊戲資源的製作門檻肯定會越來越低，而且像元宇宙這樣的熱門應用場景，本身也要求遊戲廠商讓廣大玩家參與到虛擬世界的內容創造過程中來。

所以我相信，隨着數據的持續積累，未來AI技術也有可能從事一些更高級的工作，這也是我們的努力方向，謝謝大家。

網易遊戲2022N.GAME峰會將於4月18日-21日每天下午三點直播，點擊「閱讀原文」即可查看。

鑽石舞台

鑽石鑽石亮晶晶

遊戲葡萄 - 網易研究五年的AI技術，應用一次最多能省幾十萬？

歷史上的今天

留言列表

文章搜尋

最新文章

熱門文章

誰來我家

參觀人氣