close

「點擊上方"GameLook"↑↑↑,訂閱微信」

2022N.GAME網易遊戲開發者峰會(以下簡稱峰會)於「4月18日-4月21日」舉辦,本屆峰會圍繞全新主題「未來已來 THE FUTURE IS NOW」,共設置創意趨勢場、技術驅動場、藝術打磨場以及價值探索場四個場次,邀請了20位海內外重磅嘉賓共享行業研發經驗、前沿研究成果和未來發展趨勢。

在19日的技術驅動論壇上,網易互娛AI Lab技術經理陳康帶來了題為《當技術碰撞藝術——基於AI的美術資源生產》的演講,就AI的美術資產生產流程,尤其是利用AI在原畫、模型和動畫方面的嘗試進行了探討與分享。

以下是演講實錄:

陳康:大家好,我是來自網易互娛AI Lab的陳康,目前負責互娛AI Lab滬杭團隊,圖形學、3D視覺和語音方向的技術研發和落地。很高興有這個機會給大家分享一下我們部門從17年底成立到現在,在基於AI的美術資源生產方面做過的一些嘗試。

首先,什麼是美術資源呢?這在遊戲行業其實是一個專有名詞,也叫美術資產。

我們這邊以《一夢江湖》和《王牌競速》兩款遊戲為例:一個偏古風的、一個偏現代的,藝術風格上是有明顯差異,但共同點是你在畫面里看到的所有東西。比如說人物、人物上看到的衣服、遠處的建築、植物、甚至車輛,甚至界面上的這些按鈕圖標,其實都是美術同學在DCC軟件或者遊戲引擎中製作出來的,所以這些東西都屬於美術資產。

遊戲行業發展到今天,在美術資產製作方面已經形成了一套非常成熟的工業化、流水線生產的解決方案。

我們以我們部門的虛擬技術代言人、同時也是峰會的虛擬主持人i.F. 為例,給大家簡單介紹一下常見美術資產的製作過程。

假設你作為一名策劃同學,想要美術幫你製作一個這樣的角色,你會怎麼跟他表達需求呢?你可能會說你想要活潑可愛的二次元妹子、處於青春期的年齡段、可能性格有點呆萌……但這種描述其實都是很主觀、抽象的描述。

比如都是二次元,《陰陽師》那種二次元和《原神》那種二次元是有很大的差異。基於這種模糊的描述,美術是沒法直接製作三維模型的。因為在這過程中肯定需要不停的迭代需求,甚至有可能推翻重做,所以在三維模型環節進行這種角色設計層面的迭代,成本是非常高的。

所以策劃的需求一般會先給到原畫師,原畫師會首先把這些抽象的描述轉化成具體的形象,所有形象設計層面的修改和迭代都是在原畫階段完成的,這邊展示的就是i.F.的角色原畫。

當然在設計過程中,原畫師肯定會融入的自己理解,提出一些修改,因為在設計這個領域美術要比策劃專業的多。比如IF這個形象,頭上帶的這個像兔子耳朵一樣的耳機,就是原畫同學自己設計出來的。因為我們的需求是製作一個青春可愛的技術代言人,現在就可以在保持角色可愛風格的同時,體現出一定科技元素。

角色的原畫設定圖完善之後,就會進入模型環節。模型師會參考這個形象製作三維模型和對應的材質貼圖。這邊對模型師的要求就是,製作完成的模型和貼圖放到遊戲引擎之後,最大程度能夠還原原畫設計的形象。如果是靜態物體的話,一般這一步做完就結束了,後面就直接交給場景編輯師在遊戲引擎中搭建遊戲場景就可以了。

但是遊戲角色的話其實他是要能動起來的,所以模型製作完成後還要交給綁定師架設骨骼、蒙皮、一些變形體,然後製作綁定控制器,也就是角色身上的這些奇怪的線圈和右邊的面板。通過操縱這些東西,就可以驅動角色做出一些對應的動作。

綁定好的角色會交給動畫師,動畫師會採用動作捕捉,或者手動設定關鍵幀的方式製作動畫資源。整個生產過程其實非常類似一條工業流水線,一環套一環。每一款成品遊戲的美術資源都是由大量美術勞動力堆起來的,這一塊的開銷也一直是整個遊戲研發成本的大頭。

現在玩家也是越來越挑剔,遊戲行業的競爭也越來越激烈。比如現在的這些3A大作,如果不支持開放世界已經不好意思說自己是本世代遊戲了。

那開放世界是怎麼讓你覺得有開放感的呢?其實簡單來說就是儘量多的生產內容、產出足夠多主線以外的內容,你就會覺得這個遊戲有非常好的開放內容。比如說《刺客信條》、《孤島驚魂》這種級別的經典的開放世界沙盒遊戲,地圖動不動就幾十平方公里,這種規模的地圖你按照傳統方式製作已經不現實。所以目前大量的程序化手段被應用到了遊戲開發過程中。像程序化地形、建築、植物這些都已經是很常見的做法了。

目前在遊戲行業的整個趨勢就是最大程度的利用程序化製作美術資源,那怎麼來理解基於AI的美術資源生產呢?

其實簡單說AI就是一種程序,所以我們做的工作本質上是在程序化生產這條主線下引入一些AI的技術手段,從而實現一些傳統方案無法做到的效果。並不是因為說AI技術火了以後我們生造出來的一個方向,這個因果關係是需要大家正確理解。

下面我就給大家介紹一下,我們部門在原畫、模型和動畫三個方面做過的一些嘗試。

首先是原畫方面的,我們在這塊做了兩個輔助創作的工具。

第一個應用是對二次元角色的線稿進行自動上色的工具,並且可以生成多套不同的上色方案。主要作用是給美術在設計二次元形象時,提供一些色彩搭配上面的靈感。

第二個工具是人臉的生成和編輯工具,這個工具可以基於美術繪製的人臉線稿生成真實的人臉照片,並且允許對生成的人臉的一些屬性進行編輯,這裡展示的是對人臉的年齡進行修改後的結果。由於互聯網上人臉是數據非常豐富的,人臉的結構相對也比較簡單,所以目前這個工具是可以生成非常高清的人臉照片的。作為美術在設計一些寫實類角色時,是可以參考這些AI合成的人臉進行二次創作。

當然,我知道很多同學對AI在原畫方面是有更高的期待的。比如說利用GAN或風格遷移等技術直接生成遊戲的場景原畫,因為這也是AI技術最早出圈被大家知道的這一批應用。不過目前想要實際落地還是稍微有點困難的,倒不是說技術本身有什麼問題,主要是因為遊戲原畫設計追求的不一定是真實,更多是一種特定藝術風格下的視覺表達。

我們隨便找一幅遊戲畫面對比一下,這種圖片跟日常照片是有明顯區別的。在當前的數據條件下,想生成一個這種級別的AI模型還是比較困難。所以,如何讓AI在原畫設計方面發揮更多的作用,本身也是我們未來的重點努力方向之一。

接下來是模型方面,在這一塊我們的主要工作圍繞在人臉模型。

首先簡單介紹一個基礎設施叫三維參數化人臉模型,這是一個基於大量三維掃描得到的三維人臉數據製作出來的雙線性模型,有臉型和表情兩個維度。簡單說就是任意給定一組臉型參數、一組表情參數,就會得到一個對應參數下的三維人頭模型。

我們在18年時候,自己掃描並製作了一套高質量的三維參數化人臉。當時一共採集了500個中國人,裡面男女各占一半,年齡段涵蓋10-60歲,每個人掃描了7套表情,所以一共採集了3500個人頭。在這塊我們是投入了不小的成本的,這個工作我們在去年的遊戲開發者大會GDC上也做過一次分享。

我相信很多從事三維人臉相關研究同學的對這個模型概念非常熟悉的,這是由一篇1999年的SIGGRAPH論文提出來的概念、專業名稱叫3DMM,目前學術界其實是有一些很出名的開源3DMM數據的。

那我們為什麼不直接用這種開源模型呢?主要有三方面原因:首先是因為版權問題,因為我們希望我們這套技術是真的能夠在遊戲產品能夠用起來的。其次是因為精度的問題,因為這些開源模型的精度其實距離實際遊戲的標準還是有不小差距的。我們早期做實驗用的也是這些模型,但是美術同學對這些開源模型的人和質量是非常嫌棄,所以我們自己採集人頭的時候,每一個人頭後續都是發包人工精修過的,所以質量是很高的。

最後一個原因就是人種問題,因為這種開源模型一般都是歐美機構發布的,他們採集的對象也主要是歐美的高加索人種,你看你會發現這種明顯的高鼻樑、深眼窩特點,一看就不是亞洲人。基於這些原因,我們果斷決定自己製作一套這樣的模型。

在AI領域,參數化人臉的主要作用是提供關於人臉的三維形狀先驗,所以製作好的參數化三維人臉模型,可以用於從二維照片中重建三維人臉模型。我們這套參數化人臉模型,在東亞人臉照片上取得非常好的重建效果。

當然,由於單視角照片會存在一些深度方面的缺失,很難還原類似鼻樑高度,眼窩這方面的特徵,所以我們也開發了一套多視角的重建算法。如果條件允許的話可以拍攝演員的多張照片進行重建,這邊大家可以對比一下,右邊多視角重建結果對演員鼻子形狀的還原程度,是要比單視角高非常多。

除了從照片中重建三維模型,這套參數化人臉還有一個更重要的應用,就是批量給遊戲生成人頭模型。如果遊戲的人頭資源標準跟我們庫里的人頭標準一致的話,就很簡單了。可以直接在參數化人臉模型的參數空間採樣,把採樣模型給到遊戲項目使用。

當然這種情況一般不太多,因為每個遊戲都會有自己特定的需求,有一些遊戲的角色甚至都不是傳統意義上的人頭,所以一個更常見的生成方式是對項目組的模型進行自動批量變形。簡單來說就是把我們生成的模型,生成的模型相對於平均臉的變化遷移到項目組的模型上面去,這種遷移的變化可以是表情、也可以是臉型,並且所有變形都可以用項目規定的骨骼蒙皮來進行表達。

這是一組我們生成的結果。最左邊是項目組提供給我們的角色模型,我們可以根據這個模型自動批量生成一批同風格。但臉型和五官有明顯區別的模型,並且每個模型都可以生成一套表情。也就是說,項目組只需要做一個靜態模型,我們就能自動批量生成很多綁定好的模型。這對這種追求千人千面的開放世界遊戲其實是非常有價值的,可以以非常低的成本讓遊戲裡的每個NPC看起來都不一樣。

這是我們對兩個Metahuman模型變形後的效果,從上面可以看到我們生成人頭模型跟原始的資源標準是完全兼容,而且以這個變形質量生成的模型作為實際遊戲的頭模也是綽綽有餘的。大家要知道,像Metahuman這種級別模型,一個頭的成本,保守一點計算都要小几十萬人民幣,所以這個技術是非常有價值的。

為了進一步豐富我們的三維人頭數據,我們也是搭建了一套自己的三維掃描實驗室。目前是在杭州園區搭建了一個專門掃描人頭的設備,左邊是我們的設計圖,右邊是搭建完成後的一個實物。

這是一個正20面體,一共包含53台單反和150組定製led燈光,整套系統都是我們自己設計和搭建的,後續的話我們還會在網易的廣州和上海園區,分別搭建一套更大的可以掃描全身的設備。

三維掃描的原理其實非常簡單,簡單說就是利用攝影測量算法,從多視角照片中計算人頭的三維點雲。這是我們系統掃描的一組樣例,這個精度是可以對標國內外一線掃描服務供應商的,這是基於我們的掃描流程製作的一組表情基的效果。大家可以看到,掃描模型對演員面部細節的還原程度是非常高的。

剛才說我們這套設備是有150組定製的LED燈光,這組燈光也是我們花了很高的成本定做的。每一盞燈的開關和亮度是可以獨立控制的。每一組燈光包含三個燈頭,分別安裝了一個普通無偏振的uv鏡和兩個偏振鏡,這兩個偏振鏡相對於相機上安裝的偏振鏡方向,一個是平行的,一個是垂直的。

對攝影比較熟悉的同學應該很熟悉偏振鏡的用法,這是一種很常用的uv鏡,主要用於非金屬物體表面的一些不必要的反射光,可以還原物體本身的顏色。

偏振鏡的原理是什麼的呢?中學物理大家就學過,光是具備波粒二象性,既是粒子、也是一種電磁波。而且光的振動方向與傳播方向是垂直的,這種類型的波叫橫波,所有的橫波是具有偏振現象的。簡單說光的偏振方向與偏振鏡方向平行,那所有能量都會通過。如果是垂直的,那所有能量都會被過濾。

基於這個原理,我們可以給掃描物體一次拍攝8組燈光下照片,然後利用這8張照片就能算出物體表面的材質,也就是漫反射、高光和法線的信息。這8組燈光分別是4組平行偏振光和4組交叉偏振光,每一組裡面都是首先所有燈光全部打開,然後是燈光亮度按照燈光在三維空間的坐標值遞減,XYZ三個方向分別可以產生一組燈光。目前這套設備我們也是剛搭建完成,我們在人臉材質掃描方面我們剛剛起步,後續我們也會逐漸加大這塊的投入。

最後是動畫部分,這塊是我們這幾年工作的重心。前面其實有介紹過,美術資產一般在整個遊戲研發總成本裡面都是占最大部分。但是在這裡面,動畫一般又會占整個美術資產最大的一塊。主要是因為原畫、模型這些雖然也很貴,但大部分屬於一次性開銷,但動畫是需要配合劇情持續產出的,高質量的動畫,一分鐘的製作成本就可以很輕鬆過萬。

我們在動畫這塊首先是在光學動捕數據的清洗方面做了一些工作,光學動捕的原理其實很簡單,就是在緊身動捕服表面設置很多標記點,通過多視角紅外相機跟蹤這些點標記點在三維空間中的坐標,然後根據這些坐標就可以算出來人體骨骼的旋轉和平移信息。

當然自動算出的這些信息不可避免有一些錯誤,就會導致解算出來的骨骼動畫可能有些異常,所以在實際的動捕過程流程中,會有專門的美術負責對動捕出來的標記點進行清洗。資深的動捕美術對這塊都很有經驗,一般首先直接看標記點的軌跡曲線就能知道出現了什麼類型錯誤,需要怎麼修改。這塊也是目前動捕工作流中主要的人工工作量,18年時候育碧提出了一種算法通過AI模型來取代這個過程的,當時也是發表在了SIGGRAPH上。

因為我們19年時候投資了一家法國3A遊戲工作室Quantic Dream,就是做底特律變人的那個公司,所以我們當時雙方開始有一些技術合作。他們當時給我們提出這個需求,所以我們對這個工作進行了跟進。做了一年多以後,我們找到了一種精度更高的解決方案,也發表在了SIGGRAPH 2021上面。

目前這套算法我們已經以Vicon軟件的插件形式,部署在了網易互娛和Quantic Dream的動捕工作流中。這裡是一個例子,這是原始含噪音的標記點,閃來閃去的就是局部噪音,留在原地的那些點就是跟丟的那些點,這是暫時調用我們算法得到的清洗結果。

接下來要介紹的是幾個工作是我們部門落地最多的項目,首先是一套基於普通單目攝像頭的輕量級面部動捕系統。

基本原理就是利用前面我們介紹的那套三維參數化人臉模型,對視頻中演員的臉型、表情頭部姿態進行回歸,然後把回歸得到的係數重定向到遊戲角色上就可以了。當然我們也會配合一些CV檢測和識別模型,加強算法對眨眼、視線、舌頭和整體情緒的捕捉精度。

這個項目是我們從18年的時候就開始做的,前前後後差不多有十位同事參與,這裡面所有算法模塊都是我們自己開發,打磨到現在已經是一套非常成熟的in-house面部動捕解決方案。

圍繞這套算法,我們還打造了一整套的工具鏈,有實時的動捕的預覽工具、有針對動捕結果進行離線調整和編輯的工具、還有Maya/Max里的動捕數據重定向插件。另外為了方便項目組接入面部動捕系統,我們還開發了一套專門適配我們算法的面部自動綁定插件。此外,核心算法我們還打包了全平台的sdk,在iphones 6s以上的機器,可以做到單核單線程實時。

這套系統在遊戲裡是有非常多的應用場景的,首先就是輔助動畫師製作正式的遊戲動畫資源。相比於傳統一幀一幀手k,採用動捕方案的製作效率是有明顯優勢的,而且只要演員表演到位,效果跟美術手k幾乎看不出來區別。

其次,可以給營銷同學快速產出一些面部動畫素材,營銷場景的特點是精度要求沒那麼高,但他的時效性要求很高,因為慢了就趕不上實時熱點了。我們這種輕量級方案,是非常適合這種場景的。比如短視頻平台上某段視頻火了,用我們這套工具可以非常快速的產出面部動畫素材。

另外,因為我們整套算法是提供全平台的sdk的,所以也可以打包在遊戲客戶端里,給玩家提供一些UGC玩法。比如我們在一夢江湖遊戲裡上線的顏藝系統,可以讓玩家錄製自己的表情動畫。

右邊是我在B站上找到的一個視頻,就是玩家系統錄製的一段打哈欠的動畫,然後傳到了b站,傳播效果非常好。最後,這套算法還可以支持一些虛擬主播的場景,比如第五人格禿禿杯電競比賽的虛擬解說、雲音樂look直播的虛擬主播,用的都是我們這套技術。

另外我們還配合高精度三維掃描設備,測試了我們面部動捕算法的在超寫實模型上的效果。這個模型是我們自己雇了一個國外的模特掃描出來的,我們用模特自己的視頻來驅動他自己的角色,這樣可以更好的對比表情的還原度。這邊是另外一組效果,這個模特是我們部門的一位同事,從效果上可以看到其實不管是掃描重建也好、還是面部捕捉也好,我們的技術都足夠支持這種高精度的場景。

跟面部動捕類似,我們也做了一套輕量級基於普通攝像頭的身體動捕系統,也是單視角和多視角輸入都支持。原理跟前面的面部捕捉類似,就是利用一套參數化人體模型,來對視頻中人物各個關節的骨骼參數進行擬合。同樣也會配合一些cv模型來提升優化結果的一些合理性。這個項目我們也是打磨了兩年時間,目前效果和穩定性都相當不錯。

這是在冬奧結束之後,我們用這個技術給哈利波特項目製作的視頻,當時也是很快衝上了微博熱搜。如果按傳統製作方式,這種營銷策劃案是不太可能實現的,因為需要找到能還原這套動作的演員,還要約演員和動捕棚的檔期,一套下來沒有6位數的開銷和1個多月製作周期的話是很難完成。但是用我們這套AI的方案,成本可以忽略不計。

這個是更早時候我們跟《大話西遊》項目組合作的一段視頻,大話的官網和B站上都能搜到。當時是請了B站舞蹈區的一位知名up主,用三部手機錄了這套舞蹈動作,用我們的動作捕捉算法得出了動作,重定向到大話西遊的遊戲角色上整體效果是非常精美的。

這是最終成片的效果。

另外一個我們給《明日之後》項目組製作的動畫素材,只用了一個單目攝像頭捕捉了身體和面部動作,並且只要拍得足夠清晰,手指動作也是可以準確捕捉的。

除了繼續視頻輸入以外,我們還做了基於音頻輸入生成動畫的技術,比如從語音輸入生成角色的面部和肢體動畫,也是圍繞這個技術做了一整套的工具鏈。這個技術我們也是做的很早,18年就已經在不少遊戲裡落地上線。但是當時做得還比較簡單,只支持口型和幾種簡單的基礎情緒。

後來我們也是做了持續的基礎升級和迭代,增加了語音驅動頭動、眼動、手動、面部微表情、還有肢體動作等等。這邊展示下我們算法的最新效果,語音驅動身體部分的效果大家可以去看N.GAME峰會的虛擬主持人I.F.的動畫,這邊展示主要是頭部以上的動畫。

另一個從音頻輸入生成動畫的工作是基於音樂生成舞蹈動作,這個工作目前在業界比較出名。我們是18年就開始做的,經過了幾年的持續打磨迭代最終形成了一套落地方案,同樣也是發表在了SIGGGRAPH 2021上。

會後我們還收到了SIGGGRAPH官方的採訪邀請,採訪內容發布在了SIGGGRAPH的官方博客上,現在很多機構都在跟進這個,詳細的技術方案論文裡有情景介紹,這裡主要給大家展示這個技術的實際落地效果。

首先是二次元女團舞的效果。

這是一個韓舞的動畫,這段動畫也是網易cc直播年度盛典的開場舞蹈。

最後是我們用一些網絡上熱門歌曲所合成的舞蹈。

最後我們展示一下AI動畫技術的全家福,這是我們去年聖誕節的時候用我們部門的虛擬偶像I.F.製作的B站互動視頻,完整版大家在B站可以搜到的。這裡面的所有動畫都是我們通過AI技術生成的,這邊給大家展示一下這段視頻的幕後過程。

目前我們這套AI動畫的解決方案已經是相當成熟了,在內部經過了大量項目的驗證,目前也是在內部給網易各個項目組持續不斷輸出動作資源。

簡單總結一下,從前面的介紹中大家可以發現,AI技術對程序化美術資源生成這個方向產生明顯的促進作用的。而且根據我們的實踐經驗,在人臉人體的模型和動畫方面,甚至可以在一定程度上取代一些初級執行向美術的工作。而且利用我們的AI方案普遍可以比傳統方案提升5-10倍的製作效率,但目前想讓AI從事一些更高級的工作還是比較困難,這也是我們未來努力的方向。

主要的難點還是因為高質量的數據比較稀缺,大家都知道數據是AI的核心,AI模型有多少能力其實很大程度上取決於人給模型多少有價值的數據。但是遊戲資產的獲取門檻其實還是很高的,這跟照片、語音、文字這種所有人日常都在生產的數據不太一樣。比如在某個景點看到一個很有特色的雕塑,絕大部分人的反應可能是掏出手機,拍一張照片記錄一下這個,但幾乎不會有人掏出電腦現場建個模,這是不太可能發生的。

當然隨着技術的進步,遊戲資源的製作門檻肯定是越來越低的,而且像元宇宙這樣的熱門應用場景,本身也要求遊戲廠商讓廣大玩家參與到虛擬世界的內容創造過程中來。所以我相信隨着數據的持續積累,未來AI技術也是可以能從事一些更高級工作,這也是我們的努力方向。

以上就是本次分享的全部內容,謝謝大家!

網易遊戲開發者峰會於4月18日-21日每天下午三點直播,點擊閱讀原文即可查看!

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()