蒙娜麗莎說Rap、蘇軾先生開口念詩、Gollum唱Black Pink的Ice Cream。是的,你沒有看錯,本篇給大家介紹的這個AI算法可以讓你零基礎5分鐘實現上述超級Fancy的特效,親手製作點擊量過百萬霸榜熱搜的超級視頻。怎麼樣?小編沒有在騙人吧。並且,最近大火的虛擬美妝博主柳夜熙、上周百度發布的央視總台首個AI手語主播以及各大虛擬偶像等等數字人的核心技術中,讓數字人開口說話的也是這個AI算法。那這到底是什麼神奇的技術呢?答案就是飛槳開源套件PaddleGAN中的新晉寵兒:Wav2lip模型趕緊上項目查看源碼及文檔教程吧,這個項目還提供熱門GAN模型,如AnimeGANv2、GauGAN、First Order Motion的實現。開源不易,望大家Star支持!https://github.com/PaddlePaddle/PaddleGAN/blob/develop/README_cn.md更貼心的是,完整項目代碼已公開於AI Studio,大家動動手指即可體驗:https://aistudio.baidu.com/aistudio/projectdetail/3156519?ref=feijiang2下面呢,我們就來給大家拆解下這個技術原理,和具體的操作步驟,手把手教你實現蘇軾念詩,蒙娜麗莎唱Rap或者任何你心儀的Idol說情話
這是一個輸入一段語音,使目標人物圖片、視頻的唇形,根據語音進行自動匹配並運動起來的任務。因此,我們需要準備一段音頻和一段人像/動漫人物視頻,將音頻和視頻輸入Wav2lip模型中,經過Wav2lip模型預測後,便會輸出一段目標人物/動漫人物說出輸入音頻的視頻,至此,「千萬級」配音視頻就完成啦~Wav2lip模型實現唇形與語音精準同步突破的關鍵在於:採用了唇形同步判別器,以強制生成器持續產生準確而逼真的唇部運動。此外,通過在鑑別器中,使用多個連續幀而不是單個幀,並使用視覺質量損失(而不僅僅是對比損失)來考慮時間相關性,從而改善了視覺質量。萬能的Wav2lip模型適用於任何人臉、任何語音、任何語言!對任意視頻都能達到很高的準確率,都可以實現無縫地與原始視頻融合,無論是視頻效果還是語音效果都很逼真。與此同時,PaddleGAN針對Wav2Lip模型進行了高清優化,使唇形擬合更細膩,更加逼真。在PaddleGAN的幫助下,完成上述神奇的自製「配音/對口型」只需兩步:#下載PaddlePaddle安裝包#從github上克隆PaddleGAN代碼(如下載速度過慢,可用gitee源)!gitclonehttps://gitee.com/PaddlePaddle/PaddleGAN#!gitclonehttps://github.com/PaddlePaddle/PaddleGAN#本地安裝PaddleGAN%cd/home/aistudio/PaddleGAN!pipinstall-v-e.!pipinstall-rrequirements.txt!pipinstalllibrosa!pipinstallnumba==0.53.1%cdapplications/!pythontools/wav2lip.py\--face/home/aistudio/1.jpeg\--audio/home/aistudio/2.m4a\--outfile/home/aistudio/pp_put.mp4\--face_enhancement只需在如下命令中的face參數和audio參數分別換成自己的視頻和音頻路徑,然後運行即可生成和音頻同步的視頻,運行完成後,會在當前文件夾下生成文件名為outfile參數指定的視頻文件,該文件即為和音頻同步的視頻文件:face: 原始視頻,視頻中的人物的唇形將根據音頻進行唇形合成audio:驅動唇形合成的音頻,視頻中的人物將根據此音頻進行唇形合成face_enhancement:添加人臉增加特效免費開源的寶藏套件PaddleGAN的能力當然不止於唇形遷移/生成的技術,裡面滿滿都是種類豐富、趣味的圖像/視頻生成、處理能力,熱門的前沿模型,如AnimeGANv2、GauGAN、First Order Motion等模型等待大家探索。如圖像風格遷移、視頻修復、圖像超分辨率、人像動漫化、照片動漫化、人臉編輯等等。PaddleGAN就如一個「遊樂場」,歡迎各位「玩家」加入,體驗各類「遊戲設施」,無需門票,如果玩得開心,記得點Star支持下~https://github.com/PaddlePaddle/PaddleGAN/blob/develop/README_cn.md
Java 8「失寵」瀏覽器廠商聯盟!合力解決Web兼容性問題PHP社區拒絕在俄烏衝突中「站隊」
覺得不錯,請點個在看呀