close

來源:DeepHub IMBA

本文共2000字,建議閱讀10分鐘

本文將帶有清晰的視頻解釋和代碼,文末尾列出了對每篇論文的完整參考。


2021 年排名前 10 的計算機視覺論文,包括視頻演示、文章、代碼和論文參考。

世界的經濟活動在病毒的衝擊下陷入了歷史罕見的停滯中,但研究並沒有放慢其狂熱的步伐,尤其是在人工智能領域。今年的論文中除了一般的研究結果外還強調了許多重要方面,例如道德方面、重要偏見、治理、透明度等等。人工智能和我們對人腦及其與人工智能的聯繫的理解不斷發展,顯示出在不久的將來改善我們生活質量的有前景的應用。不過,我們應該謹慎選擇應用哪種技術。

「科學不能告訴我們應該做什麼,只能告訴我們可以做什麼。」—— Jean-Paul Sartre, Being and Nothingness

以下是我總結的今年計算機視覺領域最有趣的 10 篇研究論文,簡而言之,它基本上是一個精選的 AI 和 CV 最新突破列表,本篇文章將帶有清晰的視頻解釋和代碼(如果有)。本文末尾列出了對每篇論文的完整參考。如果還有什麼推薦,請直接聯繫我。

DALL·E: Zero-Shot Text-to-Image Generation from OpenAI [1]

OpenAI 成功訓練了一個能夠從文本標題生成圖像的網絡。它與 GPT-3 和 Image GPT 非常相似,並產生了驚人的結果。

代碼:https://github.com/openai/DALL-E

Taming Transformers for High-Resolution Image Synthesis [2]
將 GAN 和卷積方法的效率與Transformers 的表達能力相結合,為語義引導的高質量圖像合成提供了一種強大且省時的方法。

代碼:https://github.com/CompVis/taming-transformers

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows [3]
Transformers 會取代計算機視覺中的 CNNs 嗎?在不到 5 分鐘的時間內,通過一篇名為 Swin Transformer 的新論文了解如何將 Transformer 架構應用於計算機視覺。

代碼:https://github.com/microsoft/Swin-Transformer

Infinite Nature: Perpetual View Generation of Natural Scenes from a Single Image [4]
視圖合成的下一步:目標是拍攝一張圖像,然後就可以進到圖像中去探索風景!

DEMO:
https://colab.research.google.com/github/google-research/google-research/blob/master/infinite_nature/infinite_nature_demo.ipynb#scrollTo=sCuRX1liUEVM

Total Relighting: Learning to Relight Portraits for Background Replacement [5]
根據添加的新背景的亮度重新為肖像補光。你有沒有想過改變圖片的背景,但讓它看起來很逼真?如果已經嘗試過就會知道這並不簡單。你在家裡拍一張自己的照片然後改變成海灘的背景, 任何人都會在一秒鐘內說「那是經過Photoshop處理的」。對於電影和專業視頻,需要完美的燈光和藝術家來再現高質量的圖像,這非常昂貴。你無法用自己的照片做到這一點。但是這篇論文做到了

Animating Pictures with Eulerian Motion Fields [6]
該模型只通過拍攝一張照片,就能夠了解哪些粒子應該在移動,並可以在限循環中為它們設置逼真的動畫,同時完全保留圖片的其餘部分,這樣我們可以將圖片轉換成動畫……

代碼:https://eulerian.cs.washington.edu/

CVPR 2021 Best Paper Award: GIRAFFE — Controllable Image Generation [7]
使用修改後的 GAN 架構,他們可以在不影響背景或其他對象的情況下移動圖像中的對象!

代碼:https://github.com/autonomousvision/giraffe

TimeLens: Event-based Video Frame Interpolation [8]
TimeLens 可以理解視頻幀之間粒子的運動,用我們肉眼看不到的速度重建真正發生的事情。它達到了智能手機和其他機型無法達到的效果!

代碼:https://github.com/uzh-rpg/rpg_timelens

CLIPDraw: Coupling Content and Style in Text-to-Drawing Synthesis [9]
你有沒有想過把照片的風格,比如左邊這個很酷的繪畫風格,應用到你選擇的新照片上?這個模型能夠做到,甚至可以僅從文本中實現這一點,並且還提供了可以立即嘗試使用這種新方法及其適用於所有人的 Google Colab 。簡單的拍一張你要複製的樣式的圖片,輸入你要生成的文字,這個算法就會生成一張新的圖片!結果非常令人印象深刻,特別它們可以由一行文本製成的!

DEMO:https://colab.research.google.com/github/kvfrans/clipdraw/blob/main/clipdraw.ipynb
https://colab.research.google.com/github/pschaldenbrand/StyleCLIPDraw/blob/master/Style_ClipDraw.ipynb

CityNeRF: Building NeRF at City Scale [10]
該模型稱為 CityNeRF,是從 NeRF 發展而來的, NeRF 是最早使用輻射場和機器學習從圖像構建 3D 模型的模型之一。但 NeRF 效率不高而且只適用於單一規模。在這裡,CityNeRF 同時應用於衛星和地面圖像,生成各種 3D 模型。簡而言之他們將 NeRF 帶入了城市規模。

代碼:https://city-super.github.io/citynerf/

引用:

[1] A. Ramesh et al., Zero-shot text-to-image generation, 2021. arXiv:2102.12092

[2] Taming Transformers for High-Resolution Image Synthesis, Esser et al., 2020.

[3] Liu, Z. et al., 2021, 「Swin Transformer: Hierarchical Vision Transformer using Shifted Windows」, arXiv preprint https://arxiv.org/abs/2103.14030v1

[bonus] Yuille, A.L., and Liu, C., 2021. Deep nets: What have they ever done for vision?. International Journal of Computer Vision, 129(3), pp.781–802, https://arxiv.org/abs/1805.04025.

[4] Liu, A., Tucker, R., Jampani, V., Makadia, A., Snavely, N. and Kanazawa, A., 2020. Infinite Nature: Perpetual View Generation of Natural Scenes from a Single Image, https://arxiv.org/pdf/2012.09855.pdf

[5] Pandey et al., 2021, Total Relighting: Learning to Relight Portraits for Background Replacement, doi: 10.1145/3450626.3459872, https://augmentedperception.github.io/total_relighting/total_relighting_paper.pdf.

[6] Holynski, Aleksander, et al. 「Animating Pictures with Eulerian Motion Fields.」 Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.

[7] Michael Niemeyer and Andreas Geiger, (2021), 「GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields」, Published in CVPR 2021.

[8] Stepan Tulyakov, Daniel Gehrig, Stamatios Georgoulis, Julius Erbach, Mathias Gehrig, Yuanyou Li, Davide Scaramuzza, TimeLens: Event-based Video Frame Interpolation, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, 2021, http://rpg.ifi.uzh.ch/docs/CVPR21_Gehrig.pdf

[9] a) CLIPDraw: exploring text-to-drawing synthesis through language-image encodersb) StyleCLIPDraw: Schaldenbrand, P., Liu, Z. and Oh, J., 2021. StyleCLIPDraw: Coupling Content and Style in Text-to-Drawing Synthesis.

[10] Xiangli, Y., Xu, L., Pan, X., Zhao, N., Rao, A., Theobalt, C., Dai, B. and Lin, D., 2021. CityNeRF: Building NeRF at City Scale.

本文作者:Louis Bouchard


arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()