機器之心 - CVPR 2022｜快手聯合中科院自動化所提出基於Transformer的圖像風格化方法－鑽石舞台

機器之心專欄

作者：快手Y-tech

本文提出了一種基於 Transformer 的圖像風格遷移方法，我們希望該方法能推進圖像風格化的前沿研究以及 Transformer 在視覺尤其是圖像生成領域的應用。

論文鏈接：https://arxiv.org/abs/2105.14576

代碼地址：https://github.com/diyiiyiii/StyTR-2

圖像風格化是一個有趣且實用的課題，它可以使用參考的風格圖像來呈現內容圖像，多年以來在學術界被廣泛研究，並已在包括短視頻領域在內的業界得到大規模的落地應用。例如，移動互聯網用戶可以通過快手主站、極速版、一甜相機和快影等一系列 APP，體驗包括手繪、水彩、油畫和 Q 版萌系風格在內的各種人像風格化特效。

傳統的基於紋理合成的風格化方法可以生成生動的風格化圖像，但由於包含筆畫外觀和繪畫過程的建模，計算起來很複雜。隨後，研究人員聚焦於基於卷積神經網絡的神經風格化。基於優化的風格化方法參照內容圖像與風格圖像，不斷迭代優化生成結果。按照編碼器 - 風格化模塊 - 解碼器的設計，任意風格化方法利用端到端的方式，根據風格圖片調整內容圖片的二階統計信息，可以高效地生成風格化結果。但是，由於對內容和風格之間關係的建模能力有限，這些方法在很多情況下不能取得令人滿意的結果。為了克服這一問題，一些研究方法應用自注意機制來改進風格化結果。

目前主流的的風格化方法一般利用卷積神經網絡學習風格和內容表示。由於卷積運算的感受野有限，只有卷積網絡比較深，才能捕獲圖片的長程依賴關係。但是，網絡深度的增加會導致圖片特徵分辨率降低和細節的丟失。細節的缺失體現在風格化結果中就是會影響內容結構的保存和風格模式的顯示。如圖 1(a) 所示，基於卷積神經網絡的風格化算法在特徵提取過程中忽略了一些細節，網絡淺層關注局部特徵，深層通過整合局部信息才能獲取全局信息。此外，有研究工作發現典型的基於 CNN 的風格化方法獲取的內容表示是不準確的，會導致內容泄漏的問題: 經過幾輪重複的風格化操作，風格化結果中幾乎不能保留任何原始輸入的內容結構信息。

圖 1 （a）基於 CNN 的風格化中間層可視化結果；（b）我們的方法中間層可視化結果

隨着 Transformer 在自然語言處理 ( Natural Language Processing, NLP) 領域的成功，基於 Transformer 的架構已被用於各種視覺任務。Transformer 應用於計算機視覺的優點有兩個：首先，在自注意機制的幫助下，Transformer 可以很容易地學習輸入的全局信息，從而在每一層都可以獲得對輸入的整體的理解; 其次，Transformer 是一種關係建模的結構，不同層可以提取相似的結構信息 (如圖 1(b) 所示)。因此，Transformer 具有較強的特徵表示能力，可以避免特徵提取過程中細節的丟失，並能很好地保存生成的結構。

本文針對基於 CNN 的風格化方法存在的內容表達存在偏差的問題，提出了一種新穎的圖像風格化算法，即 StyTr^2。

方法

為了利用 Transformer 捕獲長期依賴關係的能力來實現圖像風格化，本文設計了圖 2 中結構，模型主要包括三部分：內容 Transformer 編碼器，風格 Transformer 編碼器和 Transformer 解碼器。內容 Transformer 編碼器和風格 Transformer 編碼器分別用來編碼內容域和風格域的圖片的長程信息，這種編碼方式可以有效避免細節丟失問題。Transformer 解碼器用來將內容特徵轉換為帶有風格圖片特徵的風格化結果。

圖 2 網絡結構

此外，本文針對傳統位置編碼提出兩個重要問題。第一，對於圖像生成任務，在計算 PE（位置編碼）時，是否應該考慮圖像語義? 傳統的 PE 是根據按照邏輯排序的句子來設計的，而圖像序列是根據圖像內容語義來組織的。假設兩個圖像補丁之間的距離為 d(.,.) 。如圖 3(a) 右邊部分所示，d((0 , 3 ), (1 , 3 )) (紅色和綠色塊) 之間的差異與 d(( 0 , 3 ), (3 , 3 )) (紅色和青色塊) 之間的差異應該是相似的，因為風格化任務要求相似的內容補丁有相似的風格化結果。第二，當輸入圖像尺寸呈指數級增大時，傳統的正弦位置編碼是否仍然適用於視覺任務? 如 3(a) 所示，當圖像大小發生變化時，相同語義位置的補丁 (用藍色小矩形表示) 之間的相對距離會發生顯著變化，這不適合視覺任務中的多尺度輸入要求。

圖 3 CAPE 計算示意圖

為此，本文提出了內容感知的位置編碼 (Content-Aware Positional Encoding，CAPE)，它具有尺度不變且與內容語義相關的特點，更適合於風格化任務。

結果展示

如圖 4 所示，與 state-of-the-art 方法相比，StyTr^2 利用了基於 Transformer 的網絡，具有更好的特徵表示能力，捕獲輸入圖像的長期依賴關係，並避免丟失內容和風格細節。因此，本文方法的結果可以實現高質量的風格化，使結果同時保持良好的內容結構和豐富的風格模式。

圖 4 風格化結果比較

圖 5 展示了第 1 輪和第 20 輪的風格化結果。首先，比較第一輪的風格化結果。基於 CNN 的方法生成的結果內容結構受到了不同程度的破壞，但本文的結果仍然具有清晰的內容結構。雖然 ArtFlow 生成的結果保持了清晰的內容結構，但風格化的效果並不令人滿意 (例如，邊緣缺陷和不合適的樣式模式)。其次，隨着風格化次數的增加，基於 CNN 的方法生成的內容結構趨於模糊，而我們的方法生成的內容結構仍然是清晰的。