close
機器之心專欄
機器之心編輯部

本文是上海交通大學在物體陰影生成領域的研究,提出的數據庫、代碼和模型都已開源。


圖像合成 (image composition) 是指把一張圖片的前景剪切下來,粘貼到另外一張背景圖片上,得到一張合成圖。廣義來講,把來自不同圖片的多個視覺元素嫁接到同一張圖片上,都屬於圖像合成的範疇。圖像合成有着廣泛的應用場景,比如人像換背景、虛擬社交、藝術創作、自動廣告等等。下圖展示了得到一張合成圖的過程。


通過剪切複製得到的合成圖可能會有諸多問題,影響合成圖的真實程度和圖片質量。這些問題可以歸結為合成圖中前景和背景之間的不一致性,進一步可分成幾何不一致性和外觀不一致性。幾何不一致性包括前景物體的大小、位置、透視角度不合理。外觀不一致性包括前景和背景的顏色光照信息不匹配, 或者前景的陰影缺失或不合理。

為了解決外觀不一致性,圖像和諧化任務 (image harmonization) 旨在調整前景的顏色光照信息,使其和背景看起來更和諧。物體陰影生成 (object shadow generation) 任務旨在根據前景和背景信息為前景物體生成合理的陰影。

本文是上海交通大學人工智能教育部重點實驗室(MoE Key Lab of Artificial Intellegence)在物體陰影生成領域的工作,論文發表在了 AAAI 2022,並且數據庫、代碼和模型已開源。


論文鏈接:https://arxiv.org/pdf/2104.10338.pdf

代碼鏈接:https://github.com/bcmi/Object-Shadow-Generation-Dataset-DESOBA


引言

物體陰影生成任務旨在給定一張合成圖和前景物體掩碼,為前景物體生成合理的陰影,可以視為圖像到圖像翻譯 (image-to-image translation) 的任務。為該任務訓練深度學習網絡需要大量成對的訓練數據:沒有前景物體陰影的合成圖和有前景物體陰影的目標圖。然而,這種成對數據在現實世界中極難獲取。

之前有工作 [1] 用渲染的方式構造成對的訓練數據,具體來說,把 3D 模型插入到 3D 場景中,先得到沒有前景物體陰影的合成圖,然後用渲染軟件為插入的 3D 模型生成陰影,得到帶有前景物體陰影的目標圖。但是,該數據庫 [1] 前景數量有限,背景簡單,和真實圖片相距甚遠。研究者嘗試把基於該數據庫訓練得到的模型用於真實合成圖,效果很差。

為了解決現實世界中難以收集數據,渲染圖片和真實圖片又有偏差的問題,研究者設計了一種笨拙的方法,推出了首個真實複雜場景下物體陰影生成數據集 DESOBA。他們構建數據庫的方式和圖像和諧化數據集 iHarmony4[2]類似,都是對真實圖片做調整得到偽造的合成圖。

具體來說,iHarmony4 為了構建成對的和諧圖片與不和諧圖片,把真實圖片作為目標圖片,對前景用顏色遷移方法調整顏色和光照,使其和背景不和諧,獲得偽造合成圖,通過這種方式得到成對的合成圖和目標圖。該方法也可套用到物體陰影生成任務中,研究者把真實圖片作為目標圖片,為前景去陰影,把去陰影之後的圖片當做偽造合成圖,用這種方式獲取成對的合成圖和目標圖。

他們還嘗試了一些最先進的去陰影算法,可能是因為複雜場景的原因和數據集之間的差異,去陰影效果很差。迫於無奈,研究者僱傭 photoshop 專家手動為圖片去陰影,這個過程非常費時費力,編輯一張圖片花費半個小時到幾個小時不等。為了保證去陰影圖片的質量,他們嘗試了一些量化指標,但這些指標不能很好地反映圖片質量。

因此,研究者決定人工確保圖片的質量,保證每一張圖片去陰影之後原陰影區域的紋理特徵儘可能保留,原陰影邊界區域的過渡儘可能平滑,原陰影區域難以被識別出來。經過多輪檢查,儘可能地保證數據庫的質量。雖然人工檢查不可能完全保證數據庫的準確性,但是研究者發現該數據庫能夠用來比較不同方法的優劣,並且對真實合成圖也有一定的效果。

數據集和生成網絡

研究者基於 Shadow-OBject Association (SOBA)數據集 [3] 構建自己的數據集。SOBA 數據集有 840 張訓練圖片(包含 2999 對物體和陰影)和 160 張測試圖片(包含 624 對物體和陰影)。他們沿用 SOBA 的訓練測試集劃分,將數據集命名為 DEshadowed SOBA (DESOBA)。因為數據量有限,在訓練的時候採用了一種數據增廣的方式,隨機選擇圖片中的若干物體打包成一個前景物體,增加前景物體的豐富程度。實驗證明了這種數據增廣方式的有效性。

下圖展示了 DESOBA 數據庫的製作過程 (上面一行) 和物體陰影生成任務(下面一行)。給定真實圖片,去除圖片上的所有陰影得到,然後選定一個前景物體,把它的陰影區域替換為對應的區域,得到一張偽造合成圖,通過這種方式獲得成對的合成圖和目標圖。物體陰影生成任務是指給定合成圖和前景物體掩碼, 能夠重建目標圖

DESOBA 數據庫裡面的樣圖如下圖所示。根據合成圖背景中有沒有成對的物體和陰影,他們把圖片分為 BOS (Background Object-Shadow) 圖片(背景中有成對的物體和陰影)和 BOS-free 圖片(背景中沒有成對的物體和陰影)。對於 BOS 圖片,成對的物體和陰影可以為推測光照信息提供強有力的線索。對於 BOS-free 圖片,他們期望模型能夠根據天空、地面、物體的明暗變化推測出光照信息。下圖左半邊是 BOS 圖片,從左到右依次是合成圖、前景物體掩碼、背景物體掩碼、背景陰影掩碼、目標圖。右半邊是 BOS-free 圖片,從左到右依次是合成圖、前景物體掩碼、目標圖。


基於 DESOBA 數據集,研究者設計了一個兩階段的物體陰影生成網絡,這是首個兩階段的物體陰影生成網絡。整個網絡的結構如下圖所示,第一階段負責生成物體陰影的掩碼,第二階段負責填充物體陰影區域。


在第一階段,研究者用兩個編碼器分別提取背景和前景的特徵。前景編碼器的輸入是合成圖和前景物體掩碼,背景編碼器的輸入是合成圖、背景物體掩碼、背景陰影掩碼。提取前景和背景的特徵之後,他們設計了一個交互注意力聚集 (cross-attention integration) 層完成前景特徵和背景特徵之間的信息交互。在此過程中,前景特徵從背景特徵中獲取了相關有用的光照信息,得到增強的前景特徵。增強的前景特徵通過解碼器預測出前景陰影掩碼。雖然交互注意力機制在其他計算機視覺任務中已經廣泛使用,但這是首次將交互注意力機制用於陰影生成任務。

在第二階段,獲取前景陰影掩碼之後,需要對陰影區域進行填充,其中最重要的信息是陰影的深淺。根據現有的光照模型[4],研究者假設陰影像素值可以由它對應的無陰影像素值通過線性變換獲得:,其中 k 表示第 k 個顏色通道(RGB),i 表示第 i 個像素。他們把合成圖和生成的前景陰影掩碼拼起來,用於預測陰影參數。陰影參數的真值可以基於訓練圖片回歸得到。根據陰影參數和合成圖,用下圖中的公式得到暗圖(darkened image)。同時會對前景陰影掩碼進行修正,得到更精確的陰影蒙版(shadow matte),通過陰影蒙版把合成圖和暗圖混合得到目標圖。除了重構損失,研究者也使用條件判別器迫使生成的前景陰影掩碼和生成的目標圖更加真實。


實驗結果

研究者首先在 DESOBA 測試集上驗證模型的性能。關於量化指標,他們採用了 RMSE 和 SSIM,分別對全圖計算(global RMSE/SSIM) 和陰影區域計算(local RMSE/SSIM)。

如下展示了不同方法的陰影生成圖片。從左到右依次是: (a)輸入合成圖; (b)前景物體掩碼;(c)Pix2Pix 的結果; (d)Pix2Pix-Res 的結果; (e)ShadowGAN 的結果; (f)Mask-ShadowGAN 的結果; (g)ARShadowGAN 的結果; (h)本文方法 SGRNet 的結果; (i)真值目標圖。從圖片結果可以看出對比方法生成的陰影殘缺不全,甚至沒有生成陰影。而文中方法的生成結果明顯優於對比方法的結果。


由於 DESOBA 數據集是偽造合成圖,為了驗證在真實合成圖上的效果,研究者製作了 100 張真實合成圖並測試不同的方法。不同方法的結果如下圖所示,從左到右依次是: (a)輸入合成圖; (b)前景物體掩碼; (c)Pix2Pix 的結果; (d)Pix2Pix-Res 的結果; (e)ShadowGAN 的結果; (f)Mask-ShadowGAN 的結果; (g)ARShadowGAN 的結果; (h)文中方法的結果。注意,真實合成圖沒有真值目標圖。在真實合成圖上,文中方法的生成結果也明顯優於對比方法的結果。可見 DESOBA 數據集和設計的模型在真實合成圖上也有一定的效果。DESOBA 測試集上的更多結果和真實合成圖上的更多結果請參見論文和附錄。


最後,研究者展示模型輸出的一些中間結果,以便於理解模型。從左到右依次是:(a)輸入合成圖; (b)前景物體掩碼; (c)生成的前景陰影掩碼; (d)生成的前景陰影蒙版; (e) 生成的前景陰影掩碼和陰影蒙版之間的差異; (f)生成的暗圖; (g)生成的目標圖片; (h)真值前景陰影掩碼; (i)真值目標圖。


總結

研究者推出了首個真實複雜場景下的物體陰影生成數據集 DESOBA, 用於合成圖中的物體陰影生成。另外,它們設計了兩階段的物體陰影生成網絡,第一階段生成前景陰影掩碼,第二階段填充前景陰影區域。物體陰影生成這個任務很有挑戰性,任重而道遠。

研究者表示,雖然他們在正文和附錄里展示了一些效果較好的圖片,但是實際上大多數測試圖片的效果並不理想,甚至慘不忍睹,所以可提升的空間很大。他們的工作實屬拋磚引玉,歡迎大家嘗試文中的數據集,嘗試物體陰影生成任務。

參考文獻:

[1] Liu, D.; Long, C.; Zhang, H.; Yu, H.; Dong, X.; and Xiao, C. 2020. Arshadowgan: Shadow generative adversarial network for augmented reality in single light scenes. In CVPR.
[2] Cong, W.; Zhang, J.; Niu, L.; Liu, L.; Ling, Z.; Li, W.; and Zhang, L. 2020. Dovenet: Deep image harmonization via domain verification. In CVPR.
[3] Wang, T.; Hu, X.; Wang, Q.; Heng, P.-A.; and Fu, C.-W. 2020. Instance shadow detection. In CVPR.
[4] Shor, Y.; and Lischinski, D. 2008. The shadow meets the mask: Pyramid-based shadow removal. In Computer Graphics Forum, 577–586.

©THE END

轉載請聯繫本公眾號獲得授權

投稿或尋求報道:content@jiqizhixin.com

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()