本文分享一篇阿里巴巴大淘寶技術與上海交通大學圖像通信與網絡工程研究所(簡稱圖像所)合作論文《AdaInt:Learning Adaptive Intervals for 3D Lookup Tables on Real-time Image Enhancement》,全部代碼及模型均已開源。

結果示例
本文首次提出了通過深度學習對輸入圖像自適應地學習具有非均勻布局的三維顏色查找表,從而對輸入圖像進行高效色彩增強的創新性技術,並在學術界公開仿真數據集上取得了最優客觀指標(PSNR)的同時做到了當前運行速度最快。文中提到的色彩增強技術具有效果優、速度快的特點,可做到對4K視頻的實現高效處理並提升其色彩飽和度對比度,故而適用於實時流媒體場景,可用較普惠化的方式幫助改善直播間的畫質呈現。https://arxiv.org/abs/2204.13983https://github.com/ImCharlesY/AdaInt色彩增強是圖像處理的基本內容之一,是相機成像系統的核心部件之一,並廣泛體現在數字圖像成像鏈路中的各階段應用中。其主要目的是通過處理原始圖像,使其更加符合人的視覺特性或顯示設備的展示要求。近年來,主流的基於深度學習的色彩增強方法將增強流程簡化歸併到單個全卷積網絡中。通過數據驅動下的端到端學習,這類方法可以在公開數據集上取得先進的色彩增強效果。然而,全卷積範式也給網絡的推理,特別是在超高分辨率的圖像(如4K及以上分辨率)上,帶來了高昂的時空計算複雜度,限制了這些方法的實際應用。最新的研究工作[1]表明,大部分的色彩增強/美化算子(如白平衡、飽和度控制、色調映射、對比度調整、曝光補償等)屬於點運算的範疇。變換算子的參數會根據圖像整體或局部統計特性來確定,但變換算子本身對圖像的操作和編輯是位置無關、像素獨立的。它們的級聯在整體效應上近似等效為單次三維顏色變換,即一個
的函數映射式。該映射將輸入圖像中的一個顏色點映射為同一顏色空間或不同顏色空間的另一個顏色點。一個直觀的思路是將一系列增強變換算子合併為單個顏色變換算子,從而減少一系列變換操作帶來的計算量,並減小累積誤差對增強效果的影響。在這種情況下,三維查找表(3D Lookup Tables,3D LUTs)是一種極具價值的數據結構,它通過遍歷變換函數的所有可能輸入顏色組合,記錄對應的輸出顏色結果,可以對一個複雜的顏色變換函數進行高效建模,在計算機硬件設計、相機成像系統中有廣泛的應用。然而,完整輸入空間的遍歷往往帶來沉重的內存開銷,更常用的方式是稀疏查找表:對輸入空間進行稀疏採樣,僅記錄採樣點的對應輸出;對於不被採樣到的點,其變換輸出由最近鄰採樣點的輸出線性插值獲得。因此稀疏查找表實質是對原始變換函數的一種有損近似,其變換能力的損失體現在通過分段線性函數擬合原始變換函數中潛在的非線性部分。由於3D LUT的計算高效性和穩定魯棒的顏色變換能力,最新的研究工作[2]結合了3D LUT的高效計算性能和深度神經網絡的強大數據特徵提取能力,通過深度網絡從圖像中自適應地生成稀疏三維查找表以進行實時色彩增強,證明了3D LUT在基於深度學習的自適應色彩增強中的可行性和有效性。然而,通過深度網絡自適應預測稀疏3D LUT時,現有工作僅考慮了3D LUT中記錄的輸出值的圖像自適應性,而卻對所有不同圖像均採用統一的均勻稀疏點採樣策略(將三維輸入顏色空間等間隔地離散化成三維網格),未能有效考慮到稀疏3D LUT中採樣點在輸入空間中的分布也應根據圖像內容自適應調整。這一重要建模能力的缺失導致該方法學習到的3D LUT中稀疏採樣點分配策略次優,從而限制了最終所得3D LUT的模型變換能力。這具體表現為:由於採樣點的稀疏性和3D LUT變換中採用的線性插值帶來的非線性變換表達能力的損失,均勻採樣策略可能將顏色相近的輸入像素量化到3D LUT的同一網格區間內;當這些輸入像素的對應輸出值需要較高的非線性對比度時(如增強圖像中處於暗光條件下具有顯著色彩差異的紋理區域時),單個LUT網格卻僅能提供線性的顏色拉伸變換,從而可能導致變換結果的顏色平滑。這種現象可以類比為數字信號處理領域中因採樣頻率不滿足奈奎斯特-香農採樣定律而導致的信號失真,如下左邊示意圖所示。理想情況下,增加稀疏採樣點的數量或引入非線性插值也許可以有效緩解這種非線性變換能力不足的問題,但也會顯著增加3D LUT方法的計算和內存複雜度,犧牲了LUT方法的實時性。此外,如下右半部分的示意圖所示,在均勻採樣策略中直接增加採樣點的數量也會加劇3D LUT對顏色變換平坦區域(如輸出顏色僅為輸入顏色的線性拉伸)甚至對輸入顏色空間中鮮有像素分布的區域的過採樣,從而造成了3D LUT模型容量和內存消耗的浪費。
針對現有工作因其在輸入空間中通過均勻量化間隔的有限稀疏採樣點完成3D LUT的構建而存在的局部非線性顏色變換建模能力不足的挑戰,我們提出基於採樣間距自適應學習的3D LUT方法來為上述挑戰提供一種先進的解決方案,即Adaptive Intervals Learning (AdaInt)。具體而言,我們提出並設計一種輕量緊支的三維顏色空間動態採樣間隔預測機制,作為3D LUT方法的一種即插即用模塊,自適應地根據輸入圖像內容預測3D LUT中稀疏採樣點的分布方式。通過提供給模型在三維顏色空間中自適應、非均勻採樣的能力,模型有望在需要較強非線性變換的顏色空間內分配更多的採樣點以提高3D LUT的局部非線性變換能力,在變換較為平坦的區域分配較少的採樣點以減少3D LUT的容量冗餘,從而提高3D LUT方法的靈活性和圖像自適應性。所提方法的整體模型框架如上圖所示。我們以待增強的圖像作為模型輸入,自動輸出經過顏色增強的高質圖像,並將輸出圖像與經過人為美化的目標圖像計算MSE重建損失,從而實現整個方法框架的端到端學習。具體模型結構上,我們使用一個輕量的卷積神經網絡將下採樣到固定分辨率(256x256像素)的輸入圖像作為輸入,通過該網絡同時預測圖像自適應3D LUT的兩個核心組成部件——非均勻的輸入顏色採樣坐標和相應的輸出顏色值。在3D LUT的輸出顏色值上,我們延續現有工作[2]採用的方式——通過網絡自動預測係數來針對每張圖像動態加權合併若干個可學習的Basis 3D LUTs,以避免直接回歸全部輸出顏色值所帶來的大量網絡參數和計算複雜度的引入。對於非均勻輸入顏色採樣坐標,我們假設在查找過程中3D LUT的三個顏色維度是相互獨立的;通過這種方式,我們可以分別預測每個顏色維度的一維採樣坐標序列,並通過笛卡兒積(n-ary Cartesian Product)得到對應的三維採樣坐標。這兩個組成部件組合在一起構成一個具有自適應、非均勻三維布局的3D LUT,它可以通過我們精心設計的一種稱為AiLUT-Transform的新型可微算子對原始輸入圖像進行高效的顏色變換和增強。具體而言,我們通過在標準的查找表變換的查找過程中引入低複雜度的二分搜索來確定輸入顏色在非均勻布局查找表中所在的網格,並通過推導偏微分為網絡自動預測的非均勻顏色採樣坐標提供梯度以進行端到端學習。本文所提出的AdaInt模塊可以在可忽略不計的參數和計算量增加下顯著提高基線三維查找表方法的增強效果,如下圖所示。通過對不同輸入圖像可視化網絡學習得到3D LUTs,如下圖所示,我們可以觀察到針對曝光較弱(左子圖)和曝光較強(右子圖)的不同輸入圖像,網絡預測的採樣坐標(如第三行中豎線所示)分別聚集在了圖像的不同灰度值區域。這體現了所提方法如預期一般在大規模數據先驗中一定程度學習到了在三維顏色空間自適應採樣3D LUT的能力。在兩個公開圖像增強/美化數據集FiveK和PPR10K上,所提方法以總體較低的參數量和實時推理時間在增強圖像的客觀評價指標上超過了現有方法,達到了先進性能。在本文中,我們簡要介紹了一種新穎的,可用於強化可學習3D LUT以進行實時顏色增強的學習機制——AdaInt。其中心思想是引入圖像自適應採樣間隔來學習非均勻的3D LUT布局。兩個公開數據集的實驗結果驗證了方法在性能和效率方面優於其他先進的現有方法。此外,作者相信本文方法中所蘊含的思想,即對複雜的底層變換函數或表示進行非均勻採樣的觀點不僅局限於 3D LUTs,也有望指導其他應用的改進,我們將其留作我們未來的工作。[1] Liu Y, He J, Chen X, et al. Very lightweight photo retouching network with conditional sequential modulation[J]. arXiv preprint arXiv:2104.06279, 2021.[2] Zeng H, Cai J, Li L, et al. Learning image-adaptive 3D lookup tables for high performance photo enhancement in real-time[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020.該工作主要在大淘寶技術中支持內容業務的音視頻算法與基礎技術團隊的帶領下完成,該團隊依託淘寶直播、逛逛和點淘等內容業務,致力於打造行業領先的音視頻技術。團隊成員來自海內外知名高校,先後在MSU世界編碼器大賽,NTIRE視頻圖像增強領域這樣的領域強相關權威賽事上奪魁,並重視與學界的合作與交流。本工作的色彩增強任務與團隊實際業務場景中調色的功能需求密切相關。調色是淘寶主播提升直播間畫質的重要手段之一,往往依賴專業人員以及配套軟件,使用門檻和成本較高。我們的色彩增強工作,旨在自動化的幫助用戶完成原本專業性強操作複雜度較高的調色工作,更好地幫助主播提升直播間畫質,改善直播畫質體驗。這項工作的主要合作方為上海交通大學張文軍教授領銜的圖像所團隊,是數字電視廣播及數字媒體處理與傳輸領域的主要研究力量之一。近年來,團隊面向國家戰略性新興產業,順應網絡化、融合化的發展趨勢,在包括智能媒體融合網絡、視頻智能分析處理與傳輸在內的多個重點研究領域開展工作,並取得了多項重大成果。