點擊下方卡片,關注「CVer」公眾號
AI/CV重磅乾貨,第一時間送達
作者:沒頭腦| 系粉絲投稿(源:知乎)
https://zhuanlan.zhihu.com/p/353606619
在跨域人臉表情識別領域中,由於不同算法選擇的源/目標域數據集和骨幹網絡不一致,研究者們很難對其進行公平的比較。為此,中山大學聯合廣東工業大學構建了一個統一且公平的評測基準,該基準復現了多個效果較好的跨域人臉表情識別方法,以及數個最新發表的通用領域自適應算法,並使用統一的源/目標域以及骨幹網絡選擇,以此進行公平的比較評測。該基準可以公平評測各個工作提出的算法的有效性,更好地推進跨域人臉表情識別領域的發展。此外,我們提出了一個新的對抗圖表達學習框架,該框架創造性地把圖表示傳播與對抗學習機制相結合,從而實現高效的跨域整體-局部表達協同遷移和學習。基於我們所提出的統一且公平的評測基準,該框架取得了優於所有現有方法的效果。1. 概述
隨着深度學習的快速發展,許多研究者們開始嘗試利用卷積神經網絡解決人臉表情識別(Facial Expression Recognition, FER)任務,並已取得了不俗的進展。但是,各個人臉表情數據集之間的數據不一致(Data Inconsistence)極大地削弱了模型的泛化能力,導致現有的大部分人臉表情識別算法在跨域場景下無法通用。因此,許多研究者致力於開發跨域人臉表情識別(Cross-Domain Facial Expression Recognition, CD-FER)算法來解決這個問題。
然而,由於不同跨域人臉表情識別算法的源/目標域數據集和骨幹網絡的選擇不一致,導致後續研究者難以對各個工作進行全面且公平的比較。此外,當前大多數跨域人臉表情識別算法主要利用全局特徵用於域遷移,卻忽略了更具有可遷移性以及判別性的的局部特徵。
針對上述兩個問題,我們做了以下兩方面的工作:
首先,我們構建了一個統一且公平的跨域人臉表情識別任務測試基準。為了保證對比的公平性,我們復現了多個性能較好的跨域人臉表情識別方法以及多個最新的通用的領域自適應算法,並在確保這些算法採用相同的源/目標域數據集和相同的骨幹網絡的設置下進行實驗對比。
其次,我們提出了一種新穎的對抗圖表達學習 (Adversarial Graph Representation Adaptation, AGRA) 框架。該框架將圖表示傳播與對抗學習機制相結合,實現有效的跨域整體-局部特徵協同適應。根據在測試基準上得到的比較結果,我們發現我們所提出的 AGRA 框架優於以前的最先進方法。
![](https://imageproxy.pixnet.cc/imgproxy?url=https://drbanana.ml/img/68747470733a2f2f6d6d62697a2e717069632e636e2f6d6d62697a5f706e672f794e6e616c6b5845376f566230316e4f426f68696330696179793968713772744c56574e6e6d78344a736b775350544937716533494a317543323068456b4752684258745175336e6777477751436f716961783762333556772f3634303f77785f666d743d706e67.webp)
圖 1. 常見人臉表情識別與跨域人臉表情識別的區別2. 統一且公平的評測基準2.1. 人臉表情識別任務存在的領域偏移問題
由於數據收集條件以及標註標準的不一致,各個人臉表情數據集之間存在較為明顯的領域偏移,從而導致模型在跨域場景下的性能大幅下降。其中,數據收集條件不一致具體表現為收集環境不一致(實驗室受控環境 vs 自然非受控環境)和目標人群不一致;標註標準不一致具體表現為不同數據集的標註人員對於表情的理解具有主觀性,易受所處地區文化影響。如圖 2 所示,我們可以直觀地感受到不同人臉表情數據集之間所存在的明顯差異。
![](https://imageproxy.pixnet.cc/imgproxy?url=https://drbanana.ml/img/68747470733a2f2f6d6d62697a2e717069632e636e2f6d6d62697a5f6a70672f794e6e616c6b5845376f566230316e4f426f68696330696179793968713772744c564c51477a6c6d59654b326570375765655550394b56464b336c594b5a6d646251326f6f41716a6d7a6961594335646142744e75363851672f3634303f77785f666d743d6a706567.webp)
圖 2. 常見的人臉表情數據集
除了通過圖像數據進行直觀的感受外,我們還可以通過模型在各個數據集上的性能差異來衡量各個人臉表情數據集之間所存在的領域偏差。如圖 3 所示,我們以 ResNet-50 作為骨幹網絡,分別在各個數據集上進行訓練,再直接放該模型放在其他數據集上進行測試,由此得到全面且公平的基準結果。
![](https://imageproxy.pixnet.cc/imgproxy?url=https://drbanana.ml/img/68747470733a2f2f6d6d62697a2e717069632e636e2f6d6d62697a5f6a70672f794e6e616c6b5845376f566230316e4f426f68696330696179793968713772744c5669634a395a376c337632635a51316f4a394e564676574468783259365a4852706963306d4454724b5445793731585647474f57516c7450512f3634303f77785f666d743d6a706567.webp)
圖 3. 以 ResNet-50 作為骨幹網絡的基準結果2.2. 設置不一致的影響
在跨域人臉表情識別領域中,以往的工作往往存在對比不公平問題,使得研究者們難以準確衡量各個方法的有效性。其中,以往工作主要存在兩個不一致問題:1)源/目標域數據集選擇不一致,即不同算法選擇的源/目標域數據集不一致;2)骨幹網絡選擇不一致,即不同算法選擇的骨幹網絡不一致。
(1) 源/目標域數據集選擇不一致的影響:當源/目標域數據集選擇不一致時,不同算法將無法公平的進行比較。為更好地理解這一點,我們在論文中分別以 RAF 和 AFE 作為源域數據集進行實驗分析,即我們統計了在使用不同骨幹網絡的情況下所有方法的評價測試結果:如圖 4 所示,僅僅選取 RAF 和 AFE 進行源域對比實驗就存在 9.29% 的性能差異,證明源/目標域數據選取不一致極大地阻礙了不同算法之間的公平對比。其中,圖 4 中所使用骨幹網絡從左往右分別為 ResNet-50,ResNet-18 和 MobileNet-v2。
![](https://imageproxy.pixnet.cc/imgproxy?url=https://drbanana.ml/img/68747470733a2f2f6d6d62697a2e717069632e636e2f6d6d62697a5f706e672f794e6e616c6b5845376f566230316e4f426f68696330696179793968713772744c566c42585432426169615539696256414d62496e6b653244796644663443466c6568433349554b7169626577774f67473150354b4944453542412f3634303f77785f666d743d706e67.webp)
圖 4. 選用 RAF 和 AFE 作為源域數據的平均準確率
(2) 骨幹網絡選擇不一致的影響:當骨幹選擇不一致時,不同算法將無法公平的進行比較。為更好地理解這一點,我們在論文中分別以 ResNet-50,ResNet-18 和 MobileNet-v2 作為骨幹網絡進行實驗分析。具體而言,我們分別統計了以 RAF 和 AFE 作為源域數據集時所有方法的平均測試結果:如圖 5 所示,利用不同骨幹網絡進行特徵提取會存在多達 12% 的性能差異,說明骨幹網絡選取不一致極大地阻礙了不同算法之間的公平對比。其中,圖 5 所使用源域數據從左往右分別為 RAF 和 AFE。
![](https://imageproxy.pixnet.cc/imgproxy?url=https://drbanana.ml/img/68747470733a2f2f6d6d62697a2e717069632e636e2f6d6d62697a5f6a70672f794e6e616c6b5845376f566230316e4f426f68696330696179793968713772744c564b666a734647776a52646830493054315134696242324e6f423748646b6a364648786832684434493767724f5877554d46446c366170772f3634303f77785f666d743d6a706567.webp)
圖 5. 選用 ResNet-50/ResNet-18/MobileNet-v2 作為骨幹網絡的平均準確率2.3.統一且公平的評測基準
為了解決上述對比不公平的現狀,我們構建了一個統一且公平的評測基準。該評測基準復現了多個效果較好的跨域人臉表情識別方法,以及數個最新發表的通用領域自適應算法,並使用統一的源/目標域以及骨幹網絡選擇,以此進行公平的比較評測。與其他工作相比,該評測基準有多個優點:
數據選取一致:該評測基準統一了所有方法的源/目標域數據集選取設置,以此確保對各個方法進行統一且公平的對比。
骨幹網絡選取一致:該評測基準統一了所有方法的骨幹網絡選取設置,以此確保對各個方法進行統一且公平的對比。
骨幹網絡多樣:該基準選擇較為通用且參數量較多的 ResNet-50 和 ResNet-18,以及輕量化網絡Mobilenet-v2 作為骨幹網絡進行測試。
數據集涵蓋範圍廣:該評測基準囊括了多樣化的數據集作為源/目標域:1)選擇較多的數據集,包括 CK+ [1],JAFFE [2],SFEW2.0 [3],FER2013 [4],ExpW [5],RAF [6],AFE;2)數據集收集環境多樣,包括實驗室受控環境收集 [1, 2] 和自然非受控環境收集 [3,4,5,6] 和AFE;3)數據集人種文化多樣,包括來自歐美文化 [1,3,4,5] 的以及來自亞洲文化的 [2] 和 AFE。
對比方法涵蓋範圍廣:除了自然直觀的方法(如:直接遷移,基於偽標籤進行微調)外,該評測基準對比了多樣化的不同方法:1)效果較好的跨域人臉表情識別方法,包括 ICID [7],DFA [8],LPL [9],DETN [10],FTDNN [11],ECAN [12];2)最新發表的通用領域自適應算法,包括 CADA [13],SAFN [14],JUMBOT [15],ETD [16]。
![](https://imageproxy.pixnet.cc/imgproxy?url=https://drbanana.ml/img/68747470733a2f2f6d6d62697a2e717069632e636e2f6d6d62697a5f6a70672f794e6e616c6b5845376f566230316e4f426f68696330696179793968713772744c566b7458706c4a4130523670466469627a6961644350314f426242487a4530596349627538627637317452454d6346617853555951424867412f3634303f77785f666d743d6a706567.webp)
圖 6. 以 RAF 為源域數據集的實驗結果(其他實驗結果見原文)圖 7. 以 AFE 為源域數據集的實驗結果(其他實驗結果見原文)3.對抗圖表達學習
鑑於目前跨域人臉表情識別方法主要利用全局特徵用於域遷移的情況,我們提出了一個新穎的對抗圖表達學習框架,創造性地結合了圖表達傳播和對抗學習機制,以此實現跨域全局-局部特徵的協同學習和遷移。具體而言,該框架首先構建兩個圖來分別關聯每個域內和不同域之間的整體區域和局部區域。然後,該框架從所給定的輸入圖像中提取整體特徵和局部特徵,並使用可學習的各類統計分布來初始化相應的圖節點。最後,該框架採用兩個堆疊的圖卷積網絡在域內傳播整體-局部特徵以此探索整體區域與局部區域的相互關係,以及跨不同域傳播整體-局部特徵從而進行整體-局部特徵的協同適應。通過這種方式,該框架可以自適應地學習細粒度的域不變特徵,從而提高模型在跨域人臉表情識別設置下的性能。基於我們所提出的統一且公平的評測基準,該框架取得了優於所有現有方法的效果。
![](https://imageproxy.pixnet.cc/imgproxy?url=https://drbanana.ml/img/68747470733a2f2f6d6d62697a2e717069632e636e2f6d6d62697a5f6a70672f794e6e616c6b5845376f566230316e4f426f68696330696179793968713772744c564573747964566753324c69616963513439744d4c6271596d4f686731505077514a7a387a3574636f53677a78434c646963436b6c5a6a5757672f3634303f77785f666d743d6a706567.webp)
圖 8. AGRA 框架圖4. 亞洲人臉表情數據集
在人臉表情識別領域中,常見人臉表情數據集的人種文化主要以歐美文化為主 [1,3,4,5] ,很少有亞洲文化為主的人臉表情數據集。為補充跨人種文化表情識別這一空白領域,我們提出了一個大型的亞洲人臉表情數據集 AFE。該數據集包含 54901 張圖像,其中,訓練集包含 32757 張圖像,驗證集包含 16380 張圖像,測試集包含5464 張圖像。
相關成果:
T. Chen, T. Pu, H. Wu, Y. Xie, L. Liu, L. Lin, "Cross-Domain Facial Expression Recognition: A Unified Evaluation Benchmark and Adversarial Graph Learning", in TPAMI 2021.[PDF]
論文:https://arxiv.org/abs/2008.00923
代碼(已開源):
https://github.com/HCPLab-SYSU/CD-FER-Benchmark
Y. Xie, T. Chen, T. Pu, H. Wu, L. Lin, "Adversarial Graph Representation Adaptation for Cross-Domain Facial Expression Recognition", in ACM MM 2021.
Project Page:https://github.com/HCPLab-SYSU/CD-FER-Benchmark
Reference:
[1] P. Lucey, J. F. Cohn, T. Kanade, J. Saragih, Z. Ambadar, and I. Matthews, "The extended cohn-kanade dataset (ck+): A complete dataset for action unit and emotion-specified expression", in CVPR Workshops 2010.
[2] M. Lyons, S. Akamatsu, M. Kamachi, and J. Gyoba, "Coding facial expressions with gabor wavelets", in FG 1998.
[3] A. Dhall, R. Goecke, S. Lucey, and T. Gedeon, "Static facial expression analysis in tough conditions: Data, evaluation protocol and benchmark", in ICCV Workshop 2011.
[4] I. J. Goodfellow, D. Erhan, P. L. Carrier, A. Courville, M. Mirza, B. Hamner, W. Cukierski, Y. Tang, D. Thaler, D.-H. Lee et al., "Challenges in representation learning: A report on three machine learning contests,」 Neural Networks 2015.
[5] Z. Zhang, P. Luo, C. C. Loy, and X. Tang, 「From facial expression recognition to interpersonal relation prediction", in IJCV 2018.
[6] S. Li and W. Deng, 「Reliable crowdsourcing and deep localitypreserving learning for unconstrained facial expression recognition", in TIP 2018.
[7] Y. Ji, Y. Hu, Y. Yang, F. Shen, and H. T. Shen, "Cross-domain facial expression recognition via an intra-category common feature and inter-category distinction featurefusion networ", in Neurocomputing 2019.
[8] R. Zhu, G. Sang, and Q. Zhao, "Discriminative feature adaptationfor cross-domain facial expression recognitio", in ICB 2016.
[9] S. Li, W. Deng, and J. Du, "Reliable crowdsourcing and deep locality-preserving learning for expression recognition in the wild", CVPR 2017.
[10] S. Li and W. Deng, "Deep emotion transfer network for cross-database facial expression recognition", in ICPR 2018.
[11] M. V. Zavarez, R. F. Berriel, and T. Oliveira-Santos, "Cross-database facial expression recognition based on fine-tuned deep convolutional network", in SIBGRAPI 2017.
[12] S. Li and W. Deng, "A deeper look at facial expressiondataset bia", in TAC 2020.
[13] M. Long, Z. Cao, J. Wang, and M. I. Jordan, "Conditional adversarial domain adaptation", in NIPS 2018.
[14] C.-Y. Lee, T. Batra, M. H. Baig, and D. Ulbricht, "Sliced wasserstein discrepancy for unsupervised domain adaptation", in CVPR 2019.
[15] K. Fatras, T. Sejourne, R. Flamary, and N. Courty, "Unbalanced minibatchoptimal transpor; applications to domain adaptation", in PMLR 2021.
[16] M. Li, Y.-M. Zhai, Y.-W. Luo, P.-F. Ge, and C.-X. Ren, "Enhanced transport distance for unsuperviseddomain adaptatio", in CVPR 2020.
上面論文和代碼下載
後台回覆:CDFER,即可下載上述論文和代碼
後台回覆:CVPR2021,即可下載CVPR 2021論文和代碼開源的論文合集
後台回覆:ICCV2021,即可下載ICCV2021論文和代碼開源的論文合集
後台回覆:Transformer綜述,即可下載最新的3篇Transformer綜述PDF
重磅!人臉交流群成立
掃碼添加CVer助手,可申請加入CVer-人臉微信交流群,方向已涵蓋:目標檢測、圖像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超分辨率、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感圖像、行為識別、視頻理解、圖像融合、圖像檢索、論文投稿&交流、PyTorch和TensorFlow等群。
一定要備註:研究方向+地點+學校/公司+暱稱(如人臉+上海+上交+卡卡),根據格式備註,可更快被通過且邀請進群
▲長按加小助手微信,進交流群
▲點擊上方卡片,關注CVer公眾號
整理不易,請點讚和在看