掩碼建模方法,在 NLP 領域 (例如 BERT) 得到了廣泛的應用。隨着 ViT 的提出和發展,人們也嘗試將掩碼圖像建模(MIM)應用到視覺領域並取得了一定進展。在此之前,視覺自監督算法主要沿着對比學習(contrastive learning)的思路去設計,而 MIM 無疑打開了新的大門。
來自北京大學、香港大學和百度的研究者近日提出了一種名為CAE的新型 MIM 方法。該方法通過對「表徵學習」 和 「解決前置任務(pretext task)」 這兩個功能做完全分離,使得編碼器學習到更好的表徵,從而在下游任務上實現了更好的泛化性能。