人工智能與算法學習 - 何愷明編年史－鑽石舞台

榮譽

別人的榮譽都是在某某大廠工作，拿過什麼大獎，而何愷明的榮譽是best，best，best ......，裂開了

研究興趣

據我觀察，何愷明的研究興趣大致分成這麼幾個階段：

傳統視覺時代：Haze Removal(3篇)、Image Completion(2篇)、Image Warping(3篇)、Binary Encoding(6篇)

深度學習時代：Neural Architecture(11篇)、Object Detection(7篇)、Semantic Segmentation(11篇)、Video Understanding(4篇)、Self-Supervised(8篇)

代表作

2009 CVPR best paperSingle Image Haze Removal Using Dark Channel Prior

利用實驗觀察到的暗通道先驗，巧妙的構造了圖像去霧算法。現在主流的圖像去霧算法還是在Dark Channel Prior的基礎上做的改進。

2016 CVPR best paperDeep Residual Learning for Image Recognition

通過殘差連接，可以訓練非常深的卷積神經網絡。不管是之前的CNN，還是最近的ViT、MLP-Mixer架構，仍然擺脫不了殘差連接的影響。

2017 ICCV best paperMask R-CNN

在Faster R-CNN的基礎上，增加一個實例分割分支，並且將RoI Pooling替換成了RoI Align，使得實例分割精度大幅度提升。雖然最新的實例分割算法層出不窮，但是精度上依然難以超越Mask R-CNN。

2017 ICCV best student paperFocal Loss for Dense Object Detection

構建了一個One-Stage檢測器RetinaNet，同時提出Focal Loss來處理One-Stage的類別不均衡問題，在目標檢測任務上首次One-Stage檢測器的速度和精度都優於Two-Stage檢測器。近些年的One-Stage檢測器(如FCOS、ATSS)，仍然以RetinaNet為基礎進行改進。

2020 CVPR Best Paper NomineeMomentum Contrast for Unsupervised Visual Representation Learning

19年末，NLP領域的Transformer進一步應用於Unsupervised representation learning，產生後來影響深遠的BERT和GPT系列模型，反觀CV領域，ImageNet刷到飽和，似乎遇到了怎麼也跨不過的屏障。就在CV領域停滯不前的時候，Kaiming He帶着MoCo橫空出世，橫掃了包括PASCAL VOC和COCO在內的7大數據集，至此，CV拉開了Self-Supervised研究新篇章。

近期工作

62-Exploring Simple Siamese Representation Learning

SimSiam：孿生網絡表徵學習的頂級理論解釋

65-Masked Autoencoders Are Scalable Vision Learners

NLP和CV的雙子星，注入Mask的預訓練模型BERT和MAE

時間線

1-Single Image Haze Removal Using Dark Channel Prior

kaiming he通過大量無霧圖片統計發現了dark channel prior—在無霧圖的局部區域中，3個通道的最小亮度值非常小接近於0(不包括天空區域)。

dark channel prior通過暗通道先驗對haze imaging model進行化簡，近似計算得到粗糙的transmission，然後將haze imaging model和matting model聯繫起來，巧妙的將圖像去霧問題轉化為摳圖問題，得到refined transmission，精彩！

何愷明經典之作—2009 CVPR Best Paper | Dark Channel Prior

3-Guided Image Filtering

Guided image filtering是結合兩幅圖片信息的過程，一個filtering input image(表示為p)和一個guide image(表示為I)生成一個filtering output image(表示為q)。p決定了q的顏色,亮度,和色調，I決定了q的邊緣。對於圖像去霧來說，transmission就是p，霧圖就是I，refined transmission就是q。

guided filter則通過公式轉換，和濾波聯繫起來，提出新穎的guided filter，巧妙的避開了linear system的計算過程，極大加快了transmission優化的速度。

何愷明經典之作—2009 CVPR Best Paper | Dark Channel Prior

37-Focal Loss for Dense Object Detection

Soft Sampling：探索更有效的採樣策略

38-Mask R-CNN

從R-CNN到Mask R-CNN的思維躍遷

62-Exploring Simple Siamese Representation Learning

SimSiam的理論解釋意味着帶stop-gradient的孿生網絡表徵學習都可以用EM算法解釋。stop-gradient起到至關重要的作用，並且需要一個預測期望E的方法進行輔助使用。但是SimSiam仍然無法解釋模型坍塌現象，SimSiam以及它的變體不坍塌現象仍然是一個經驗性的觀察，模型坍塌仍然需要後續的工作進一步討論。

Self-Supervised: 如何避免退化解

SimSiam：孿生網絡表徵學習的頂級理論解釋

63-A Large-Scale Study on Unsupervised Spatiotemporal Representation Learning

指出時空的Self-Supervised採樣同一個視頻的positive pair時間跨度越長效果越好，momentum encoder比優化目標重要，訓練時間、backbone、數據增強和精選數據對於得到更好性能至關重要。

何愷明+Ross Girshick：深入探究無監督時空表徵學習

64-An Empirical Study of Training Self-Supervised Vision Transformers

MoCov1通過dictionary as a queue和momentum encoder和shuffle BN三個巧妙設計，使得能夠不斷增加K的數量，將Self-Supervised的威力發揮的淋漓盡致。MoCov2在MoCov1的基礎上，增加了SimCLR實驗成功的tricks，然後反超SimCLR重新成為當時的SOTA，FAIR和Google Research爭鋒相對之作，頗有華山論劍的意思。MoCov3通過實驗探究洞察到了Self-Supervised+Transformer存在的問題，並且使用簡單的方法緩解了這個問題，這給以後的研究者探索Self-Supervised+Transformer提供了很好的啟示。

MoCo三部曲

65-Masked Autoencoders Are Scalable Vision Learners

MAE設計了一個encoder-decoder預訓練框架，encoder只送入image token，decoder同時送入image token和mask token，對patch序列進行重建，最後還原成圖片。相比於BEiT，省去了繁瑣的訓練tokenizer的過程，同時對image token和mask token進行解耦，特徵提取和圖像重建進行解耦，encoder只負責image token的特徵提取，decoder專注於圖像重建，這種設計直接導致了訓練速度大幅度提升，同時提升精度，真稱得上MAE文章中所說的win-win scenario了。

NLP和CV的雙子星，注入Mask的預訓練模型BERT和MAE

kaiming科研嗅覺頂級，每次都能精準的踩在最關鍵的問題上，提出的方法簡潔明了，同時又蘊含着深刻的思考，文章賞心悅目，實驗詳盡紮實，工作質量說明一切。

鑽石舞台

鑽石鑽石亮晶晶

人工智能與算法學習 - 何愷明編年史

歷史上的今天

留言列表

文章搜尋

最新文章

熱門文章

誰來我家

參觀人氣