點擊下方卡片,關注「新機器視覺」公眾號
重磅乾貨,第一時間送達
Deep Learning
Target Detection Algorithms
VOL.1
近年來,深度學習在計算機視覺各個領域中的應用成效顯著,新的深度學習方法和深度神經網絡模型不斷湧現,算法性能被不斷刷新。
近20年來,隨着深度學習技術的迅猛發展和圖形處理器(Graphics processing unit,GPU)等硬件計算設備的廣泛普及,深度學習技術幾乎已經應用到計算機視覺的各個領域,如目標檢測、圖像分割、超分辨率重建及人臉識別等,並在圖像搜索、自動駕駛、用戶行為分析、文字識別、虛擬現實和激光雷達等產品中具有不可估量的商業價值和廣闊的應用前景。
目標檢測任務作為計算機視覺的基本任務之一,包含物體的分類、定位和檢測。從2014至今以R-CNN算法為開端,在對深度學習和計算機視覺的不斷研究下,又湧現出Fast R-CNN、Faster R-CNN、SPPNet等多個TwoStage算法,由於Two Stage算法需先篩選出一些可能存在的候選區域,然後針對每個候選區域,進行目標特徵提取,效率相對較低,無法滿足實時性要求。

雙階段算法流程
而單階段與雙階段算法目標檢測流程有所不同,可以進行端到端檢測,無候選區分類,運行速度更快,但是精度略低。常見的單階段目標檢測算法包括YOLO(You Only Look Once)系列和SSD(Single Shot Multi-Box Detector)系列。

單階段算法流程
YOLO是單階段模型的代表,它沒有提出候選區域的過程,而是直接將提出候選區域和分類統一為一個邊界框回歸的問題,將整張圖片作為網絡的輸入,在輸出層對邊界框位置信息和類別進行回歸,實現了端到端的學習過程。

YOLO示意圖

YOLO網絡結構圖
目標檢測技術從傳統的手工特徵算法到如今的深度學習算法,精度越來越高的同時速度也越來越快。在過去幾年中,工業界已經出現了成熟的基於目標檢測技術的應用,如果蔬採摘識別、人臉檢測識別、行人檢測、交通信號檢測、文本檢測和遙感目標檢測等。這些應用不僅便利了人們的生活,也為學術界提供了啟發和指導。

VOL.2
深度學習技術近年來在計算機視覺中的目標檢測任務上都取得了卓越的成績,充分證明了它的價值和潛力。然而深度學習領域仍然有不少難題無法解決,如對數據的依賴性強、模型難以在不同領域之間直接遷移、深度學習模型的可解釋性不強等,如何攻克這些難題將是下一階段的發展方向。為了追求極致的性能,很多科技巨頭投入了巨大的人力財力搭建巨型模型,如OpenAI發布的擁有1750億個參數的GPT-3,谷歌發布的擁有1.6萬億個參數的Switch Transformer,快手發布的擁有1.9萬億個參數的推薦精排模型,這些模型需要大量的訓練時間和計算資源,如何設計計算硬件、系統和算法來加速訓練是一項新的挑戰。深度學習技術嚴重依賴大規模帶標籤的數據集,因此無監督學習技術、自監督技術,例如表示學習、預訓練模型等,仍然是重要的研究方向。同時深度學習技術帶來的安全隱患也引起了重視,如何在保護用戶隱私的前提下優化分布式訓練是另一個具有潛力的研究方向。

附圖是深度學習之父Geoffrey Hinton。Geoffrey Hilton和他的學生在2006年左右發明了用GPU來優化深度神經網絡的工程方法,並發表在《Science》和相關期刊上發表了論文,首次提出了「深度信念網絡」的概念。他給多層神經網絡相關的學習方法賦予了一個新名詞–「深度學習」。隨後深度學習的研究大放異彩,廣泛應用在了圖像處理和語音識別領域。
本文僅做學術分享,如有侵權,請聯繫刪文。
