極市平台 - 90+深度學習開源數據集整理｜包括目標檢測、工業缺陷、圖像分割等多個方向－鑽石舞台

↑ 點擊藍字關注極市平台

編輯丨極市平台

極市導讀

本文整理匯總了90+深度學習各方向的開源數據集，包含了小目標檢測、目標檢測、工業缺陷檢測、人臉識別、姿態估計、圖像分割、圖像識別等方向。附下載鏈接。>>加入極市CV技術交流群，走在計算機視覺的最前沿

小目標檢測1.AI-TOD航空圖像數據集

數據集下載地址：http://m6z.cn/5MjlYk

AI-TOD 在 28,036 張航拍圖像中包含 8 個類別的 700,621 個對象實例。與現有航拍圖像中的目標檢測數據集相比，AI-TOD 中目標的平均大小約為 12.8 像素，遠小於其他數據集。

2.iSAID航空圖像大規模數據集

數據集下載地址：http://m6z.cn/6nUrYe

現有的 Earth Vision 數據集要麼適用於語義分割，要麼適用於對象檢測。iSAID 是第一個用於航空圖像實例分割的基準數據集。這個大規模和密集注釋的數據集包含 2,806 張高分辨率圖像的 15 個類別的 655,451 個對象實例。iSAID 的顯着特徵如下：(a) 大量具有高空間分辨率的圖像，(b) 十五個重要且常見的類別，(c) 每個類別的大量實例，(d) 每個類別的大量標記實例圖像，這可能有助於學習上下文信息，(e) 巨大的對象尺度變化，通常在同一圖像內包含小、中和大對象，(f) 圖像內具有不同方向的對象的不平衡和不均勻分布，描繪真實-生活空中條件，（g）幾個小尺寸物體，外觀模糊，只能通過上下文推理來解決，（h）由專業注釋者執行的精確實例級注釋，由符合良好規範的專家注釋者交叉檢查和驗證定義的指導方針。

圖片3.TinyPerson數據集

數據集下載地址：http://m6z.cn/6vqF3T

在 TinyPerson 中有 1610 個標記圖像和 759 個未標記圖像（兩者主要來自同一視頻集），總共有 72651 個注釋。

4.Deepscores 數據集

數據集下載地址：http://m6z.cn/5xgYdY

DeepScores 數據集的目標是推進小物體識別的最新技術，並將物體識別問題置於場景理解的背景下。DeepScores 包含高質量的樂譜圖像，分為 300 0 000 張書面音樂，其中包含不同形狀和大小的符號。擁有近一億個小對象，這使得我們的數據集不僅獨一無二，而且是最大的公共數據集。DeepScores 帶有用於對象分類、檢測和語義分割的基本事實。因此，DeepScores 總體上對計算機視覺提出了相關挑戰，超出了光學音樂識別 (OMR) 研究的範圍。

5.密集行人檢測數據集

數據集下載地址：http://m6z.cn/6nUs1C

WiderPerson 數據集是野外行人檢測基準數據集，其圖像選自廣泛的場景，不再局限於交通場景。我們選擇了 13,382 張圖像並標記了大約 400K 帶有各種遮擋的注釋。我們隨機選擇 8000/1000/4382 圖像作為訓練、驗證和測試子集。與 CityPersons 和 WIDER FACE 數據集類似，我們不發布測試圖像的邊界框基本事實。用戶需要提交最終的預測文件，我們將進行評估。

6.加州理工學院行人檢測數據集

數據集下載地址：http://m6z.cn/5N3Yk7

加州理工學院行人數據集由大約 10 小時的 640x480 30Hz 視頻組成，該視頻取自在城市環境中通過常規交通行駛的車輛。注釋了大約 250,000 幀（在 137 個大約分鐘長的片段中），總共 350,000 個邊界框和 2300 個獨特的行人。注釋包括邊界框和詳細的遮擋標籤之間的時間對應關係。

7.NWPU VHR-10衛星圖像數據集

數據集下載地址：http://m6z.cn/5UAbEW

NWPU VHR-10 Dataset 是一個用於空間物體檢測的 10 級地理遙感數據集，其擁有 650 張包含目標的圖像和 150 張背景圖像，共計 800 張，目標種類包括飛機、艦船、油罐、棒球場、網球場、籃球場、田徑場、港口、橋樑和汽車共計 10 個類別。

該數據集由西北工業大學於 2014 年發布，相關論文有《Multi-class geospatial object detection and geographic imageclassification based on collection of part detectors》、《A survey on objectdetection in optical remote sensing images》和《Learningrotation-invariant convolutional neural networks for object detection in VHRoptical remote sensing images》。

8.Inria 航空影像數據集

數據集下載地址：http://m6z.cn/6nUs6s

Inria 航空影像標註解決了遙感中的一個核心主題：航空影像的自動像素級標註（論文鏈接）。

數據集特點：

覆蓋面積 810 平方公里（405 平方公里用於訓練，405 平方公里用於測試）

空間分辨率為 0.3 m 的航空正射校正彩色圖像

兩個語義類的地面實況數據：構建和非構建（僅針對訓練子集公開披露）

這些圖像涵蓋了不同的城市住區，從人口稠密的地區（例如，舊金山的金融區）到高山城鎮（例如，奧地利蒂羅爾的 Lienz）。

9.RSOD遙感圖像數據集

數據集下載地址：http://m6z.cn/5EN96H

它是一個開放的遙感圖像目標檢測數據集。數據集包括飛機、油箱、遊樂場和立交橋。此數據集的格式為PASCAL VOC。數據集包括4個文件，每個文件用於一種對象。

飛機數據集，446張圖片中有4993架飛機。

操場，189張圖片中的191個操場。

天橋，176張圖片中的180座天橋。

油箱，165張圖片中的1586個油箱。

10.小目標檢測數據集

數據集下載地址：http://m6z.cn/616t6R

從Internet（例如YouTube或Google）上的圖像/視頻收集的四個小物體數據集，包括4種類型的圖像，可用於小物體目標檢測的研究。

數據集包含四類：

fly：飛行數據集，包含600個視頻幀，平均每幀86±39個物體（648×72 @ 30 fps）。32張圖像用於訓練（1：6：187），50張圖像用於測試（301：6：600）。

honeybee：蜜蜂數據集，包含118張圖像，每張圖像平均有28±6個蜜蜂（640×480）。數據集被平均分配用於訓練和測試集。僅前32張圖像用於訓練。

seagull：海鷗數據集，包含三個高分辨率圖像（624×964），每個圖像平均有866±107個海鷗。第一張圖片用於訓練，其餘圖片用於測試。

fish：魚數據集，包含387幀視頻數據，平均每幀56±9條魚（300×410 @ 30 fps）。32張圖像進行訓練（1：3：94），65張圖像進行測試（193：3：387）。

目標檢測開源數據集11.COCO2017數據集

COCO2017是2017年發布的COCO數據集的一個版本，主要用於COCO在2017年後持有的物體檢測任務、關鍵點檢測任務和全景分割任務。

12.火焰和煙霧圖像數據集

數據集鏈接：http://m6z.cn/6fzn0f

該數據集由早期火災和煙霧的圖像數據集組成。數據集由在真實場景中使用手機拍攝的早期火災和煙霧圖像組成。大約有7000張圖像數據。圖像是在各種照明條件（室內和室外場景）、天氣等條件下拍攝的。該數據集非常適合早期火災和煙霧探測。數據集可用於火災和煙霧識別、檢測、早期火災和煙霧、異常檢測等。數據集還包括典型的家庭場景，如垃圾焚燒、紙塑焚燒、田間作物焚燒、家庭烹飪等。本文僅含100張左右。

13.DOTA航拍圖像數據集

數據集鏈接：http://m6z.cn/6vIKlJ

DOTA是用於航空圖像中目標檢測的大型數據集。它可以用於開發和評估航空圖像中的目標探測器。這些圖像是從不同的傳感器和平台收集的。每個圖像的大小在800×800到20000×20000像素之間，包含顯示各種比例、方向和形狀的對象。DOTA圖像中的實例由航空圖像解釋專家通過任意（8 d.o.f.）四邊形進行注釋。

14. AITEX數據集

數據集鏈接：http://m6z.cn/5DdJL1

該數據庫由七個不同織物結構的245張4096 x 256像素圖像組成。數據庫中有140個無缺陷圖像，每種類型的織物20個，除此之外，有105幅紡織行業中常見的不同類型的織物缺陷（12種缺陷）圖像。圖像的大尺寸允許用戶使用不同的窗口尺寸，從而增加了樣本數量。

15. T-LESS數據集

數據集鏈接：http://m6z.cn/5wnucm

該數據集採集的目標為工業應用、紋理很少的目標，同時缺乏區別性的顏色，且目標具有對稱性和互相關性，數據集由三個同步的傳感器獲得，一個結構光傳感器，一個RGBD sensor，一個高分辨率RGBsensor，從每個傳感器分別獲得了3.9w訓練集和1w測試集，此外為每個目標創建了2個3D model,一個是CAD手工製作的另一個是半自動重建的。訓練集圖片的背景大多是黑色的，而測試集的圖片背景很多變，會包含不同光照、遮擋等等變換（之所以這麼做作者說是為了使任務更具有挑戰性）。

同時作者解釋了本數據集的優勢在於：1.大量跟工業相關的目標；2.訓練集都是在可控的環境下抓取的；3.測試集有大量變換的視角；4.圖片是由同步和校準的sensor抓取的；5.準確的6D pose標籤；6.每個目標有兩種3D模型；

16.H²O 行人交互檢測數據集

數據集鏈接：http://m6z.cn/6fzmQf

H²O由V-COCO數據集中的10301張圖像組成，其中添加了3635張圖像，這些圖像主要包含人與人之間的互動。所有的H²O圖像都用一種新的動詞分類法進行了注釋，包括人與物和人與人之間的互動。該分類法由51個動詞組成，分為5類：

描述主語一般姿勢的動詞

與主語移動方式有關的動詞

與賓語互動的動詞

描述人與人之間互動的動詞

涉及力量或暴力的互動動詞

17.SpotGarbage垃圾識別數據集

數據集鏈接：http://m6z.cn/5ZMmRG

圖像中的垃圾（GINI）數據集是SpotGarbage引入的一個數據集，包含2561張圖像，956張圖像包含垃圾，其餘的是在各種視覺屬性方面與垃圾非常相似的非垃圾圖像。

18.NAO自然界對抗樣本數據集

數據集鏈接：http://m6z.cn/5KJWJA

NAO包含7934張圖像和9943個對象，這些圖像未經修改，代表了真實世界的場景，但會導致最先進的檢測模型以高置信度錯誤分類。與標準MSCOCO驗證集相比，在NAO上評估時，EfficientDet-D7的平均精度（mAP）下降了74.5%。

19.Labelme 圖像數據集

數據集鏈接：http://m6z.cn/5Sg9NX

Labelme Dataset 是用於目標識別的圖像數據集，涵蓋 1000 多個完全注釋和 2000 個部分注釋的圖像，其中部分注釋圖像可以被用於訓練標記算法，測試集擁有來自於世界不同地方拍攝的圖像，這可以保證圖片在續聯和測試之間會有較大的差異。該數據集由麻省理工學院 –計算機科學和人工智能實驗室於 2007 年發布，相關論文有《LabelMe: a database and web-based tool for image annotation》。

20.印度車輛數據集

數據集鏈接：http://m6z.cn/6uxAIx

該數據集包括小眾印度車輛的圖像，如Autorikshaw、Tempo、卡車等。該數據集由用於分類和目標檢測的小眾印度車輛圖像組成。據觀察，這些小眾車輛（如autorickshaw、tempo、trucks等）上幾乎沒有可用的數據集。這些圖像是在白天、晚上和晚上的不同天氣條件下拍攝的。該數據集具有各種各樣的照明、距離、視點等變化。該數據集代表了一組非常具有挑戰性的利基類車輛圖像。該數據集可用於駕駛員輔助系統、自動駕駛等的圖像識別和目標檢測。

21.Seeing 3D chairs椅子檢測模型

數據集鏈接：http://m6z.cn/5DdK0v

椅子數據集包含大約1000個不同三維椅子模型的渲染圖像。

22.SUN09場景理解數據集

數據集鏈接：http://m6z.cn/60wX8r

SUN09數據集包含12000個帶注釋的圖像，其中包含200多個對象類別。它由自然、室內和室外圖像組成。每個圖像平均包含7個不同的注釋對象，每個對象的平均占用率為圖像大小的5%。對象類別的頻率遵循冪律分布。發布者使用 397 個採樣良好的類別進行場景識別，並以此搭配最先進的算法建立新的性能界限。

該數據集由普林斯頓視覺與機器人實驗室於 2014 年發布，相關論文有《SUN Database: Large-scale Scene Recognition from Abbey to Zoo》、《SUN Database: Exploring a Large Collection of Scene Categories》。

23.Unsplash圖片檢索數據集

數據集鏈接：http://m6z.cn/5wnuoM

使用迄今為止公開共享的全球最大的開放檢索信息數據集。Unsplash數據集由250000多名貢獻攝影師創建，並包含了數十億次照片搜索的信息和對應的照片信息。由於Unsplash數據集中包含廣泛的意圖和語義，它為研究和學習提供了新的機會。

24.HICO-DET人物交互檢測數據集

數據集鏈接：http://m6z.cn/5DdK6D

HICO-DET是一個用於檢測圖像中人-物交互（HOI）的數據集。它包含47776幅圖像（列車組38118幅，測試組9658幅），600個HOI類別，由80個賓語類別和117個動詞類別構成。HICO-DET提供了超過150k個帶注釋的人類對象對。V-COCO提供了10346張圖像（2533張用於培訓，2867張用於驗證，4946張用於測試）和16199人的實例。

25.上海科技大學人群統計數據集

數據集鏈接：http://m6z.cn/5Sgafn

上海科技數據集是一個大規模的人群統計數據集。它由1198張帶注釋的群組圖像組成。數據集分為兩部分，A部分包含482張圖像，B部分包含716張圖像。A部分分為訓練和測試子集，分別由300和182張圖像組成。B部分分為400和316張圖像組成的序列和測試子集。群組圖像中的每個人都有一個靠近頭部中心的點進行注釋。總的來說，該數據集由33065名帶注釋的人組成。A部分的圖像是從互聯網上收集的，而B部分的圖像是在上海繁忙的街道上收集的。

26.生活垃圾數據集

數據集鏈接：http://m6z.cn/6n5Adu

大約9000多張獨特的圖片。該數據集由印度國內常見垃圾對象的圖像組成。圖像是在各種照明條件、天氣、室內和室外條件下拍攝的。該數據集可用於製作垃圾/垃圾檢測模型、環保替代建議、碳足跡生成等。

27.RMFD口罩遮擋人臉數據集

數據集下載地址：http://m6z.cn/61z9Fv

當前大多數高級人臉識別方法都是基於深度學習而設計的，深度學習取決於大量人臉樣本。但是，目前尚沒有公開可用的口罩遮擋人臉識別數據集。為此，這項工作提出了三種類型的口罩遮擋人臉數據集，包括口罩遮擋人臉檢測數據集（MFDD），真實口罩遮擋人臉識別數據集（RMFRD）和模擬口罩遮擋人臉識別數據集（SMFRD）。基於這些數據集，可以開發口罩遮擋人臉的各種應用。本項目開發的多粒度口罩遮擋人臉識別模型可達到95％的準確性，超過了行業報告的結果。

28.GTSRB德國交通標誌數據集

數據集下載地址：http://m6z.cn/5wJJLA

德國交通標誌基準測試是在 2011 年國際神經網絡聯合會議 (IJCNN) 上舉辦的多類單圖像分類挑戰賽。我們誠邀相關領域的研究人員參與：該比賽旨在參與者無需特殊領域知識。我們的基準測試具有以下屬性：

單圖像、多類分類問題

40多個分類

總共超過 50,000 張圖片

逼真的大型數據庫

29.VOC2005車輛數據集

數據集下載地址：http://m6z.cn/5U2X4u

該數據集中含有自行車、摩托車、汽車、貨車的圖像數據，可用於CNN模型以實現車輛識別和車輛分類，其中自行車、摩托車、汽車數據來自2005 PASCAL視覺類挑戰賽（VOC2005）所使用的數據的篩選處理結果，貨車圖片來自網絡收集，後期通過篩選處理得到。在本數據中，訓練數據集與測試數據集占比約為5:1。

30.Winegrape檢測數據集

數據集下載地址：http://m6z.cn/5TikF9

WGISD（Wine Grape Instance Segmentation Dataset）是為了提供圖像和注釋來研究對象檢測和實例分割，用於葡萄栽培中基於圖像的監測和現場機器人技術。它提供了來自五種不同葡萄品種的實地實例。這些實例顯示了葡萄姿勢、光照和焦點的變化，包括遺傳和物候變化，如形狀、顏色和緊實度。可能的用途包括放寬實例分割問題：分類（圖像中是否有葡萄？）、語義分割（圖像中的「葡萄像素」是什麼？）、對象檢測（圖像中的葡萄在哪裡？）、和計數（每個簇有多少漿果？）。

31.全球小麥檢測數據集

數據集下載地址：http://m6z.cn/5wJK64

檢測小麥穗是一項重要任務，可以估計相關性狀，包括穗種群密度和穗特徵，如衛生狀況、大小、成熟階段和芒的存在。本數據集包含 4,700 張高分辨率 RGB 圖像和 190,000 個標記的小麥頭，這些小麥頭採集自世界各地不同生長階段的不同基因型的多個國家。

32.Linkopings交通標誌數據集

數據集下載地址：http://m6z.cn/68ldS0

通過記錄超過 350 公里的瑞典高速公路和城市道路的序列，創建了一個數據集。一個 1.3 兆像素的彩色攝像機，一個點灰色變色龍，被放置在一輛汽車的儀錶板上，從前窗向外看。攝像頭略微指向右側，以便儘可能多地覆蓋相關標誌。該鏡頭的焦距為 6.5 毫米，視野約為 41 度。高速公路上的典型速度標誌大約為 90 cm 寬，如果要在大約 30 m 的距離處檢測到它們，則對應於大約 50 像素的大小。總共記錄了超過 20 000 幀，其中每五幀被手動標記。每個標誌的標籤包含標誌類型（人行橫道、指定車道右側、禁止站立或停車、優先道路、讓路、50 公里/小時或 30 公里/小時）、能見度狀態（遮擋、模糊或可見）和道路狀態（是否標誌是在正在行駛的道路上或在小路上）。

33.防護裝備-頭盔和背心檢測

數據集下載地址：http://m6z.cn/61zarT

包含 774 個眾包圖像和 698 個網絡挖掘圖像。眾包和網絡挖掘的圖像分別包含 2,496 和 2,230 個工人實例。

34.加州理工學院相機陷阱數據集

數據集鏈接：https://beerys.github.io/CaltechCameraTraps/

該數據集包含來自美國西南部 140 個攝像頭位置的 243,100 張圖像，帶有 21 個動物類別的標籤（加上空白），主要是在物種級別（例如，最常見的標籤是負鼠、浣熊和土狼），以及大約 66,000 個邊界框注釋。大約 70% 的圖像被標記為空。

35.水下垃圾檢測數據集

數據集下載地址：http://m6z.cn/6nnDQK

該數據來自 J-EDI 海洋垃圾數據集。構成該數據集的視頻在質量、深度、場景中的對象和使用的相機方面差異很大。它們包含許多不同類型的海洋垃圾的圖像，這些圖像是從現實世界環境中捕獲的，提供了處於不同衰減、遮擋和過度生長狀態的各種物體。此外，水的清晰度和光的質量因視頻而異。這些視頻經過處理以提取 5,700 張圖像，這些圖像構成了該數據集，所有圖像都在垃圾實例、植物和動物等生物對象以及 ROV 上標有邊界框。

工業檢測數據集36.坑窪檢測數據集

數據集下載地址：http://m6z.cn/5wJJTa

本數據集匯總了700個在坑窪處帶有3K +注釋的圖像，用於從道路圖像中檢測坑窪，檢測道路地形和坑窪。

37.天池鋁型材表面缺陷數據集

數據集下載地址：http://m6z.cn/61EksR

大賽數據集裡有1萬份來自實際生產中有瑕疵的鋁型材監測影像數據，每個影像包含一個或多種瑕疵。供機器學習的樣圖會明確標識影像中所包含的瑕疵類型。

38.Kylberg 紋理數據集

數據集下載地址：http://m6z.cn/61Ekw5

在布匹的實際生產過程中，由於各方面因素的影響，會產生污漬、破洞、毛粒等瑕疵，為保證產品質量，需要對布匹進行瑕疵檢測。布匹疵點檢驗是紡織行業生產和質量管理的重要環節，目前人工檢測易受主觀因素影響，缺乏一致性；並且檢測人員在強光下長時間工作對視力影響極大。由於布匹疵點種類繁多、形態變化多樣、觀察識別難道大，導致布匹疵點智能檢測是困擾行業多年的技術瓶頸。本數據涵蓋了紡織業中布匹的各類重要瑕疵，每張圖片含一個或多種瑕疵。數據包括包括素色布和花色布兩類，其中，素色布數據約8000張；花色布數據約12000張。

39.東北大學帶鋼表面缺陷數據集

數據集下載地址：http://m6z.cn/5U87us

數據集收集了夾雜、劃痕、壓入氧化皮、裂紋、麻點和斑塊6種缺陷，每種缺陷300張，圖像尺寸為200×200。數據集包括分類和目標檢測兩部分，不過目標檢測的標註中有少量錯誤，需要注意。

40.Severstal 帶鋼缺陷數據集

數據集下載地址：http://m6z.cn/61EkBp

該數據集中提供了四種類型的帶鋼表面缺陷。訓練集共有12568張，測試集5506張。圖像尺寸為1600×256。

41.UCI 帶鋼缺陷數據集

數據集下載地址：http://m6z.cn/61EkUh

該數據集包含了7種帶鋼缺陷類型。這個數據集不是圖像數據，而是帶鋼缺陷的28種特徵數據，可用於機器學習項目。鋼板故障的7種類型：裝飾、Z_劃痕、K_劃痕、污漬、骯髒、顛簸、其他故障。

42.DAGM 2007數據集

數據集下載地址：http://m6z.cn/5F5eQV

該數據集主要針對紋理背景上的雜項缺陷，為較弱監督的訓練數據。包含十個數據集，前六個為訓練數據集，後四個為測試數據集。每個數據集均包含以灰度8位PNG格式保存的1000個「無缺陷」圖像和150個「有缺陷」圖像，每個數據集由不同的紋理模型和缺陷模型生成。「無缺陷」圖像顯示的背景紋理沒有缺陷，「無缺陷」圖像的背景紋理上恰好有一個標記的缺陷。所有數據集已隨機分為大小相等的訓練和測試子數據集。弱標籤以橢圓形表示，大致表示缺陷區域。

43.磁瓦缺陷數據集

數據集下載地址：http://m6z.cn/5F5eSd

中國科學院自動所一個課題組收集的數據集，是「Saliency of magnetic tile surface defects」這篇論文的數據集。收集了6種常見磁瓦缺陷的圖像，並做了語義分割的標註。

44.RSDDs鐵軌表面缺陷數據集

數據集下載地址：http://m6z.cn/61EkKL

RSDDs數據集包含兩種類型的數據集：第一種是從快車道捕獲的I型RSDDs數據集，其中包含67個具有挑戰性的圖像。第二個是從普通/重型運輸軌道捕獲的II型RSDDs數據集，其中包含128個具有挑戰性的圖像。

兩個數據集的每幅圖像至少包含一個缺陷，並且背景複雜且噪聲很大。

RSDDs數據集中的這些缺陷已由一些專業的人類觀察員在軌道表面檢查領域進行了標記。

45.KTH-TIPS 紋理圖像數據集

數據集下載地址：http://m6z.cn/61EkMH

KTH-TIPS 是一個紋理圖像數據集，在不同的光照、角度和尺度下拍攝的不同材質表面紋理圖片。類型包括砂紙、鋁箔、發泡膠、海綿、燈芯絨、亞麻、棉、黑麵包、橙皮和餅乾共10類。

46.印刷電路板（PCB）瑕疵數據集

數據集下載地址：http://m6z.cn/5U87Ji

這是一個公共的合成PCB數據集，由北京大學發布，其中包含1386張圖像以及6種缺陷（缺失孔，鼠咬壞，開路，短路，雜散，偽銅），用於檢測，分類和配准任務。

人臉識別常用開源數據集47.IMDB-WIKI人臉數據集

數據集下載地址：http://m6z.cn/6gGnTd

IMDB-WIKI 500k+ 是一個包含名人人臉圖像、年齡、性別的數據集，圖像和年齡、性別信息從 IMDB 和 WiKi 網站抓取，總計 524230 張名人人臉圖像及對應的年齡和性別。其中，獲取自 IMDB 的 460723 張，獲取自 WiKi 的 62328 張。

48.WiderFace人臉檢測數據集

數據集下載地址：http://m6z.cn/5Nm7gp

WIDER FACE數據集是人臉檢測的一個benchmark數據集，包含32203圖像，以及393,703個標註人臉，其中，158,989個標註人臉位於訓練集，39,,496個位於驗證集。每一個子集都包含3個級別的檢測難度：Easy，Medium，Hard。這些人臉在尺度，姿態，光照、表情、遮擋方面都有很大的變化範圍。WIDER FACE選擇的圖像主要來源於公開數據集WIDER。製作者來自於香港中文大學，他們選擇了WIDER的61個事件類別，對於每個類別，隨機選擇40%10%50%作為訓練、驗證、測試集。

49.LFW 人像圖像數據集

數據集下載地址：http://m6z.cn/61EnzL

該數據集是用於研究無約束面部識別問題的面部照片數據庫。數據集包含從網絡收集的13000多張圖像。每張臉都貼上了所畫的人的名字，圖片中的1680人在數據集中有兩個或更多不同的照片。

50.GENKI 人臉圖像數據集

數據集下載地址：http://m6z.cn/5F5hLp

GENKI數據集是由加利福尼亞大學的機器概念實驗室收集。該數據集包含GENKI-R2009a,GENKI-4K,GENKI-SZSL三個部分。GENKI-R2009a包含11159個圖像，GENKI-4K包含4000個圖像，分為「笑」和「不笑」兩種，每個圖片的人臉的尺度大小，姿勢，光照變化，頭的轉動等都不一樣，專門用於做笑臉識別。GENKI-SZSL包含3500個圖像，這些圖像包括廣泛的背景，光照條件，地理位置，個人身份和種族等。

51.哥倫比亞大學公眾人物臉部數據庫

數據集鏈接：http://m6z.cn/5DlIR9

PubFig Dataset 是一個大型人臉數據集，主要用於人臉識別和身份鑑定，其涵蓋互聯網上 200 人的 58,797 張圖像，不同於大多數現有面部數據集，這些圖像是在主體完全不受控制的情況下拍攝的，因此不同圖像中姿勢、光照、表情、場景、相機、成像條件和參數存在較大差異，該數據集類似於 UMass-Amherst 創建的 LFW 數據集。

該數據集由哥倫比亞大學於 2009 年發布，相關論文有《Attribute and Simile Classifiers for Face Verification》。

52.CelebA人臉數據集

數據集鏈接：http://m6z.cn/60EW0n

CelebFaces Attributes Dataset (CelebA) 是一個大規模的人臉屬性數據集，包含超過 20 萬張名人圖像，每張都有 40 個屬性注釋。該數據集中的圖像涵蓋了較大的姿勢變化和雜亂的背景。CelebA 種類多、數量多、注釋豐富，包括10,177 個身份，202,599 張人臉圖像，以及5 個地標位置，每張圖像 40 個二進制屬性注釋。

該數據集可用作以下計算機視覺任務的訓練和測試集：人臉屬性識別、人臉識別、人臉檢測、地標（或人臉部分）定位以及人臉編輯與合成。

53.美國國防部人臉庫

數據集鏈接：http://m6z.cn/5So6DB

為促進人臉識別算法的研究和實用化，美國國防部的Counterdrug Technology Transfer Program(CTTP)發起了一個人臉識別技術(Face Recognition Technology 簡稱FERET)工程，它包括了一個通用人臉庫以及通用測試標準。到1997年，它已經包含了1000多人的10000多張照片，每個人包括了不同表情，光照，姿態和年齡的照片。

54.MTFL人臉識別數據集

數據集鏈接：http://m6z.cn/6fHmaT

該數據集包含 12,995 張人臉圖像，這些圖像用 (1) 五個面部標誌，(2) 性別、微笑、戴眼鏡和頭部姿勢的屬性進行了注釋。

55.BioID人臉數據集

數據集鏈接：http://m6z.cn/5ZUjyC

這個數據集包含了1521幅分辨率為384x286像素的灰度圖像。每一幅圖像來自於23個不同的測試人員的正面角度的人臉。為了便於做比較，這個數據集也包含了對人臉圖像對應的手工標註的人眼位置文件。圖像以 "BioID_xxxx.pgm"的格式命名，其中xxxx代表當前圖像的索引(從0開始)。類似的，形如"BioID_xxxx.eye"的文件包含了對應圖像中眼睛的位置。

56.PersonID人臉識別數據集

數據集鏈接：http://m6z.cn/5So6vR

該數據集所選用的人臉照片均來自於兩部比較知名的電視劇，《吸血鬼獵人巴菲》和《生活大爆炸》。

57.CMU PIE人臉庫

數據集鏈接：http://m6z.cn/5vPwfO

CMU PIE人臉庫建立於2000年11月，它包括來自68個人的40000張照片，其中包括了每個人的13種姿態條件，43種光照條件和4種表情下的照片，現有的多姿態人臉識別的文獻基本上都是在CMU PIE人臉庫上測試的。

58.Youtube視頻人臉數據集

數據集鏈接：http://m6z.cn/6u3P2V

該數據集包含 1,595 個不同人的 3,425 個視頻。所有視頻都是從 YouTube 下載的。每個主題平均有 2.15 個視頻可用。最短剪輯時長為 48 幀，最長剪輯為 6070 幀，視頻剪輯的平均長度為 181.3 幀。在這個數據集下，算法需要判斷兩段視頻裡面是不是同一個人。有不少在照片上有效的方法，在視頻上未必有效/高效。

59.CASIA 人臉圖像數據集

數據集鏈接：http://m6z.cn/5vPwio

CASIA 人臉圖像數據庫版本 5.0（或 CASIA-FaceV5）包含 500 個對象的 2,500 個彩色人臉圖像。CASIA-FaceV5 的面部圖像是使用羅技 USB 攝像頭在一個會話中捕獲的。CASIA-FaceV5的志願者包括研究生、工人、服務員等。所有人臉圖像均為16位彩色BMP文件，圖像分辨率為640*480。典型的類內變化包括照明、姿勢、表情、眼鏡、成像距離等。

60.Caltech人臉數據庫

數據集鏈接：http://m6z.cn/5So6VP

該數據集包含通過在谷歌圖片搜索中輸入常見的名字從網絡上收集的人的圖像。每個正面的眼睛、鼻子和嘴巴中心的坐標在地面實況文件中提供。此信息可用於對齊和裁剪人臉或作為人臉檢測算法的基本事實。該數據集有 10,524 個不同分辨率和不同設置的人臉，例如肖像圖像、人群等。側面或非常低分辨率的面孔未標記。

人體姿態估計61.MPII人體模型數據集

數據集鏈接：http://m6z.cn/69aaIe

MPII Human Shape 人體模型數據是一系列人體輪廓和形狀的3D模型及工具。模型是從平面掃描數據庫 CAESAR 學習得到。

62.MPII人類姿態數據集

數據集鏈接：http://m6z.cn/6gGnPb

MPII 人體姿態數據集是用於評估人體關節姿勢估計的最先進基準。該數據集包括大約 25,000 張圖像，其中包含超過 40,000 個帶有注釋身體關節的人。這些圖像是使用已建立的人類日常活動分類法系統收集的。總的來說，數據集涵蓋了 410 項人類活動，每個圖像都提供了一個活動標籤。每張圖像都是從 YouTube 視頻中提取的，並提供前後未注釋的幀。此外，測試集有更豐富的注釋，包括身體部位遮擋和 3D 軀幹和頭部方向。

63.KTH 多視圖足球數據集

數據集鏈接：http://m6z.cn/692agI

作者收集了一個帶有注釋關節的足球運動員數據集，可用於多視圖重建。數據集包括：

771張足球運動員的照片

在 257 個時間實例中從 3 個視圖中獲取的圖像

14 個帶注釋的身體關節

64.賓夕法尼亞動作數據集

數據集鏈接：http://m6z.cn/692akK

Penn Action Dataset（賓夕法尼亞大學）包含 15 個不同動作的 2326 個視頻序列以及每個序列的人類聯合注釋。

65.BBC姿態數據集

數據集鏈接：http://m6z.cn/5xr6Xq

BBC Pose 包含 20 個視頻（每個視頻長度為 0.5 小時至 1.5 小時），由 BBC 錄製，並配有手語翻譯。這 20 個視頻分為 10 個用於訓練的視頻、5 個用於驗證的視頻和 5 個用於測試的視頻。

66.Poser 數據集

數據集鏈接：http://m6z.cn/6gynqz

Poser 數據集是用於姿態估計的數據集，由 1927 個訓練圖像和 418 個測試圖像組成。這些圖像是綜合生成的，並調整為單峰預測。這些圖像是使用 Poser 軟件包生成的。

67.野外 3D 姿勢數據集

數據集鏈接：http://m6z.cn/5xr6Z2

「野外 3D 姿勢數據集」是野外第一個具有準確 3D 姿勢用於評估的數據集。雖然存在戶外其他數據集，但它們都僅限於較小的記錄量。3DPW 是第一個包含從移動電話攝像頭拍攝的視頻片段的技術。

數據集包括：

60 個視頻序列。

2D 姿勢注釋。

使用我們的方法獲得的 3D 姿勢。我們的方法利用了視頻和 IMU，儘管場景很複雜，但姿勢非常準確。

序列中每一幀的相機姿勢。

3D 身體掃描和 3D 人物模型（可重新調整和重新塑造）。每個序列都包含其對應的模型。

18 個不同服裝款式的 3D 模型。

68.V-COCO數據集

數據集鏈接：http://m6z.cn/5UGaii

V-COCO是一個基於 COCO 的數據集，用於人機交互檢測。V-COCO 提供 10,346 張圖像（2,533 張用於訓練，2,867 張用於驗證，4,946 張用於測試）和 16,199 個人物實例。每個人都有 29 個動作類別的注釋，並且沒有包括對象在內的交互標籤。

69.宜家 ASM 數據集

數據集鏈接：http://m6z.cn/692aos

宜家 ASM 數據集是裝配任務的多模式和多視圖視頻數據集，可對人類活動進行豐富的分析和理解。它包含 371 個家具組件樣本及其真實注釋。每個樣本包括 3 個 RGB 視圖、一個深度流、原子動作、人體姿勢、對象片段、對象跟蹤和外部相機校準。

70.立體人體姿勢估計數據集

數據集鏈接：http://m6z.cn/62cnp5

這是一個立體圖像對數據集，適用於上身人的立體人體姿態估計。SHPED 由 630 個立體圖像對（即 1260 個圖像）組成，分為 42 個視頻片段，每個片段 15 幀。這些剪輯是從 26 個立體視頻中提取的，這些視頻是從 YouTube 獲得的，標籤為 yt3d:enable = true。此外，SHPED 包含 1470 條火柴人上身注釋，對應於 49 個人根據這些條件：直立位置、所有上身部分幾乎可見以及身體的非側面視點。

71.AIST++ 舞蹈動作數據集

數據集鏈接：http://m6z.cn/5xr6M8

AIST++ 舞蹈動作數據集是從 AIST 舞蹈視頻數據庫構建的。對於多視圖視頻，設計了一個精心設計的管道來估計相機參數、3D 人體關鍵點和 3D 人體舞蹈動作序列：

它為 1010 萬張圖像提供 3D 人體關鍵點注釋和相機參數，涵蓋 9 個視圖中的 30 個不同主題。這些屬性使其成為具有 3D 人體關鍵點注釋的最大和最豐富的現有數據集。它還包含 1,408 個 3D 人類舞蹈動作序列，表示為關節旋轉以及根軌跡。舞蹈動作平均分布在 10 種舞蹈流派中，有數百種編舞。運動持續時間從 7.4 秒不等。至 48.0 秒。所有的舞蹈動作都有相應的音樂。

72.HiEve數據集

數據集鏈接：http://m6z.cn/6o4AAg

該數據集專注於在各種人群和複雜事件中進行非常具有挑戰性和現實性的以人為中心的分析任務，包括地鐵上下車、碰撞、戰鬥和地震逃生。並且具有大規模和密集注釋的標籤，涵蓋了以人為中心的分析中的廣泛任務。

六、自動駕駛73.KITTI 道路數據集

數據集鏈接：http://m6z.cn/5xz4OW

道路和車道估計基準包括289次培訓和290幅測試圖像。我們在鳥瞰空間中評估道路和車道的估計性能。它包含不同類別的道路場景：城市無標記、城市標記、城市多條標記車道以及以上三者的結合。

74.CrackForest數據集

數據集鏈接：http://m6z.cn/5xz4Qo

CrackForest數據集是一個帶注釋的道路裂縫圖像數據庫，可以大致反映城市路面狀況。

75.KITTI-2015立體聲數據集

數據集鏈接：http://m6z.cn/6gGllt

stero 2015 基準測試包含 200 個訓練場景和 200 個測試場景（每個場景 4 幅彩色圖像，以無損 png 格式保存）。與stereo 2012 和flow 2012 基準測試相比，它包含動態場景，在半自動過程中為其建立了真值。該數據集是通過在卡爾斯魯厄中等規模城市、農村地區和高速公路上行駛而捕獲的。每張圖像最多可以看到 15 輛汽車和 30 名行人。

76.KITTI-2015光流數據集

數據集下載地址：http://www.cvlibs.net/datasets/kitti/eval_scene_flow.php?benchmark=flow

Flow 2015 基準測試包含 200 個訓練場景和 200 個測試場景（每個場景 4 幅彩色圖像，以無損 png 格式保存）。與stereo 2012 和flow 2012 基準測試相比，它包含動態場景，在半自動過程中為其建立了真值。該數據集是通過在卡爾斯魯厄中等規模城市、農村地區和高速公路上行駛而捕獲的。每張圖像最多可以看到 15 輛汽車和 30 名行人。

77.KITTI-2015場景流數據集

數據集下載地址：http://www.cvlibs.net/datasets/kitti/eval_scene_flow.php

Sceneflow 2015 基準測試包含 200 個訓練場景和 200 個測試場景（每個場景 4 幅彩色圖像，以無損 png 格式保存）。與stereo 2012 和flow 2012 基準測試相比，它包含動態場景，在半自動過程中為其建立了真值。該數據集是通過在卡爾斯魯厄中等規模城市、農村地區和高速公路上行駛而捕獲的。每張圖像最多可以看到 15 輛汽車和 30 名行人。

78.KITTI深度數據集

數據集下載地址：http://www.cvlibs.net/datasets/kitti/eval_depth_all.php

KITTI-depth 包含超過 93,000 個深度圖以及相應的原始 LiDaR 掃描和 RGB 圖像。鑑於大量的訓練數據，該數據集應允許訓練複雜的深度學習模型，以完成深度補全和單幅圖像深度預測的任務。此外，該數據集提供了帶有未發布深度圖的手動選擇圖像，作為這兩個具有挑戰性的任務的基準。

七、目標跟蹤79.ALOV300++跟蹤數據集

數據集下載地址：http://m6z.cn/61Eogv

ALOV++，Amsterdam Library of Ordinary Videos for tracking 是一個物體追蹤視頻數據，旨在對不同的光線、通透度、泛着條件、背景雜亂程度、焦距下的相似物體的追蹤。

八、動作識別80.HMDB人類動作視頻數據集

數據集下載地址：http://m6z.cn/6gGlzF

由布朗大學發布的人類動作視頻數據集，該數據集視頻多數來源於電影，還有一部分來自公共數據庫以及YouTube等網絡視頻庫。數據庫包含有6849段樣本，分為51類，每類至少包含有101段樣本。

81.UCF50動作識別數據集

數據集下載地址：http://m6z.cn/69a8xy

UCF50 是一個由中佛羅里達大學發布的動作識別數據集，由來自 youtube 的真實視頻組成，包含 50 個動作類別，如棒球投球、籃球投籃、臥推、騎自行車、騎自行車、檯球、蛙泳、挺舉、跳水、擊鼓等。對於所有 50 個類別，視頻分為 25 組，其中每組由超過 4 個動作剪輯。同一組中的視頻片段可能具有一些共同的特徵，例如同一個人、相似背景、相似視點等。

82.SBU Kinect 交互數據集

數據集下載地址：http://m6z.cn/6vILNp

SBU Kinect Interaction是一個複雜的人類活動數據集，描述了兩個人的交互，包括同步視頻、深度和運動捕捉數據。

圖像分類數據集83.寵物圖像數據集

數據集下載地址：http://m6z.cn/5TAgdC

一個包含 37 個類別的寵物數據集，每個類別大約有 200 張圖像。這些圖像在比例、姿勢和照明方面有很大的變化。所有圖像都有相關的品種、頭部 ROI 和像素級三元圖分割的地面實況注釋。

84.貓咪數據集

數據集下載地址：http://m6z.cn/5TAgbw

CAT 數據集包括超過 9,000 張貓圖像。對於每張圖像，貓的頭部都有九個點的注釋，眼睛兩個，嘴巴一個，耳朵六個。

85.斯坦福狗狗數據集

數據集下載地址：http://m6z.cn/6nF6kM

斯坦福狗數據集包含來自世界各地的 120 種狗的圖像。該數據集是使用 ImageNet 中的圖像和注釋構建的，用於細粒度圖像分類任務。

該數據集的內容：

類別數：120

圖片數量：20,580

注釋：類標籤、邊界框

86.CBCL 街道場景數據

數據集下載地址：http://m6z.cn/5TAgeA

StreetScenes Challenge Framework 是用於對象檢測的圖像、注釋、軟件和性能測量的集合。每張圖像都是從馬薩諸塞州波士頓及其周邊地區的 DSC-F717 相機拍攝的。然後用圍繞 9 個對象類別的每個示例的多邊形手動標記每個圖像，包括 [汽車、行人、自行車、建築物、樹木、天空、道路、人行道和商店]。這些圖像的標記是在仔細檢查下完成的，以確保對象總是以相同的方式標記，關於遮擋和其他常見的圖像變換。

87.Stanford 汽車圖片數據

數據集下載地址：http://m6z.cn/616wop

Cars 數據集包含 196 類汽車的 16,185 張圖像。數據分為 8,144 個訓練圖像和 8,041 個測試圖像，其中每個類別大致按 50-50 分割。課程通常在品牌、型號、年份級別，例如 2012 Tesla Model S 或 2012 BMW M3 coupe。

88.MNIST 手寫數字圖像數據集

MNIST數據集是一個手寫阿拉伯數字圖像識別數據集，圖片分辨率為 20x20 灰度圖圖片，包含『0 - 9』十組手寫手寫阿拉伯數字的圖片。其中，訓練樣本 60000 ，測試樣本 10000，數據為圖片的像素點值，作者已經對數據集進行了壓縮。

89.Kaggle 垃圾分類圖片數據集

該數據集是圖片數據，分為訓練集85%（Train）和測試集15%（Test）。其中O代表Organic（有機垃圾），R代表Recycle（可回收）

圖像識別數據集90.街景門牌號 (SVHN) 數據集

數據集下載地址：http://m6z.cn/5ExMWb

SVHN 是一個真實世界的圖像數據集，用於開發機器學習和對象識別算法，對數據預處理和格式化的要求最低。它可以被視為與MNIST風格相似（例如，圖像是經過裁剪的小數字），但包含一個數量級的更多標記數據（超過 600,000 個數字圖像），並且來自一個更難、未解決的現實世界問題（識別自然場景圖像中的數字和數字）。SVHN 是從谷歌街景圖像中的門牌號獲得的。