close

煉丹為數據發愁?這份複習材料包含的基準數據集涵蓋了計算機視覺、自然語言處理等領域,包括了大規模中文多模態理解、中文醫療信息處理等場景。

本篇是機器之心「虎卷er行動 · 春卷er」的第二卷,我們為老夥計們精選了各個領域 AI 開發者必備的 15個基準數據集,同時「虎卷er ·春榜試題」已解鎖「AI Foundation專業知識與開發實踐基礎」的第一批10 道題,想要「榜上有名」的老夥計別忘了回來答新題哦~

1、首個大規模中文多模態評測基準 MUGE

MUGE(Multimodal Understanding and Generation Evaluation)是業界首個大規模中文多模態評測基準,由達摩院聯合浙江大學、阿里雲天池平台聯合發布,中國計算機學會計算機視覺專委會(CCF-CV專委)協助推出。MUGE榜單為研究者們提供了統一的數據和評測基準,旨在促進多模態理解與生成領域的技術發展。

到目前為止,MUGE 包括:多模態理解和生成任務的基準,包括電子商務圖像字幕、文本到圖像生成和多模態圖文檢索任務,供研究人員跟蹤其模型性能的公共排行榜。

官網地址:https://tianchi.aliyun.com/muge

Github:https://github.com/MUGE-2021

2、中文醫療信息處理評測基準 CBLUE

中文醫療信息處理評測基準 CBLUE(Chinese Biomedical Language Understanding Evaluation)是中國中文信息學會醫療健康與生物信息處理專業委員會在合法開放共享的理念下發起,由阿里雲天池平台承辦,並由醫渡雲(北京)技術有限公司、平安醫療科技、阿里夸克、騰訊天衍實驗室、北京大學、鵬城實驗室、哈爾濱工業大學(深圳)、鄭州大學、同濟大學、中山大學、復旦大學等開展智慧醫療研究的單位共同協辦,旨在推動中文醫學 NLP 技術和社區的發展。

榜單在設計上綜合考慮了任務類型和任務難度兩個維度,目標是建設一個任務類型覆蓋廣、同時也要保證任務的難度的 benchmark,因此榜單在吸收往屆 CHIP/CCKS/CCL 等學術評測任務的同時也適當增加了業界數據集,業務數據集的特點是數據真實且有噪音,對模型的魯棒性提出了更高的要求。CBLUE 評測基準 2.0 包括醫學文本信息抽取(實體識別、關係抽取、事件抽取)、醫學術語歸一化、醫學文本分類、醫學句子關係判定和醫療對話理解與生成共 5 大類任務 14 個子任務。

官網地址:https://tianchi.aliyun.com/cblue

論文地址:https://arxiv.org/pdf/2106.08087.pdf

Github:https://github.com/CBLUEbenchmark/CBLUE

3、黑盒優化 Benchmark——RABBO

RABBO(Real-Aplication Black-Box Optimization benchmark)榜單由達摩院決策智能實驗室傾力維護,依託於阿里雲天池平台的支持,提供具有實際應用背景的黑盒優化測試問題及評測方案,旨在幫助算法研發者打磨求解真實場景問題的黑盒優化算法,為算法使用者提供各類算法特點與適用場景分析以及使用參考。

RABBO 提供了針對黑盒優化問題的數學建模和優化求解的思路,提供了黑盒優化接口規範代碼、實際應用背景的測試問題、和效果評測的方案。2021 年 10 月發布的是 RABBO V1.0 版本,數據集的題目包含包含:經典題目集、金屬冶煉配比優化、火星路徑規劃、風場微觀選址。

天池地址:https://tianchi.aliyun.com/dataset/dataDetail?dataId=111953

4、人類動作識別的大規模數據集 NTU RGB+D

NTU RGB+D 是一個用於 RGB-D 人類動作識別的大規模數據集。它涉及從 40 名受試者身上收集的 60 個動作類別的 56,880 個樣本。這些動作一般可分為三類。40 個日常動作(如喝水、吃飯、閱讀),9 個與健康有關的動作(如打噴嚏、踉蹌、跌倒),以及 11 個相互間的動作(如打拳、踢腿、擁抱)。這些動作發生在 17 個不同的場景條件下,對應 17 個視頻序列(即 S001-S017)。

這些動作是用三台攝像機拍攝的,它們具有不同的水平成像視角,即 -45∘、0∘ 和 +45∘。為動作特徵提供了多模式信息,包括深度圖、三維骨架關節位置、RGB 幀和紅外序列。性能評估是通過將 40 名受試者分成訓練組和測試組的交叉測試,以及採用一台攝像機(+45∘)進行測試,另外兩台攝像機進行訓練的跨視角測試來進行的。

論文地址:https://arxiv.org/pdf/1604.02808v1.pdf

Github:https://github.com/shahroudy/NTURGB-D

5、大規模的分層圖像數據庫 ImageNet

ImageNet 數據集根據 WordNet 層次結構包含 14,197,122 個帶注釋的圖像。自 2010 年以來,該數據集被用於 ImageNet 大規模視覺識別挑戰賽 (ImageNet Large Scale Visual Recognition Challenge, ILSVRC),這是圖像分類和對象檢測的基準。公開發布的數據集包含一組手動注釋的訓練圖像。還發布了一組測試圖像,保留了手動注釋。

ILSVRC 注釋屬於以下兩類之一:

(1)圖像級二進制標籤的注釋,用於表示圖像中是否存在對象類,例如,「這張圖像中有汽車」但「沒有老虎, 」

(2)圖像中對象實例周圍的緊密邊界框和類標籤的對象級注釋,例如,「有一把螺絲刀以 (20,25) 位置為中心,寬度為 50 像素,高度為 30 像素」。

官方地址:https://image-net.org/index.php

論文地址:https://ieeexplore-ieee-org.ezproxy.library.sydney.edu.au/document/5206848

天池地址:https://tianchi.aliyun.com/dataset/dataDetail?dataId=92252

6、六千萬微小圖片數據集 CIFAR-10

CIFAR -10(Canadian Institute for Advanced Research, 10 classes)是 Tiny Images 數據集的子集,由 60000 張 32x32 彩色圖像組成,它們由 Alex Krizhevsky、Vinod Nair 和 Geoffrey Hinton 收集。這些圖像標有 10 個相互排斥的類別之一:飛機、汽車(但不是卡車或皮卡車)、鳥、貓、鹿、狗、青蛙、馬、船和卡車(但不是皮卡車)。每類有 6000 張圖像,每類有 5000 張訓練圖像和 1000 張測試圖像。

官方地址:https://www.cs.toronto.edu/~kriz/cifar.html

論文地址:https://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdf

天池地址:https://tianchi.aliyun.com/dataset/dataDetail?dataId=92264

7、大型的手寫數字集合 MNIST

MNIST 數據庫(Modified National Institute of Standards and Technology database)是一個大型的手寫數字集合。它有一個包含 60,000 個例子的訓練集和一個包含 10,000 個例子的測試集。

它是更大的 NIST 特別數據庫 3(由美國人口普查局雇員書寫的數字)和特別數據庫 1(由高中學生書寫的數字)的一個子集,其中包含手寫數字的單色圖像。這些數字的大小已被規範化,並在一個固定尺寸的圖像中居中。來自 NIST 的原始黑白(二層)圖像被歸一化,以適合 20x20 像素的盒子,同時保留其長寬比。

官方地址:http://yann.lecun.com/exdb/mnist

論文地址:https://arxiv.org/pdf/1102.0183.pdf

天池地址:https://tianchi.aliyun.com/dataset/dataDetail?dataId=92224

8、通用語言理解評估基準 GLUE

為了使自然語言理解(NLU)技術在實踐中和作為科學研究對象發揮最大的作用,它必須是通用的:它必須能夠以一種不專門針對任何一個特定任務或數據集的方式來處理語言。

為此,來自紐約大學、華盛頓大學、DeepMind 等機構的研究者提出通用語言理解評估基準(General Language Understanding Evaluation benchmark, GLUE),它是 9 個自然語言理解任務的集合,包括單句任務 CoLA 和 SST-2 ,相似性和轉述任務 MRPC 、STS-B 和 QQP ,以及自然語言推理任務 MNLI、QLNLI、RTE 和 WNLI 。

官方地址:https://gluebenchmark.com

論文地址:https://arxiv.org/pdf/1804.07461v3.pdf

9、用於為關係數據庫開發自然語言界面的大型眾包數據集 WikiSQL

WikiSQL 包括一個由 87,726 個手工注釋的 SQL 查詢和自然語言問題對組成的語料庫,由 Salesforce Research 發布。這些 SQL 查詢被進一步分成訓練(61297個例子)、開發(9145個例子)和測試集(17284個例子)。它可用於與關係型數據庫有關的自然語言推理任務。

論文地址:https://arxiv.org/pdf/1709.00103v7.pdf

Github:https://github.com/salesforce/WikiSQL

10、來自維基百科文章的問題-答案對的集合 SQuAD

Stanford Question Answering Dataset (SQuAD)是一個來自維基百科文章的問題-答案對的集合,由斯坦福大學發布。在 SQuAD 中,問題的正確答案可以是給定文本中的任何標記序列。由於問題和答案是由人類通過眾包產生的,因此它比其他一些問題-答案數據集更加多樣化。

SQuAD 1.1 包含了 536 篇文章的 107,785 個問題-答案對。SQuAD 2.0(開放域 SQuAD,SQuAD-Open)是最新的版本,它將 SQuAD 1.1 中的 100,000 個問題與超過 50,000 個由眾包者以類似於可回答問題的形式逆向編寫的不可回答的問題相結合。

官方地址:https://stanford-qa.com

論文地址:https://arxiv.org/pdf/1606.05250v3.pdf

天池地址:https://tianchi.aliyun.com/dataset/dataDetail?dataId=83061

11、大規模的人臉屬性數據集 CelebA

CelebFaces Attributes Dataset (CelebA) 是一個大規模的人臉屬性數據集,由香港中文大學開放提供。它包含超過 20 萬張名人圖像,每張圖像有 40 個屬性標記。該數據集中的圖像涵蓋了較大的姿勢變化和背景雜亂。CelebA 種類多、數量多、注釋豐富,包括 10,177 個身份,202,599 張人臉圖像,以及 5 個人臉特徵點坐標,每張圖像 40 個屬性標記。

該數據集可用作以下計算機視覺任務的訓練和測試集:人臉屬性識別、人臉識別、人臉檢測、地標(或人臉部分)定位以及人臉編輯與合成。

官方地址:http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html

12、行為識別數據集 UCF101

UCF101 數據集是 UCF50 的擴展,由 13,320 個視頻片段組成,分為 101 個類別。這 101 個類別可分為 5 種類型(身體運動、人與人互動、人與物體互動、演奏樂器和運動)。這些視頻剪輯的總長度超過 27 小時。所有視頻均從 YouTube 收集,具有 25 FPS 的固定幀速率,分辨率為 320 × 240。

論文地址:https://arxiv.org/pdf/1212.0402v1.pdf

天池地址:https://tianchi.aliyun.com/dataset/dataDetail?dataId=92158

13、城市街景語義理解的大型數據庫 Cityscapes

Cityscapes 是一個專注於城市街景語義理解的大型數據庫,由戴姆勒研究所,馬克斯•普朗克信息學研究所和達姆施塔特科技大學可視化推理工作組提供。該數據集由大約 5000 個精細標註的圖像和 20000 個粗糙標註的圖像組成。它為分為 8 個類別(平面、人類、車輛、建築、物體、自然、天空和虛空)的 30 個類別提供語義、實例和密集像素注釋。該數據集具備多樣性,歷經數月(春、夏、秋)在白天和良好的天氣條件下獲得,並由手動選擇幀,且具有以下特徵:大量動態對象、變化的場景布局和變化的背景。

Cityscapes 數據集適用於

評估視覺算法在語義城市場景理解的主要任務中的性能:像素級、實例級和全景語義標記;

支持旨在利用大量(弱)注釋數據的研究,例如用於訓練深度神經網絡。

官方地址:https://www.cityscapes-dataset.com

論文地址:https://arxiv.org/pdf/1604.01685v2.pdf

天池地址:https://tianchi.aliyun.com/dataset/dataDetail?dataId=92279

14、IBM 研究院、Meta AI 等多家機構發布新基準 SCROLLS

目前,NLP 的基準主要集中在短文本上,如句子和段落。來自 IBM 研究院、Meta AI 等多家機構發布新基準 SCROLLS (Standardized CompaRison Over Long Language Sequences)。

該條進展工作通過研究了現有的長文本數據集,並精心挑選了那些文本較長的數據集,同時優先考慮那些涉及綜合輸入信息的任務。SCROLLS 包含總結、問題回答和自然語言推理任務,涵蓋多個領域,包括文學、科學、商業和娛樂。SCROLLS 以統一的文本到文本格式提供所有的數據集,並主持一個實時排行榜,以促進對模型架構和預訓練方法的研究。

官方地址:https://www.scrolls-benchmark.com

論文地址:https://arxiv.org/abs/2201.03533v1

15、CLUE 團隊發布應用在 NLP 領域的數據為中心的基準 DataCLUE

以數據為中心(Data-centric)的AI,是一種新型的AI探索方向。它的核心問題是如何通過系統化的改造你的數據(無論是輸入或者標籤)來提高最終效果。

DataCLUE 是一個以數據為中心的 AI 測評。它基於 CLUE benchmark,結合 Data-centric 的 AI 的典型特徵,進一步將 Data-centric 的 AI 應用於 NLP 領域,融入文本領域的特定並創造性豐富和發展了 Data-centric 的 AI。在原始數據集外,它通過提供額外的高價值的數據和數據和模型分析報告(增值服務)的形式, 使得融入人類的 AI 迭代過程(Human-in-the-loop AI pipeline) 變得更加高效,並能較大幅度提升最終效果。

論文地址:https://arxiv.org/abs/2111.08647v2

Github:https://github.com/CLUEbenchmark/DataCLUE

在機器之心 SOTA!模型聯合阿里雲天池推出的「虎卷 er 行動 · 春卷er」中,我們基於「AI人必追」的本季度舉辦的國際頂會及機器之心報道中的社區熱議工作,「煉丹者必備」的基準數據集、AI頂會挑戰賽優勝算法及開發基礎知識,共同設計了由60道選擇題構成的「虎卷er ·春榜試題」,並編撰了3 套獨家配套技術複習資料,幫助關注前沿AI技術發展的開發者梳理第一季度的重要 AI技術工作的同時幫助注重實踐技能的開發者快速溫故知新,鞏固知識與技能。

「虎卷er ·春榜試題」具體分布如下 ——
「本季必追國際影響力AI工作」:共 18 題
「AI開發常用的Benchmark數據集」:共 15 題
「今年刷爆頂會Leaderboard的算法」:共 7 題
「AI Foundation專業知識與開發實踐基礎」:共 20題
活動期間,關注「機器之心 SOTA模型」服務號,即可通過底部菜單欄進入活動。

跟隨入口引導,使用阿里雲賬號登錄後即可進入活動界面開始答題。

「春卷er」10道「AI Foundation專業知識與開發實踐基礎」新題已解鎖!
1
在 CNN 網絡中,某圖經過核為 3x3,步長為 2 的卷積層,ReLU 激活函數層,BN 層,以及一個步長為 2,核為 2*2 的池化層後,再經過一個 3*3 的的卷積層,步長為 1,此時的感受野是?
13
12
11
10
2
以下是非馬爾科夫過程的是?
獨立增量過程
泊松過程
維納過程
自回歸過程
3
以下對 k-means 聚類算法解釋正確的是?
能自動識別類的個數,隨機挑選初始點為中心點計算
能自動識別類的個數,不是隨機挑選初始點為中心點計算
不能自動識別類的個數,隨機挑選初始點為中心點計算
不能自動識別類的個數,不是隨機挑選初始點為中心點計算
4
某個二分類模型,在訓練數據上表現很好,但是在驗證數據上表現不佳,通常稱這種問題為?
欠擬合
過擬合
樣本不均衡
樣本缺失
5
下列哪一個不是常用於回歸建模問題的損失函數?
均方誤差(MSE Loss)
交叉熵(Cross Entropy Loss)
均絕對誤差(MAE Loss)
Huber Loss
6
下列哪一個不是LSTM(Long Short-Term Memory)的門控單元?
輸出門
更新門
輸入門
遺忘門
7
在卷積神經網絡(CNN)中,使用 5*5 的卷積核對 500*500 的圖片求卷積,那麼在輸入層和卷積層之間一共有多少個參數需要訓練?
10000
25
26
250000
8
在機器學習的分類模型中,評估模型預測效果的指標有準確率(Accuracy)、召回率(Recall)、精確率(Precision)、F1指標(F1 measure),下列屬於Recall 指標的表達式為?
正確的正例樣本數/樣本中的正例樣本數
提取出的正確樣本數/總樣本數
正確的正例樣本數/預測為正例的樣本數
Precision*Recall*2 / (Precision+Recall)
9
進行機器學習的時候,通常需要對數據進行降維處理,關於降維,以下說法錯誤的是?
降維可以節省存儲空間
一般先使用非線性降維的方法,再使用線性降維的方法
降維可以去除冗餘特徵
降維從一定程度上可以防止模型過擬合
10
對於一個深度學習分類任務,如果權重初始化時所有變量都設置為 0,下面哪一個描述是正確的?
沒有問題,深度學習擬合能力很強,可以正常訓練得到結果
深度學習不會開始訓練,因為沒有梯度變化
深度學習可以訓練,但所有的類別都會被識別為一類
以上說法都不對

©THE END

轉載請聯繫本公眾號獲得授權

投稿或尋求報道:content@jiqizhixin.com

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()