數據在人工智能中占據着非常重要的地位,一個高質量的數據集往往能夠提高模型訓練的質量和預測的準確率。
在算法工程師的工作中,數據查找處理覆蓋了一大片灰色時光,占據正常工作時間80%以上,畢竟一個好的數據集是可遇不可求的。七妹給大家整理了近百個國內外經典的開源數據集,包含了NLP、圖像分割、圖像分類、推薦系統、金融、交通等方向。如果點讚和點在看的人數較多,後續七妹會繼續整理資料並分享給大家。
1、DEAPdataset:使用腦電圖、生理和視頻信號進行情緒分析的數據集。2、MyPersonalityDataset:myPersonality是一個很受歡迎的Facebook應用程序,它允許用戶進行真實的心理測試,並允許我們(在徵得同意的情況下)記錄他們的心理和Facebook資料。目前,我們的數據庫包含超過600萬個測試結果,以及超過400萬個Facebook個人簡介。3、Bibsonomy:社交書籤系統中的標籤推薦。4、Delicious:plista新聞推薦數據集,美味可口。5、Movielens:穩定的基準數據集。2000萬個評分和46.5萬個標籤應用程序被13.8萬用戶應用於2.7萬部電影。包括標籤基因組數據,1100個標籤的1200萬個相關性得分。6、Jester:來自小丑在線笑話推薦系統的匿名評級。7、BookCrossing:Book-Crossing數據集。8、LastFM:來自1892個用戶的92,800張藝術家錄音。9、Wikipedia:維基百科向感興趣的用戶提供所有可用內容的免費拷貝。這些數據庫可用於鏡像、個人使用、非正式備份、脫機使用或數據庫查詢。10、OpenStreetMap:這裡找到的文件是OpenStreetMap.org數據庫的完整副本,包括編輯歷史。這些都是在Open Data Commons Open Database License 1.0許可下發布的。11、PythonGitCode:Hermes是Lab41對推薦系統的一次嘗試。通過分析多種推薦系統算法在不同數據集上的性能,探討了如何為新的應用選擇推薦系統。12、Gist:為機器學習推薦和評級的公共數據集。13、Yelp:Yelp數據集是用於個人、教育和學術目的的業務、評論和用戶數據的子集。可以在JSON和SQL文件中使用,在你學習如何製作移動應用程序時,可以使用它來教學生關於數據庫、學習NLP或示例生產數據。14、AmazonReviews:該數據集包含來自Amazon的產品評論和元數據,包括1996年5月至2014年7月期間的1.428億個評論。這個數據集包括評論(評級、文本、幫助投票)、產品元數據(描述、類別信息、價格、品牌和圖像特性)和鏈接(也查看/購買圖表)。15、CiteULike:CiteULike數據庫對不同領域的研究人員都有潛在的用處。物理學家和計算機科學家對分析數據結構表示了興趣,並經常要求提供數據集。以前,這是在一個特別的基礎上完成的,它依賴於我們記住更新數據文件。現在,有一個自動的過程,每天晚上運行,生成一個快照摘要,說明用哪些標籤發布了哪些文章。16、Taobao:該數據集包含了匿名用戶在「雙十一」前後6個月的購物記錄,以及表明他們是否重複購買的標籤信息。由於隱私問題,數據採集存在偏差,因此該數據集的統計結果會與天貓的實際情況相背離。醫療健康(以上是部分數據集,限於篇幅,完整版及鏈接掃碼免費領)![](https://imageproxy.pixnet.cc/imgproxy?url=https://drbanana.ml/img/68747470733a2f2f6d6d62697a2e717069632e636e2f6d6d62697a5f6769662f42514832745072674939514f4f646230387169634f6961614541396649794954696161564d70534775504f7872334737775666426579485a5548664f38704571747536454c34766963577741455857666b69635549715448426c772f3634303f77785f666d743d676966.webp)
![](https://imageproxy.pixnet.cc/imgproxy?url=https://drbanana.ml/img/68747470733a2f2f6d6d62697a2e717069632e636e2f6d6d62697a5f6a70672f497854644d6a766745543676436962384c6d4830755a526f70624b7a6432586961344163323149524435584a7148304e4862645675546b58416259477a6d716e6137766e5437364649696139516962545370634d376e736848672f3634303f77785f666d743d6a706567.webp)
1、200k 英語明文笑話:208000 種不同來源的明文笑話存檔。3、材料安全數據表:230000 材料安全數據表。(3GB)4、百萬新聞頭條-澳大利亞 ABC[Kaggle]:由澳大利亞 ABC 新聞發布的從 2003 到 2017 年的 130 萬新聞。(56MB)5、全球新聞一周供稿[Kaggle]:在 2017 年 8 月的一周,用 20 多種語言全球發表的 140 萬篇新聞事件數據集。(115MB)6、路透社語料庫:一個包含路透社新聞報道的數據集,用於自然語言處理的研究開發、信息檢索和機器學習系統。該語料庫又被稱為「路透社語錄 1」或 RCV1,它遠遠大於原來在文本分類中被廣泛使用的著名的路透社 21578 數據集。該語料庫數據需要通過簽署協議和發送郵件獲取。(2.5GB)7、SaudiNewsNet:31030 條從不同沙特阿拉伯的網絡報紙上摘取的標題和元數據。(2MB)8、垃圾短信數據集:5574 條被標記為合法/不合法的、未經編碼的真實英文短信消息。(200KB)9、《南方公園》數據集:csv 格式文件,包含季、集、角色和台詞的劇本信息。(3.6MB)10、Twitter 的 Sentiment140(情感分析數據集):關於品牌/關鍵詞的推文,網站包括論文和研究想法。(77MB)11、Twitter 上對於美國各大航空公司的態度(Kaggle 數據集):這是一個對於美國各大航空公司存在問題的情感分析任務。該數據集爬取了 2015 年 2 月的推文,貢獻者們將其分類為積極、消極和中立,對於那些分類為消極態度的推文,還會給出原因(例如「飛機晚點」或「服務態度差」等)。(2.5MB)12、城市詞典(美國在線俚語詞典)里的單詞和定義:一個經過清洗的 CSV 語料庫,包含截至 2016 年 5 月的城市詞典內所有 260 萬個詞彙、定義、作者和投票情況。(238MB)13、亞馬遜的 Wesbury Lab Usenet 語料庫:2005-2010 的 47,860 個英文新聞組的郵件匿名匯編。(40GB)14、維基百科的 Wesbury Lab 語料庫:2010 年 4 月維基百科英文部分中所有文章的快照。網站詳細描述了數據是如何被處理的——即去除所有鏈接和不相關的材料(如導航文本等)。語料庫是未經標記的原始文本,它被用於Stanford NLP。15、維基百科的 XML 格式數據:所有維基媒體(Wikimedia)的完整複製,以維基文本元(wikitext source)和元數據的形式嵌入到 XML 中。(500GB)18、Kaggle 比賽(請確保這些 kaggle 比賽數據可以在比賽之外使用)19、Yelp:包含餐廳排名和 220 萬條評論。21、reddit 數據集(無數個數據集,大部分由業餘愛好者爬取,但數據的整理和許可可能不夠規範)23、斯坦福 NLP 組(大部分為已標註的語料庫和 TreeBanks,以及實用的 NLP 工具)24、自然語言處理(NLP)數據集列表【Nicolas Iderhoff】25、Stanford NLP發布新的多輪、跨域、任務導向對話數據集【Mihail Eric】2、滬深股票除權除息、配股增發全量數據,截止 2016.12.313、上證主板日線數據,截止 2017.05.05,原始價、前復權價、後復權價,1260支股票4、深證主板日線數據,截止 2017.05.05,原始價、前復權價、後復權價,466支股票5、深證中小板日線數據,截止 2017.05.05,原始價、前復權價、後復權價,852支股票6、深證創業板日線數據,截止 2017.05.05,原始價、前復權價、後復權價,636支股票7、上證A股日線數據,1999.12.09 至 2016.06.08,前復權,1095支股票8、深證A股日線數據,1999.12.09 至 2016.06.08,前復權,1766支股票深證創業板日線數據,1999.12.09 至 2016.06.08,前復權,510支股票3、UCF Google Street View 圖像數據5、The Celebrity in Places 圖像數據4、Animals With Attributes 標籤圖像3、Biwi Kinect Head Pose 頭部姿勢數據1、Street View House Number 門牌號圖像數據3、3D MNIST 數字識別圖像數據【Kaggle數據】4、MediaTeam Document 文檔影印和內容數據5、Text Recognition 文字圖像數據6、NIST Handprinted Forms and Characters 手寫英文字符數據7、NIST Structured Forms Reference Set of Binary Images9、NIST Structured Forms Reference Set of Binary Images7、(TorchCraft可讀/365GB/6萬多場次/15億幀畫面/近5億用戶操作)13、微軟數據集MS MARCO,閱讀理解領域的「ImageNet」4、紐約 Uber 接客數據 【Kaggle數據】5、英國車禍數據(2005-2015)【Kaagle數據】7、KITTI 自動駕駛任務數據【數據太大僅有部分】8、Cityscapes 場景標註數據【數據太大僅有部分】(以上是部分數據集,限於篇幅,完整版及鏈接掃碼免費領)![](https://imageproxy.pixnet.cc/imgproxy?url=https://drbanana.ml/img/68747470733a2f2f6d6d62697a2e717069632e636e2f6d6d62697a5f6769662f42514832745072674939514f4f646230387169634f6961614541396649794954696161564d70534775504f7872334737775666426579485a5548664f38704571747536454c34766963577741455857666b69635549715448426c772f3634303f77785f666d743d676966.webp)
![](https://imageproxy.pixnet.cc/imgproxy?url=https://drbanana.ml/img/68747470733a2f2f6d6d62697a2e717069632e636e2f6d6d62697a5f6a70672f497854644d6a766745543676436962384c6d4830755a526f70624b7a6432586961344163323149524435584a7148304e4862645675546b58416259477a6d716e6137766e5437364649696139516962545370634d376e736848672f3634303f77785f666d743d6a706567.webp)
點擊閱讀原文,領取學習資料