數(shù)據(jù)集對(duì)于深度學(xué)習(xí)模型的重要性不言而喻,然而根據(jù)性質(zhì)、類型、領(lǐng)域的不同,數(shù)據(jù)集往往散落在不同的資源平臺(tái)里,急需人們做出整理。fast.ai近期將這些重要的數(shù)據(jù)集匯總到了一篇文章里,雷鋒網(wǎng)AI 科技評(píng)論把文章編譯如下。
少了數(shù)據(jù),我們的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型什么也干不了。這么說(shuō)吧,那些創(chuàng)建了數(shù)據(jù)集、讓我們可以訓(xùn)練模型的人,都是我們的英雄,雖然這些人常常并沒(méi)有得到足夠的感謝。讓人慶幸的是,那批最有價(jià)值的數(shù)據(jù)集后來(lái)成了「學(xué)術(shù)基準(zhǔn)線」——被研究人員廣泛引用,尤其在算法變化的對(duì)比上;不少名字則成為圈內(nèi)外都耳熟能詳?shù)拿Q,如 MNIST、CIFAR 10 以及 Imagenet 等。
身為 fast.ai 的一員,我們自覺(jué)欠這些數(shù)據(jù)集的創(chuàng)建者一句真摯的感謝,所以我們決定,通過(guò)與 AWS 合作,把一些最重要的數(shù)據(jù)集集中整理在一處,數(shù)據(jù)集自身采用標(biāo)準(zhǔn)格式,存儲(chǔ)服務(wù)器也是快速的、可靠的(請(qǐng)參閱下方的完整列表與鏈接)。如果您在研究中使用了這些數(shù)據(jù)集,我們希望您記得引用原始論文(我們已經(jīng)在表單中提供引用鏈接);如果您將它們用作商業(yè)或教育項(xiàng)目的一部分,請(qǐng)考慮添加致謝文及數(shù)據(jù)集原鏈接。
我們之所以經(jīng)常在教學(xué)中引用這些數(shù)據(jù)集,是因?yàn)樗鼈兙褪菍W(xué)生們很有可能遇到的數(shù)據(jù)類型的絕佳例子,此外,學(xué)生可以將自己的工作與引用這些數(shù)據(jù)集的學(xué)術(shù)成果進(jìn)行對(duì)比,從而取得進(jìn)步。此外,我們也會(huì)使用 Kaggle Competitions 數(shù)據(jù)集,Kaggle 的 public leaderboards 允許學(xué)生在世界最好的數(shù)據(jù)集里測(cè)試自己的模型,不過(guò) Kaggle 數(shù)據(jù)集并不會(huì)在本次表單中出現(xiàn)。
圖像分類領(lǐng)域
1)MNIST
經(jīng)典的小型(28x28 像素)灰度手寫數(shù)字?jǐn)?shù)據(jù)集,開(kāi)發(fā)于 20 世紀(jì) 90 年代,主要用于測(cè)試當(dāng)時(shí)最復(fù)雜的模型;到了今日,MNIST 數(shù)據(jù)集更多被視作深度學(xué)習(xí)的基礎(chǔ)教材。fast.ai 版本的數(shù)據(jù)集舍棄了原始的特殊二進(jìn)制格式,轉(zhuǎn)而采用標(biāo)準(zhǔn)的 PNG 格式,以便在目前大多數(shù)代碼庫(kù)中作為正常的工作流使用;如果您只想使用與原始同樣的單輸入通道,只需在通道軸中選取單個(gè)切片即可。
引文:http://yann.lecun.com/exdb/publis/index.html#lecun-98
下載地址:https://s3.amazonaws.com/fast-ai-imageclas/mnist_png.tgz
2)CIFAR10
10 個(gè)類別,多達(dá) 60000 張的 32x32 像素彩色圖像(50000 張訓(xùn)練圖像和 10000 張測(cè)試圖像),平均每種類別擁有 6000 張圖像。廣泛用于測(cè)試新算法的性能。fast.ai 版本的數(shù)據(jù)集舍棄了原始的特殊二進(jìn)制格式,轉(zhuǎn)而采用標(biāo)準(zhǔn)的 PNG 格式,以便在目前大多數(shù)代碼庫(kù)中作為正常的工作流使用。
引文:https://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdf
下載地址:https://s3.amazonaws.com/fast-ai-imageclas/cifar10.tgz
3)CIFAR100
與 CIFAR-10 類似,區(qū)別在于 CIFAR-100 擁有 100 種類別,每個(gè)類別包含 600 張圖像(500 張訓(xùn)練圖像和 100 張測(cè)試圖像),然后這 100 個(gè)類別又被劃分為 20 個(gè)超類。因此,數(shù)據(jù)集里的每張圖像自帶一個(gè)「精細(xì)」標(biāo)簽(所屬的類)和一個(gè)「粗略」標(biāo)簽(所屬的超類)。
引文:https://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdf
下載地址:https://s3.amazonaws.com/fast-ai-imageclas/cifar100.tgz
4)Caltech-UCSD Birds-200-2011
包含 200 種鳥類(主要為北美洲鳥類)照片的圖像數(shù)據(jù)集,可用于圖像識(shí)別工作。分類數(shù)量:200;圖片數(shù)量:11,788;平均每張圖片含有的標(biāo)注數(shù)量:15 個(gè)局部位置,312 個(gè)二進(jìn)制屬性,1 個(gè)邊框框。
引文:http://vis-www.cs.umass.edu/bcnn/
下載地址:https://s3.amazonaws.com/fast-ai-imageclas/CUB_200_2011.tgz
5)Caltech 101
包含 101 種物品類別的圖像數(shù)據(jù)集,平均每個(gè)類別擁有 40—800 張圖像,其中很大一部分類別的圖像數(shù)量固為 50 張左右。每張圖像的大小約為 300 x 200 像素。本數(shù)據(jù)集也可以用于目標(biāo)檢測(cè)定位。
引文:http://www.vision.caltech.edu/feifeili/Fei-Fei_GMBV04.pdf
下載地址:https://s3.amazonaws.com/fast-ai-imageclas/caltech_101.tar.gz
6)Oxford-IIIT Pet
包含 37 種寵物類別的圖像數(shù)據(jù)集,每個(gè)類別約有 200 張圖像。這些圖像在比例、姿勢(shì)以及光照方面有著豐富的變化。本數(shù)據(jù)集也可以用于目標(biāo)檢測(cè)定位。
引文:http://www.robots.ox.ac.uk/~vgg/publications/2012/parkhi12a/parkhi12a.pdf
下載地址:https://s3.amazonaws.com/fast-ai-imageclas/oxford-iiit-pet.tgz
7)Oxford 102 Flowers
包含 102 種花類的圖像數(shù)據(jù)集(主要是一些英國(guó)常見(jiàn)的花類),每個(gè)類別包含 40—258 張圖像。這些圖像在比例、姿勢(shì)以及光照方面有著豐富的變化。
引文:http://www.robots.ox.ac.uk/~vgg/publications/papers/nilsback08.pdf
下載地址:https://s3.amazonaws.com/fast-ai-imageclas/oxford-102-flowers.tgz
8)Food-101
包含 101 種食品類別的圖像數(shù)據(jù)集,共有 101,000 張圖像,平均每個(gè)類別擁有 250 張測(cè)試圖像和 750 張訓(xùn)練圖像。訓(xùn)練圖像未經(jīng)過(guò)數(shù)據(jù)清洗。所有圖像都已經(jīng)重新進(jìn)行了尺寸縮放,最大邊長(zhǎng)達(dá)到了 512 像素。
引文:https://pdfs.semanticscholar.org/8e3f/12804882b60ad5f59aad92755c5edb34860e.pdf
下載地址:https://s3.amazonaws.com/fast-ai-imageclas/food-101.tgz
9)Stanford cars
包含 196 種汽車類別的圖像數(shù)據(jù)集,共有 16,185 張圖像,分別為 8,144 張訓(xùn)練圖像和 8,041 張測(cè)試圖像,每個(gè)類別的圖像類型比例基本上都是五五開(kāi)。本數(shù)據(jù)集的類別主要基于汽車的牌子、車型以及年份進(jìn)行劃分。
引文:https://ai.stanford.edu/~jkrause/papers/3drr13.pdf
下載地址:https://s3.amazonaws.com/fast-ai-imageclas/stanford-cars.tgz
自然語(yǔ)言處理領(lǐng)域
1)IMDb Large Movie Review Dataset
用于情感二元分類的數(shù)據(jù)集,其中包含 25,000 條用于訓(xùn)練的電影評(píng)論和 25,000 條用于測(cè)試的電影評(píng)論,這些電影評(píng)論的特點(diǎn)是兩極分化特別明顯。另外數(shù)據(jù)集里也包含未標(biāo)記的數(shù)據(jù)可供使用。
引文:http://ai.stanford.edu/~amaas/papers/wvSent_acl2011.pdf
下載地址:https://s3.amazonaws.com/fast-ai-nlp/imdb.tgz
2)Wikitext-103
超過(guò) 1 億個(gè)語(yǔ)句的數(shù)據(jù)合集,全部從維基百科的 Good 與 Featured 文章中提煉出來(lái)。廣泛用于語(yǔ)言建模,當(dāng)中包括 fastai 庫(kù)和 ULMFiT 算法中經(jīng)常用到的預(yù)訓(xùn)練模型。
引文:https://arxiv.org/abs/1609.07843
下載地址:https://s3.amazonaws.com/fast-ai-nlp/wikitext-103.tgz
3)
Wikitext-103 的子集,主要用于測(cè)試小型數(shù)據(jù)集的語(yǔ)言模型訓(xùn)練效果。
引文:https://arxiv.org/abs/1609.07843
下載地址:https://s3.amazonaws.com/fast-ai-nlp/wikitext-2.tgz
4)WMT 2015 French/English parallel texts
用于訓(xùn)練翻譯模型的法語(yǔ)/英語(yǔ)平行文本,擁有超過(guò) 2000 萬(wàn)句法語(yǔ)與英語(yǔ)句子。本數(shù)據(jù)集由 Chris Callison-Burch 創(chuàng)建,他抓取了上百萬(wàn)個(gè)網(wǎng)頁(yè),然后通過(guò)一組簡(jiǎn)單的啟發(fā)式算法將法語(yǔ)網(wǎng)址轉(zhuǎn)換為英文網(wǎng)址,并默認(rèn)這些文檔之間互為譯文。
引文:https://www.cis.upenn.edu/~ccb/publications/findings-of-the-wmt09-shared-tasks.pdf
下載地址:https://s3.amazonaws.com/fast-ai-nlp/giga-fren.tgz
5)AG News
496,835 條來(lái)自 AG 新聞?wù)Z料庫(kù) 4 大類別超過(guò) 2000 個(gè)新聞源的新聞文章,數(shù)據(jù)集僅僅援用了標(biāo)題和描述字段。每個(gè)類別分別擁有 30,000 個(gè)訓(xùn)練樣本及 1900 個(gè)測(cè)試樣本。
引文:https://arxiv.org/abs/1509.01626
下載地址:https://s3.amazonaws.com/fast-ai-nlp/ag_news_csv.tgz
6)Amazon reviews - Full
34,686,770 條來(lái)自 6,643,669 名亞馬遜用戶針對(duì) 2,441,053 款產(chǎn)品的評(píng)論,數(shù)據(jù)集主要來(lái)源于斯坦福網(wǎng)絡(luò)分析項(xiàng)目(SNAP)。數(shù)據(jù)集的每個(gè)類別分別包含 600,000 個(gè)訓(xùn)練樣本和 130,000 個(gè)測(cè)試樣本。
引文:https://arxiv.org/abs/1509.01626
下載地址:https://s3.amazonaws.com/fast-ai-nlp/amazon_review_full_csv.tgz
7)Amazon reviews - Polarity
34,686,770 條來(lái)自 6,643,669 名亞馬遜用戶針對(duì) 2,441,053 款產(chǎn)品的評(píng)論,數(shù)據(jù)集主要來(lái)源于斯坦福網(wǎng)絡(luò)分析項(xiàng)目(SNAP)。該子集的每個(gè)情緒極性數(shù)據(jù)集分別包含 1,800,000 個(gè)訓(xùn)練樣本和 200,000 個(gè)測(cè)試樣本。
引文:https://arxiv.org/abs/1509.01626
下載地址:https://s3.amazonaws.com/fast-ai-nlp/amazon_review_polarity_csv.tgz
8)DBPedia ontology
來(lái)自 DBpedia 2014 的 14 個(gè)不重疊的分類的 40,000 個(gè)訓(xùn)練樣本和 5,000 個(gè)測(cè)試樣本。
引文:https://arxiv.org/abs/1509.01626
下載地址:https://s3.amazonaws.com/fast-ai-nlp/dbpedia_csv.tgz
9)Sogou news
2,909,551 篇來(lái)自 SogouCA 和 SogouCS 新聞?wù)Z料庫(kù) 5 個(gè)類別的新聞文章。每個(gè)類別分別包含 90,000 個(gè)訓(xùn)練樣本和 12,000 個(gè)測(cè)試樣本。這些漢字都已經(jīng)轉(zhuǎn)換成拼音。
引文:https://arxiv.org/abs/1509.01626
下載地址:https://s3.amazonaws.com/fast-ai-nlp/sogou_news_csv.tgz
10)Yahoo! Answers
來(lái)自雅虎 Yahoo! Answers Comprehensive Questions and Answers1.0 數(shù)據(jù)集的 10 個(gè)主要分類數(shù)據(jù)。每個(gè)類別分別包含 140,000 個(gè)訓(xùn)練樣本和 5,000 個(gè)測(cè)試樣本。
引文:https://arxiv.org/abs/1509.01626
下載地址:https://s3.amazonaws.com/fast-ai-nlp/yahoo_answers_csv.tgz
11)Yelp reviews - Full
來(lái)自 2015 年 Yelp Dataset Challenge 數(shù)據(jù)集的 1,569,264 個(gè)樣本。每個(gè)評(píng)級(jí)分別包含 130,000 個(gè)訓(xùn)練樣本和 10,000 個(gè) 測(cè)試樣本。
引文:https://arxiv.org/abs/1509.01626
下載地址:https://s3.amazonaws.com/fast-ai-nlp/yelp_review_full_csv.tgz
12)Yelp reviews - Polarity
來(lái)自 2015 年 Yelp Dataset Challenge 數(shù)據(jù)集的 1,569,264 個(gè)樣本。該子集中的不同極性分別包含 280,000 個(gè)訓(xùn)練樣本和 19,000 個(gè)測(cè)試樣本。
引文:https://arxiv.org/abs/1509.01626
下載地址:https://s3.amazonaws.com/fast-ai-nlp/yelp_review_polarity_csv.tgz
目標(biāo)檢測(cè)定位
1)Camvid: Motion-based Segmentation and Recognition Dataset
700 張包含像素級(jí)別語(yǔ)義分割的圖像分割數(shù)據(jù)集,每張圖像都經(jīng)過(guò)第二個(gè)人的檢查和確認(rèn)來(lái)確保數(shù)據(jù)的準(zhǔn)確性。
引文:https://pdfs.semanticscholar.org/08f6/24f7ee5c3b05b1b604357fb1532241e208db.pdf
下載地址:https://s3.amazonaws.com/fast-ai-imagelocal/camvid.tgz
2)PASCAL Visual Object Classes (VOC)
用于類識(shí)別的標(biāo)準(zhǔn)圖像數(shù)據(jù)集——這里同時(shí)提供了 2007 與 2012 版本。2012 年的版本擁有 20 個(gè)類別。訓(xùn)練數(shù)據(jù)的 11,530 張圖像中包含了 27,450 個(gè) ROI 注釋對(duì)象和 6,929 個(gè)目標(biāo)分割數(shù)據(jù)。
引文:http://host.robots.ox.ac.uk/pascal/VOC/pubs/everingham10.pdf
下載地址:https://s3.amazonaws.com/fast-ai-imagelocal/pascal-voc.tgz
COCO 數(shù)據(jù)集
目前最常用于圖像檢測(cè)定位的數(shù)據(jù)集應(yīng)該要屬 COCO 數(shù)據(jù)集(全稱為 Common Objects in Context)。本文提供 2017 版 COCO 數(shù)據(jù)集的所有文件,另外附帶由 fast.ai 創(chuàng)建的子集數(shù)據(jù)集。我們可以從 COCO 數(shù)據(jù)集下載頁(yè)面(http://cocodataset.org/#download)獲取每個(gè) COCO 數(shù)據(jù)集的詳情。fast.ai 創(chuàng)建的子集數(shù)據(jù)集包含五個(gè)選定類別的所有圖像,這五個(gè)選定類別分別為:椅子、沙發(fā)、電視遙控、書籍和花瓶。
fast.ai 創(chuàng)建的子集數(shù)據(jù)集:https://s3.amazonaws.com/fast-ai-coco/coco_sample.tgz
訓(xùn)練圖像數(shù)據(jù)集:https://s3.amazonaws.com/fast-ai-coco/train2017.zip
驗(yàn)證圖像數(shù)據(jù)集:https://s3.amazonaws.com/fast-ai-coco/val2017.zip
測(cè)試圖像數(shù)據(jù)集:https://s3.amazonaws.com/fast-ai-coco/test2017.zip
未經(jīng)標(biāo)注的圖像數(shù)據(jù)集:https://s3.amazonaws.com/fast-ai-coco/unlabeled2017.zip
測(cè)試圖像數(shù)據(jù)集詳情:https://s3.amazonaws.com/fast-ai-coco/image_info_test2017.zip
未經(jīng)標(biāo)注的圖像數(shù)據(jù)集詳情:https://s3.amazonaws.com/fast-ai-coco/image_info_unlabeled2017.zip
訓(xùn)練/驗(yàn)證注釋集:https://s3.amazonaws.com/fast-ai-coco/annotations_trainval2017.zip
主體訓(xùn)練/驗(yàn)證注釋集:https://s3.amazonaws.com/fast-ai-coco/stuff_annotations_trainval2017.zip
全景訓(xùn)練/驗(yàn)證注釋集:https://s3.amazonaws.com/fast-ai-coco/panoptic_annotations_trainval2017.zip
標(biāo)簽: AI從業(yè)者 實(shí)驗(yàn)數(shù)據(jù)集
新聞排行
圖文播報(bào)
科普信息網(wǎng) - 科普類網(wǎng)站
聯(lián)系郵箱:85 572 98@qq.com 備案號(hào): 粵ICP備18023326號(hào)-39
版權(quán)所有:科普信息網(wǎng) www.www44bkbkcom.cn copyright © 2018 - 2020
科普信息網(wǎng)版權(quán)所有 本站點(diǎn)信息未經(jīng)允許不得復(fù)制或鏡像,違者將被追究法律責(zé)任!