0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

還在愁到哪里找到需要的機(jī)器學(xué)習(xí)數(shù)據(jù)集嗎?

DPVg_AI_era ? 來(lái)源:lp ? 2019-03-29 11:45 ? 次閱讀

本文介紹一個(gè)機(jī)器學(xué)習(xí)大型數(shù)據(jù)集的匯總網(wǎng)站,網(wǎng)站目前提供約 70 個(gè)最新數(shù)據(jù)集,涵蓋了計(jì)算機(jī)視覺(jué)、自然語(yǔ)言理解和音頻三大領(lǐng)域。

還在愁到哪里找到需要的機(jī)器學(xué)習(xí)數(shù)據(jù)集嗎?

每年都有很多大型、高質(zhì)量的數(shù)據(jù)集發(fā)布,其中大多數(shù)數(shù)據(jù)集都發(fā)布在各自的網(wǎng)站上,通過(guò)谷歌搜索很難找到所有這些數(shù)據(jù)集。

現(xiàn)在,一位名叫Nikola Ple?a的開(kāi)發(fā)人員做了一個(gè)項(xiàng)目,將所有機(jī)器學(xué)習(xí)的大型數(shù)據(jù)集收集在一個(gè)網(wǎng)站上,方便大家取用。

網(wǎng)站一經(jīng)發(fā)布,好評(píng)如潮。網(wǎng)站目前提供約70個(gè)數(shù)據(jù)集,涵蓋了計(jì)算機(jī)視覺(jué)、自然語(yǔ)言理解和音頻三大領(lǐng)域,包括每個(gè)數(shù)據(jù)集的鏈接、簡(jiǎn)介、許可類型、論文等,并且作者表示將繼續(xù)增加數(shù)據(jù)集數(shù)量。

傳送門:

https://www.datasetlist.com/

下面,我們分別介紹CV、NLP的最新10大數(shù)據(jù)集,以及4個(gè)音頻數(shù)據(jù)集。

計(jì)算機(jī)視覺(jué)(46個(gè))

1. IBM人臉多樣性數(shù)據(jù)集

IBM的人臉多樣性(DiF)數(shù)據(jù)集是一個(gè)龐大而多樣化的數(shù)據(jù)集,旨在促進(jìn)人臉識(shí)別技術(shù)中公平性和準(zhǔn)確性的研究。DiF是第一個(gè)此類數(shù)據(jù)集,包含100萬(wàn)張帶注釋的人臉圖像。

2. GQA

GQA數(shù)據(jù)集包含2200萬(wàn)個(gè)關(guān)于各種日常圖像的問(wèn)題。每個(gè)圖像都與圖像的對(duì)象、屬性和關(guān)系的場(chǎng)景圖相關(guān)聯(lián),這是一個(gè)基于Visual Genome的新的清晰版本數(shù)據(jù)集。

3. NVIDIA Flickr-Faces-HQ數(shù)據(jù)集

該數(shù)據(jù)集由70000張分辨率為1024×1024的高質(zhì)量PNG圖像組成,并且在人物的年齡、種族和圖像背景方面差異很大。數(shù)據(jù)集也很好地覆蓋了人臉的附件,如眼鏡,太陽(yáng)鏡,帽子等。

4. Google Open Images V4

Open Images是一個(gè)包含約900萬(wàn)個(gè)URL圖像的數(shù)據(jù)集,這些圖像具有包含數(shù)千個(gè)類別的圖像級(jí)標(biāo)簽和邊界框注釋。

5. Youtube-8M 2018

YouTube- 8M是一個(gè)大型的帶標(biāo)簽的視頻數(shù)據(jù)集,由數(shù)百萬(wàn)個(gè)YouTube視頻ID和來(lái)自4700多個(gè)視覺(jué)實(shí)體的不同詞匯表的相關(guān)標(biāo)簽組成,包含大量的視頻畫(huà)面信息、音頻信息、標(biāo)簽信息。

6. Berkeley Deep Drive (BDD100K)

該數(shù)據(jù)集包含超過(guò)100k個(gè)駕駛體驗(yàn)視頻,每個(gè)視頻長(zhǎng)度為40秒,幀數(shù)為每秒30幀??倛D像數(shù)比百度ApolloScape(2018年3月發(fā)布)大800倍,比Mapillary大4800倍,比KITTI大8000倍。

7. ApolloScape

ApolloScape是一個(gè)此前的類似數(shù)據(jù)集如KITTI和CityScapes更大、更復(fù)雜的數(shù)據(jù)集。ApolloScape提供了高分辨率高10倍以上的圖像,并逐像素標(biāo)注,包括26種不同的可識(shí)別對(duì)象,如汽車、自行車、行人和建筑物。隨著行人和車輛數(shù)量的增加,數(shù)據(jù)集提供了多個(gè)級(jí)別的場(chǎng)景復(fù)雜性,在給定場(chǎng)景中最多多達(dá)100輛車輛,以及更廣泛的具有挑戰(zhàn)性的環(huán)境,如惡劣天氣或極端光照條件。

8. Tencent ML - Images

騰訊發(fā)布的Tencent ML - Images是目前最大的開(kāi)源多標(biāo)簽圖像數(shù)據(jù)集,包括17,609,752個(gè)訓(xùn)練圖像和88739個(gè)驗(yàn)證圖像URL,注釋多達(dá)11,166個(gè)類別。

9. Fashion MNIST

Fashion-MNIST是Zalando文章圖像的一個(gè)數(shù)據(jù)集,包括60,000個(gè)示例的訓(xùn)練集和10,000個(gè)示例的測(cè)試集。每個(gè)示例都是一個(gè)28x28的灰度圖像,與10個(gè)類別的標(biāo)簽相關(guān)聯(lián)。

10. MegaFace

MF2訓(xùn)練數(shù)據(jù)集是身份數(shù)量上最大的公開(kāi)可用的面部識(shí)別數(shù)據(jù)集,有470萬(wàn)張面部圖像,672K個(gè)身份,以及各自的邊界框。所有圖片均來(lái)自Flickr,并在知識(shí)共享協(xié)議下許可。

自然語(yǔ)言理解(18個(gè))

1. 斯坦福問(wèn)答數(shù)據(jù)集(SQuAD)

斯坦福問(wèn)答數(shù)據(jù)集(Stanford Question answer Dataset, SQuAD)是一個(gè)全新的閱讀理解數(shù)據(jù)集,由眾包工作者根據(jù)維基百科文章提出的問(wèn)題組成,其中每個(gè)問(wèn)題的答案都對(duì)應(yīng)閱讀文章的一段文本。SQuAD包含500多篇文章的10萬(wàn)對(duì)以上的問(wèn)答對(duì),因此規(guī)模明顯大于之前的閱讀理解數(shù)據(jù)集。SQuAD2.0將SQuAD1.1中的10萬(wàn)個(gè)問(wèn)題與5萬(wàn)多個(gè)新的、無(wú)法回答的問(wèn)題(由眾包工作者提出)結(jié)合起來(lái),使之看起來(lái)與可回答的問(wèn)題相似。

2. MultiNLI

多體裁自然語(yǔ)言推理語(yǔ)料庫(kù)(Multi-Genre Natural Language Inference, MultiNLI)是一個(gè)由433k個(gè)句子對(duì)組成的源文本集合語(yǔ)料庫(kù),這些句子對(duì)都帶有文本蘊(yùn)涵信息。MultiNLI語(yǔ)料庫(kù)是在SNLI語(yǔ)料庫(kù)的基礎(chǔ)上建立的,但不同之處在于它涵蓋了一系列口語(yǔ)和書(shū)面文本的體裁,并支持獨(dú)特的跨體裁評(píng)估。

3. CoQA

CoQA是一個(gè)用于構(gòu)建會(huì)話問(wèn)答系統(tǒng)的大型數(shù)據(jù)集。CoQA包含127k個(gè)問(wèn)題和答案,來(lái)自7個(gè)不同領(lǐng)域的8k個(gè)文本段落的對(duì)話。

4. Spider 1.0

Spider是一個(gè)大型復(fù)雜的跨域語(yǔ)義分析和text-to-SQL的數(shù)據(jù)集。Spider由10181個(gè)問(wèn)題和5693個(gè)獨(dú)特的復(fù)雜SQL查詢組成,這些查詢來(lái)自200個(gè)數(shù)據(jù)庫(kù),覆蓋138個(gè)不同的域。

5. HotpotQA

HotpotQA是一個(gè)以自然的、multi-hop的問(wèn)題為特征的問(wèn)答數(shù)據(jù)集,具有強(qiáng)大的支持事實(shí)的監(jiān)督,以實(shí)現(xiàn)更易于解釋的問(wèn)答系統(tǒng)。該數(shù)據(jù)集由113,000對(duì)基于Wikipedia的QA對(duì)組成。

6. Question Pairs (Quora)

包含超過(guò)400,000行潛在的問(wèn)題對(duì)。

7. Yelp open dataset

Yelp數(shù)據(jù)集是用于個(gè)人、教育和學(xué)術(shù)目的的業(yè)務(wù)、評(píng)論和用戶數(shù)據(jù)的子集??稍贘SON和SQL文件中使用。

8. Facebook bAbI

一個(gè)用于自動(dòng)文本理解和推理的數(shù)據(jù)集。

9. MS MARCO

微軟機(jī)器閱讀理解數(shù)據(jù)集(MS MARCO)是一個(gè)用于閱讀理解和問(wèn)題回答的新型大型數(shù)據(jù)集。在MS MARCO中,所有問(wèn)題都是從真實(shí)的匿名用戶查詢中提取的。數(shù)據(jù)集中的答案來(lái)自上下文段落,這些段落使用Bing搜索引擎從真實(shí)的web文檔中提取。如果他們能夠總結(jié)出答案,那么查詢的答案就是人工生成的。

10. NewsQA

NewsQA數(shù)據(jù)集的目的是幫助研究社區(qū)構(gòu)建能夠回答需要人類水平理解和推理技能的問(wèn)題的算法。該數(shù)據(jù)集包含來(lái)自眾包的120K閱讀理解Q&A對(duì)。

音頻(4個(gè))

1. Mozilla Common Voice

Mozilla擁有可供使用的最大的人類語(yǔ)音數(shù)據(jù)集,包括18種不同的語(yǔ)言,從4.2萬(wàn)多名貢獻(xiàn)者那里收集了近1400小時(shí)的錄音語(yǔ)音數(shù)據(jù)。

2. NSynth

這是一個(gè)大規(guī)模、高質(zhì)量的注釋音符數(shù)據(jù)集。NSynth數(shù)據(jù)集是一個(gè)音頻數(shù)據(jù)集,包含~300k個(gè)音符,每個(gè)音符都有一個(gè)獨(dú)特的音調(diào)、音色和包絡(luò)。

3. Google Audioset

AudioSet由632個(gè)音頻事件類的擴(kuò)展本體和來(lái)自YouTube視頻的2084320個(gè)帶有人類標(biāo)記的10秒聲音片段組成。本體被指定為事件類別的層次圖,涵蓋廣泛的人類和動(dòng)物聲音、樂(lè)器和流派,以及常見(jiàn)的日常環(huán)境聲音。

4. LibriSpeech

LibriSpeech是一個(gè)有聲圖書(shū)數(shù)據(jù)集,包含文本和語(yǔ)音。數(shù)據(jù)集包含多位講者朗讀的各類有聲讀物,時(shí)長(zhǎng)近500小時(shí)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:收藏:全網(wǎng)最大機(jī)器學(xué)習(xí)數(shù)據(jù)集,視覺(jué)、NLP、音頻都在這了

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    學(xué)習(xí)protel了,不知道該學(xué)習(xí)是99還是***,更不知道在哪里找

    學(xué)習(xí)protel了,不知道該學(xué)習(xí)是99還是***,更不知道在哪里找到適合win7的版本,高手 大蝦幫忙啊
    發(fā)表于 03-15 02:07

    _cror_ 在INTRINS.H 哪里找代碼?

    比如有個(gè)庫(kù)函數(shù)_cror_在INTRINS.H文件中,但是它并沒(méi)有寫(xiě)它怎么實(shí)現(xiàn)的啊,如果我想?yún)⒖紟?kù)函數(shù)怎么寫(xiě)的該到哪里找呢。謝謝
    發(fā)表于 01-06 16:09

    求各位大神幫我看一下這個(gè)圖標(biāo)在哪里找到

    謝謝各位大神,幫著小弟點(diǎn)一下這個(gè)圖標(biāo)哪里找到。
    發(fā)表于 08-26 19:31

    這個(gè)是什么。在哪里找到???拜托,告訴我一下行嗎。

    這是個(gè)溫度采集的程序框圖,其中有這個(gè)我不知道從哪里找到。
    發(fā)表于 04-05 15:38

    請(qǐng)問(wèn)這個(gè)圖標(biāo)是真么意思 在哪里找到

    請(qǐng)問(wèn)這個(gè)圖標(biāo)是真么意思 在哪里找到
    發(fā)表于 05-20 20:22

    新手求問(wèn),下面右邊的圖標(biāo)是什么,在哪里找到

    新手求問(wèn),下面右邊的圖標(biāo)是什么,在哪里找到
    發(fā)表于 05-27 09:50

    剛剛開(kāi)始學(xué)Altium,不知道這個(gè)封裝要到哪里找

    `別人給了一個(gè)原理圖給我,但有一個(gè)二極管的封裝找不到,哪位大神能告訴我應(yīng)該到哪里找這個(gè)封裝`
    發(fā)表于 12-07 21:58

    3D Curve 是什么,在哪里找到

    求問(wèn),這個(gè)是什么?在哪里找到的。謝謝。
    發(fā)表于 04-21 15:31

    tdms文件輸出控件 在哪里找到

    `哪位大神知道這個(gè)控件在哪里找到`
    發(fā)表于 04-14 10:12

    哪里找到中斷向量名稱?

    嗨,Noob問(wèn)題:在哪里找到中斷向量名?到目前為止,我一直依賴于數(shù)據(jù)表中的演示代碼,但是我找不到ADC向量。他們?cè)谀硞€(gè)文件里嗎?我猜:沒(méi)用。謝謝!
    發(fā)表于 10-31 13:43

    在網(wǎng)上下載的TD軟件,安裝后沒(méi)有License文件到哪里找?

    網(wǎng)上下載的TD軟件,安裝后沒(méi)有License文件,到哪里找?
    發(fā)表于 08-11 06:58

    機(jī)器學(xué)習(xí)應(yīng)用及數(shù)據(jù)

    本文介紹了包括圖像分類、交易預(yù)測(cè)、情感分類、推薦系統(tǒng)、股票預(yù)測(cè)等在內(nèi)的若干個(gè)機(jī)器學(xué)習(xí)應(yīng)用及數(shù)據(jù)。
    的頭像 發(fā)表于 04-21 11:01 ?4027次閱讀

    PLC網(wǎng)關(guān)采集PLC數(shù)據(jù)之后數(shù)據(jù)都放到哪里去了呢

    PLC網(wǎng)關(guān)采集PLC數(shù)據(jù)之后,數(shù)據(jù)都放到哪里去了呢
    發(fā)表于 11-06 16:01 ?2124次閱讀
    PLC網(wǎng)關(guān)采集PLC<b class='flag-5'>數(shù)據(jù)</b>之后<b class='flag-5'>數(shù)據(jù)</b>都放<b class='flag-5'>到哪里</b>去了呢

    機(jī)器學(xué)習(xí)算法的介紹

    哲學(xué)要回答的基本問(wèn)題是從哪里來(lái)、我是誰(shuí)、到哪里去,尋找答案的過(guò)程或許可以借鑒機(jī)器學(xué)習(xí)的套路:組織數(shù)據(jù)->挖掘知識(shí)->預(yù)測(cè)未來(lái)。組織
    的頭像 發(fā)表于 06-05 14:17 ?882次閱讀

    python idle在哪里找到

    于Python 1.5版本中推出,并且隨著Python的發(fā)展一直得到改進(jìn)和優(yōu)化。目前,IDLE已經(jīng)成為了很多Python初學(xué)者學(xué)習(xí)和使用的首選工具之一。 那么,如何找到Python IDLE呢?
    的頭像 發(fā)表于 11-29 14:39 ?971次閱讀