TensorFlow最出色的30個機器學習數據集

五嘎子 4年前發布 | 757 次閱讀 TensorFlow 機器學習

  字幕組雙語原文:TensorFlow 最出色的 30 個機器學習數據集

  英語原文:30 Largest TensorFlow Datasets for Machine Learning

  翻譯:雷鋒字幕組(chenx2ovo

  TensorFlow 是由谷歌大腦的研究人員創建、最大的機器學習和數據科學的開源數據庫之一。它是一個端到端平臺,適合完全沒有經驗的初學者和有經驗的數據科學家。TensorFlow 庫包括工具、預訓練模型、機器學習教程以及一整套公開數據集。為了幫助你找到所需的訓練數據,本文將簡單介紹一些 TensorFlow 中用于機器學習的大型數據集。我們將以下數據集的列表分為圖像、視頻、音頻和文本。

  TensorFlow 圖像數據集

  1.  CelebA:明星臉屬性數據集(CelebA)是最大的公開可用的人臉圖像數據集,其中包含 200,000 多個名人圖像。

TensorFlow 最出色的 30 個機器學習數據集

每個圖像包括 5 個面部標注和 40 個二進制屬性標注。

  2.  Downsampling Imagenet:該數據集是為密度估計和生成性建模任務而建立的。它包括了 130 多萬張物體、場景、車輛、人物等圖像。這些圖像有兩種分辨率規格:32×32 和 64×64。

  3.  Lsun—Lsun 是一個大規模的圖像數據集,創建該數據集是為了幫助訓練模型進行場景理解。該數據集包含超過 900 萬張圖像,按場景類別劃分,如臥室、教室和餐廳。

  4.  Bigearthnet—Bigearthnet 是另一個大規模數據集,它包含來自 Sentinel-2 衛星的航空圖像。每張圖像覆蓋了 1.2 公里×1.2 公里的一片地面。該數據集中有 43 個類別不平衡的標簽。 

  5.  Places 365—顧名思義,Places 365 包含 180 多萬張不同地方或場景的圖片。其中一些類別包括辦公室、碼頭和別墅。Places 365 是用于場景識別任務的最大數據集之一。

  6.  Quickdraw 位圖—Quickdraw 數據集是由 Quickdraw 玩家社區繪制的圖像集合。它包含 500 萬張圖紙,跨越 345 個類別。這個版本的 Quickdraw 數據集包括 28×28 的灰度圖像。

  7.  SVHN Cropped—街景房號(SVHN)是為訓練數字識別算法,由斯坦福大學建立的 TensorFlow 數據集。它包含 60 萬個真實世界的、被裁剪成 32×32 像素的圖像數據實例。

  8.  VGGFace2—最大的人臉圖像數據集之一,VGGFace2 包含從谷歌搜索引擎下載的圖像。數據集中的人臉在年齡、姿勢和種族上都有所不同。每個類別平均有 362 張圖像。

  9.  COCO—由谷歌、FAIR、加州理工學院等合作者制作,是世界上最大的標簽圖像數據集之一。它是為物體檢測、分割和圖像字幕任務而建立的。

TensorFlow 最出色的 30 個機器學習數據集

通過 cocodataset.org

  數據集包含 330,000 張圖像,其中 20 萬張有標簽。在所有圖像中,共包含了 80 個類別的 150 萬個對象實例。

  10.  Open Images Challenge 2019—包含約 900 萬張圖像,該數據集是網上最大的、標注的圖像數據集之一。這些圖像包含圖像級標簽、對象邊界框和對象分割掩碼,以及他們之間的視覺關系。

  11.  Open Images V4—這個數據集是上述 Open Images 數據集的另一個迭代。V4 版本中包含了 600 個不同物體類別的 1460 萬個邊界框。這些邊界框是由人類標注者手動繪制的。

  12.  AFLW2K3D—該數據集包含 2000 張面部圖像,均有 3D 面部真實標注。它的創建是為了評估 3D 面部標注檢測模型。

  視頻數據集

  13.  UCF101—來自中央佛羅里達大學,UCF101 是為訓練動作識別模型而建立的視頻數據集。該數據集有 101 個動作類別的 13320 個視頻,。

  14.  BAIR Robot Pushing—來自伯克利人工智能研究,BAIR Robot Pushing 包含 44000 個機器人推的動作的示例視頻。

  15.  Moving MNIST—這個數據集是 MNIST 基準數據集的一個變體。Moving MNIST 包含 10,000 個視頻。

  每個視頻都顯示了在 64×64 大小的幀內 2 個手寫數字的移動過程。

  16.  EMNIST—擴展的 MNIST 數據集,包含了原始 MNIST 數據集轉換成 28 x 28 像素大小的圖片。 

  TensorFlow 音頻數據集

  17.  CREMA-D—為情感識別任務而創建,CREMA-D 由語音情感表達組成。 該數據集包含由年齡,種族和性別不同的 91 位演員表達的7,442 個音頻剪輯。

  18.  Librispeech—Librispeech 是一個簡單的音頻數據集,它包含 1000 小時的英語語音,這些語音來自 LibriVox 項目的有聲讀物。它被用于訓練聲學模型和語言模型。

  19.  Libritts—這個數據集包含約 585 小時的英語語音,是在 Google Brain 團隊成員的協助下準備的。Libritts 最初是為 Text-to-speech(TTS)研究設計的,但可以用于各種語音識別任務。

  20.  TED-LIUM—TED-LIUM 是一個包含 110 多個小時的英語 TED 演講的數據集。 所有的演講內容都已被轉錄。 

  21.  VoxCeleb—VoxCeleb 是為演講者識別任務而建立的大型音頻數據集,包含來自1,251 位演講者的 150,000 多個音頻樣本。

  文本數據集

  22.  C4(Common Crawl's Web Crawl Corpus)—Common Crawl 是一個開放源碼的網頁數據庫。它包含了超過 40 種語言、跨越 7 年的數據。

  23.  Civil Comments—這個數據集是由來自 50 個英文新聞網站的 180 多萬條公眾評論構成的。

  24.  IRC Disentanglement—這個 TensorFlow 數據集包括來自 Ubuntu IRC 頻道的 77000 多條評論。每個樣本的元數據包括消息 ID 和時間戳。

  25.  Lm1b—被稱為語言模型基準,這個數據集包含 10 億個單詞。它最初是為了衡量統計語言建模的進展。

  26.  SNLI—斯坦福自然語言推理數據集是一個包含 57 萬個人類寫作句子對的語料庫。所有的句對都經過人工標注,類別是均衡的。

  27. e-SNLI—這個數據集是上面提到的 SNLI 的擴展,它包含了原始數據集的 57 萬個句子對,分類為:包含、矛盾和中性。

  28.  MultiNLI—仿照 SNLI 數據集,MultiNLI 包含 433,000 個句子對,都有尾部信息注釋。

  29.  Wiki40b—這個大規模的數據集包括 40 種不同語言的維基百科文章。這些數據已經被清理,其中的非內容部分以及結構化對象已經被去掉。

  30.  Yelp 極性評論—這個數據集包含 598,000 條高度極性的 Yelp 評論。它們是從 2015 年 Yelp 數據集挑戰賽中的數據提取出來的。

  雖然上述數據集是機器學習中最大、最廣泛使用的一些 TensorFlow 數據集,但 TensorFlow 庫是龐大的,并在不斷擴展。請訪問 TensorFlow 網站,了解更多關于該平臺如何幫助您構建自己的模型的信息。

  雷鋒字幕組是由 AI 愛好者組成的志愿者翻譯團隊;團隊成員有大數據專家、算法工程師、圖像處理工程師、產品經理、產品運營、IT 咨詢人、在校師生;志愿者們來自 IBM、AVL、Adobe、阿里、百度等知名企業,北大、清華、港大、中科院、南卡羅萊納大學、早稻田大學等海內外高校研究所。

  了解字幕組請聯系微信:tlacttlact

  轉載請聯系字幕組微信并注明出處:雷鋒字幕組

 本文由用戶 五嘎子 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!
  轉載自:https://www.leiphone.com/news/202008/UOyM6AD7zYyRll6g.html