谷歌開放大規模音頻數據集AudioSet,助力AI音頻算法研究

jopen 7年前發布 | 5K 次閱讀 AudioSet Google

谷歌開放大規模音頻數據集AudioSet,助力AI音頻算法研究

在 Google Cloud Next 云技術大會之前,谷歌通過開發者博客公布了一個可以媲美圖像識別領域 ImageNet 的大型音頻數據庫 AudioSet。據稱,該數據庫包含了 632 個音頻類別以及 2084320 條人工標記的每段 10 秒長度的聲音剪輯片段(來自 油Tube 視頻),覆蓋范圍包括人聲、動物聲、各種樂器與音樂流派,以及日常生活環境的聲音等。總體量為:2100 萬標注視頻、5800 個小時的音頻,以及 527 種類型的標注聲音。

論文:https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/45857.pdf 

詳情:https://research.google.com/audioset/ 

來自: 雷鋒網

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!