史上最大機器學習數據集，雅虎對外開放了

云淡鋒輕 9年前發布 | 20K 次閱讀數據挖掘機器學習

【導讀】：數據是機器學習研究的命門。訪問真正的大規模數據集，是一項傳統上由機器學習研究者和大公司的數據科學家所保有的特權，然而大多數學術研究人員缺無法觸及。2016年1月14日，雅虎實驗室對外發布了發布史上最大機器學習數據集，達 13.5 TB。

數據集主頁： http://webscope.sandbox.yahoo.com/catalog.php?datatype=r&did=75 。下面是對雅虎實驗室官博文章的翻譯。

數據是機器學習研究的命門。訪問 真正的 大規模數據集，是一項傳統上由機器學習研究者和大公司的數據科學家所保有的特權，然而大多數學術研究人員缺無法觸及。

雅虎實驗室的科學家們長期浸淫于面向顧客產品的大規模機器學習問題研究。這使得我們在諸如搜索排名、計算廣告、信息檢索以及核機器學習等領域進行深入思考。對外部研究團體來說，外部研究團體的興趣一個關鍵方面是新算法和方法的應用，對產品買賣和從真實產品收集的大規模數據集。

今天，我們驕傲地宣布向研究團體公開發布史上最大機器學習數據集。該數據集存有海量信息，記錄了2015年2月至5月間2千萬用戶約 1100 億個事件 （ 13.5TB 未壓縮 ）的新聞項目交互數據。

「雅虎新聞種子數據集」是一個基于若干雅虎產品匿名用戶交互新聞種子樣本，包括雅虎主頁、雅虎新聞、雅虎體育、雅虎財經、雅虎電影和雅虎房產。

雅虎主頁上的新聞種子

我們的目標是促進大規模機器學習和推薦系統領域的獨立研究，為業界和學術研究領域提供幫助平臺。數據集作為雅虎 Labs Webscope 數據共享計劃的組成部分，該計劃是由非商用匿名用戶數據組成的科學實用數據集的引用庫。

除了交互數據，我們還提供匿名用戶的分類人口統計信息（年齡段、性別和泛地理數據）子集。在項目方面，我們發布標題、評論和相關新聞文章的關鍵詞組。交互數據標記當地時間信息，并且包含用戶訪問新聞種子設備的部分信息，新聞種子容許上下文推薦和文本數據挖掘等吸睛業務。

雅虎實驗室的個性化科學團隊在全維度雅虎新聞種子數據集有許多有趣的作為，這點化了在行為模型、推薦系統、大尺度和分布式機器學習、排名、在線算法、內容建模以及時序挖掘等領域的一些引人注目的思想（例如《鳥類、應用程序和用戶：可變尺度因式分解機和科學驅動產品和個性化：超越點擊》）。

我們希望發布這個數據能啟迪研究者、數據科學家以及機器學習界的發燒友，并用擴展的“真實世界”數據集幫助他們驗證模型。我們堅信該數據集能成為大尺度機器學習和推薦系統的標桿，期盼來自我們數據應用團體的佳音。

2016年（大規模）機器學習快樂！

關于我們處理用戶隱私的說明： 我們的用戶每時每刻都置信于我們，我們努力贏得這份信任。我們積極地保護用戶隱私，負責任地、透明地使用和保護用戶個人信息。因此，作為該計劃的一部分，我們業已將發布的數據集匿名化。

本文由用戶云淡鋒輕自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！