為吸引人工智能專家雅虎公布13.5TB用戶數據

jopen 10年前發布 | 7K 次閱讀雅虎

1 月 15 日，外媒報道稱，為了?????吸引人工智能領域的頂級人才，雅虎公布大量用戶的互網絡行為數據。

周四，雅虎宣布，公司將公布最大規模的互聯網行為數據，數據涉及瀏覽雅虎體育、雅虎財經、雅虎新聞、雅虎地產和其他版塊的 2000 萬匿名用戶。雅虎僅面向大學機構公布數據，這些數據將讓研究人員切實了解大量用戶的互聯網行為方式。

由于多年停滯不前，雅虎正面臨嚴重的人才流失難題。人工智能領域快速增長，而且競爭異常激烈，雅虎希望吸引該領域的學術研究人員。

雅虎此舉正值科技公司爭相與學術界加??強合作之時，而科技公司尤為關注人工智能領域。人工智能涉及機器學習和深度學習技術，這類技術可訓練機器挖掘海量數據，旨在回答復雜問題或預測用戶行為。

非死book 和谷歌已經招募頂級人工智能研究人員。例如，2013 年燕樂存（Yann LeCun）加盟非死book，他繼續運營紐約大學數據科學中心。

卡內基梅隆大學計算機學院院長安德魯·穆爾（Andrew Moore）表示：“無論你擁有多少人才，管理者總是希望招募更多的人才。這些大型科技公司總覺得缺少某類研發人才。”

海量數據是機器學習的必備要素。利用這些數據，電腦可分析復雜的模式，根據雅虎的情況給出科學的建議，例如哪種標題或設計更加吸引紐約地區的年輕女孩。大型互聯網公司一般嚴格控制這類數據，外部人士極難獲得。雅虎此次公布的數據體積為?????13.5 TB，相當于美國國會圖書館數據體積的2/3。

穆爾表示，絕大多數學術計算機科學家未曾接觸如此龐大的用戶數據，學者可能要把數據存儲到大學外部的服務器，他們可能選擇亞馬遜或谷歌的云計算中心。

去年，雅虎和卡內基梅隆大學簽署一份為期 5 年的合作合同，雅虎將為卡內基梅隆大學提供 1000 萬美元研究資金，目的是基于用戶數據開發個性化應用。

加州大學圣地亞哥分校電子與計算機系教授格特·蘭克利（Gert Lanckriet）表示：“公司外部人士難以獲得數據。”

專家認為，雅虎數據的規模使其極具價值。相較針對少量數據設計的算法，針對海量數據設計的算法具有本質區別。雅虎的數據可以讓研究人員開發大型算法，這種算法尤其適合企業。

自 2006 年以來，雅虎已經發布了 50 多個數據集，包括 2014 年的 1 億張 Flickr 照片緩存。此前，雅虎公布的最大數據集為 413 GB。谷歌和亞馬遜公布的數據集相對較小。

數據科學初創公司 Fast Forward Labs 創始人希拉里·梅森（Hilary Mason）表示，一方面，科技公司要吸引人才和催生新理念。另一方面，它們要保護用戶隱私和保持競爭優勢。這種矛盾正逐漸加大。

梅森稱，眾多大型科技公司正嘗試打造同樣的功能，例如無人駕駛汽車、圖像識別和個性化服務。公布用戶數據之后，雅虎承擔些許暴露商業秘密的危險，但雅虎認為吸引人才能帶來更大回報。

盡管數家公司曾面向研究人員公布用戶數據，但結果令人失望。2006 年，AOL 向研究人員公布用戶數據，但意外泄露用戶的搜索記錄。2009 年，Netflix 公布大量用戶的電影推薦和日志，并提供 100 萬美元獎金，以獎勵改進電影推薦算法的開發者。在兩個例子中，外部人員都利用數據推測用戶的身份，這種侵犯隱私的行為招致集體訴訟。Netflix 被迫取消該獎項。

2014 年，非死book 和康乃爾大學共同研究和操縱用戶的情緒。研究過程中，非死book 調整用戶信息流的內容，旨在研究用戶的情緒反應，此舉引發了巨大爭議。隨后，非死book 不得不限制用戶數據的使用范圍。

梅森表示：“自從 2006 年 AOL 遭遇隱私災難，科技公司一直害怕公布數據。”

雅虎數據的敏感度似乎較低，其中僅包括城市、性別、年齡等基本人口統計信息，以及用戶與雅虎網站相關的交互信息。

雅虎實驗室首席研究科學家貝澤·耶茨(Ricardo Baeza-Yates) 表示，這次公布的數據集能夠有效地防止個人追蹤用戶。例如，雅虎移除了來自人口稀少地區的用戶信息。

來自: 騰訊科技

本文由用戶 jopen 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/news/view/cf6a24

雅虎

為吸引人工智能專家雅虎公布13.5TB用戶數據

相關資訊

相關經驗

相關文檔

為吸引人工智能專家 雅虎公布13.5TB用戶數據

相關資訊

相關經驗

相關文檔

為吸引人工智能專家雅虎公布13.5TB用戶數據