金礦邊上賣鐵鍬:Dato為數據科學家提供機器學習系統

jopen 9年前發布 | 21K 次閱讀 機器學習
 

你去公司上班,無需你駕駛,汽車自動行駛在道路上,并且自動避開即將擁堵的路段。你外出旅游,手機里私人助手給你推薦旅游路線,在你決定路線之后 幫你預定機票。你進入超市購物,超市里的啤酒和尿布擺在一起,讓你給孩子買尿布的同時又能順手購買自己愛喝的Teradata牌啤酒。你在家里刷 推ter,在推ter上展示廣告能夠符合你的興趣,不致于讓你反感。人工智能,主要是機器學習技術的突飛猛進讓這些場景,有些已經成真,有些 正在成真。對于提供智能服務的商業企業來說,這些場景意味著巨大的金礦。很多企業計劃或者已經在機器學習這座金礦山上采礦了。

工欲善其事,必先利其器。好的挖礦工必有一把好鐵鍬。機器學習的關鍵是使用大量數據訓練模型,而處理大量的訓練數據則需要大規模機器學習系統。為 此大公司集中大量優秀人才,研發大規模學習系統,比如Google的Pregel和Baidu的BML。那么對于無力研制大規模機器學習系統的公司甚至個 人,怎么搭建自己的大規模機器學習系統呢?當然也可以選擇開源社區的優秀機器學習系統,比如Spark和Storm。但使用開源系統時碰到問題,就會陷入 無人支持的困境。

36氪介紹過的Dato正是提供這樣一款機器學習系統的公司,其提供的機器學習系統叫GraphLab Create。一周前,Dato將GraphLab Create升級到1.5,主要的新功能是支持著名矩陣運算庫Numpy和支持Windows操作系統。

金礦邊上賣鐵鍬:Dato為數據科學家提供機器學習系統

GraphLab Create擴展了著名的MapReduce計算框架,將機器學習的訓練過程看做是圖計算過程,并把圖計算分解成Gather-Apply- Scatter三個階段,從而實現機器學習在多核環境或者集群環境下的并行訓練。據斯坦福大學CommonCrawl項目組在7月20號Dato大會上公 布的數據,CraphLab Create用16臺機器在35億個節點1280萬條邊的網頁圖譜上,只需要45秒即可執行一次PageRank算法的迭代。

金礦邊上賣鐵鍬:Dato為數據科學家提供機器學習系統

2009年,CMU(卡內基梅隆大學)的Select 實驗室提出一個開源圖計算框架GraphLab,框架使用C++語言開發實現。2013年 5月,GraphLab的開發者募集到600萬美元,成立GraphLab Inc公司。2013年7月GraphLab Inc推出GraphLab Create系統。2015年1月,GraphLab Inc收到一千八百萬美元投資,改名為Dato Inc。 目前Dato提供個人版和集群版兩個版 本的GraphLab Create系統。除此之外,Data還提供了預測服務以及訓練服務。

研制大規模機器學習系統是高技術門檻的工作,需要對機器學習和系統設計有很高的造詣。除了Google、非死book、推ter以及國 內的BAT等大型公司,很少商業公司能夠自研大規模機器學習系統。而大公司的系統都是自用的,很少對外界開放,更別說提供商業支持。

Dato的創始人Carlos Guestrin是機器學習界國際公認的大牛,曾被Popular Science雜志評為2008年 “Brilliant 10”,還獲得過美國青年科學家總統獎。團隊組成既有來自微軟和亞馬遜久經實戰的開發工程師,也有來自高校一線的機器學習研究人員。

金礦邊上賣鐵鍬:Dato為數據科學家提供機器學習系統

目前除了Dato之外,商業化運作的機器學習系統提供商還有Databricks和Petuum。Databricks由著名大數據開源系統 Spark的核心成員研制開發的。2013年9月,Databricks宣布從硅谷風投Andreessen Horowitz獲得A輪融資1400萬美元。2014年6月, Databricks獲得由NEA領投的3300萬美元的B輪投資,Andreessen Horowitz增值跟投。 Petuum由CMU教授邢波發起,目前Petuum已經進入開源和閉源并行開發階段。

與Databricks和Petuum相比,Dato對單機運算做了極致的優化。據2013年的舊聞,GraphLab Create前身GraphLab的子項目GraphChi,用Mac Mini1個小時完成對一個具有15億邊緣的推ter圖譜的處理,而Hadoop則用了1636個節點7個小時。極致優化單機性能,使得個人電腦就 能處理一些原來分布式集群才能處理任務。大規模機器學習的使用門檻大大地降低了。

所有人都忙著掘金的時候,成為提供鐵鍬的人不失為好選項。特別是制造鐵鍬的技術門檻很高時,制造鐵鍬也許能成為一個大產業。隨著熟悉基本編程技術 的人數上升,人人都能成為機器學習挖礦工,好用高效的機器學習系統就顯得尤為重要。也許未來大規模機器學習系統,會像今天的Matlab、 SAS和SPSS等專業軟件一樣,廣泛地存在于個人電腦和企業服務器。

原創文章,作者:goto

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!