簡單的實時大規模機器學習基礎架構:Oryx

jopen 10年前發布 | 25K 次閱讀 Oryx 機器學習

Oryx的目標是幫助Hadoop用戶搭建并部署能夠實時查詢的機器學習模型,例如垃圾郵件過濾和推薦引擎。隨著數據的不斷流入,Oryx還將支持自我更新。
oryxlogosmall.png

無論從建模還是部署,Oryx都可以隨需擴展,Owen認為這是Oryx與Hadoop的傳統“甜蜜點”——探索性分析和運營性分析最大的不同。

Owen認為傳統的在Hadoop上部署機器學習的技術——Apache Mahout已經走到盡頭。

“Mahout受制于第一代MapReduce只能處理批任務的局限,用戶需要做大量的工作才能搭建并讓機器學習系統運轉起來,而Myrrix重寫 了Mahout,解決了所有老問題。如果Mahout還有藥可救,Cloudera就不會收購Myrrix。Oryx差不多有90%的代碼都來自 Myrrix,也有一些代碼來自Cloudera”Owen說道。

人人都能使用的開源推薦引擎?

Oryx的定位不是機器學習算法的程序庫,Owen關注的重點有四個:回歸、分類、集群和協作式過濾(也就是推薦)。其中推薦系統非常熱門,Owen正在與幾個Cloudera的客戶合作,幫他們使用Oryx部署推薦系統。

開源機器學習項目:Oryx

將Oryx打造成開發推薦系統的標準化工具的做法將使這個項目贏得極大關注,因為推薦系統幾乎已經成了主流網站的標配,無論是電商還是內容網站都需要推薦系統提高網站的用戶體驗和轉化率。但是推薦引擎技術目前面臨的最大問題就是缺乏標準和開源工具。

致力于推薦技術標準化的公司不僅是Oryx一家,另外一家云計算創業公司Mortar Data也在積極推動用戶推薦引擎技術的開發,并展現其開源推薦框架的優點。其他一些公司注入Expect Labs雖然沒有開源,但試圖通過人工智能API接口實現推薦系統的自動化。

目前還不是一個產品

Owen認為Cloudera的所有客戶(以及絕大多數的Hadoop用戶)最終都想要部署運營型機器分析系統——不僅僅是推薦,Oryx將來有可能成為實現工具,但目前Oryx還只是一個實驗性項目。

目前Owen還在花費大量時間擔當Apache Spark目 的貢獻者,他想重寫Oryx,將Spark而不是MapReduce作為主要的處理框架,因為Spark已經成為下一代大數據應用的熱門技術。由于性能 和速度優于MapReduce,且更加容易使用,Spark目前已經擁有一個龐大的用戶和貢獻者社區。這意味著Spark更加符合下一代低延遲、實時處 理、迭代計算的大數據應用的要求,包括基于Oryx開發的實時機器學習系統。

來自 IT經理網

項目主頁:http://www.baiduhome.net/lib/view/home/1393732376005

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!