視頻類網站大數據生態 Spark在愛奇藝的應用實踐
Spark生態@愛奇藝
秉承“悅享品質”的品牌理念,提供更多、更好的視頻
– 2010年4月上線
– 2013年5月與PPS合并
– 月度獨立訪問用戶4+億(3月份數據)
– 2014年1月以來,日均覆蓋、月度覆蓋、月度時長以及人均月度時長一直排名第一
愛奇藝Spark生態
– 版本:從0.7.3開始,0.8.X, 0.9.X, 1.0, 1.1…不斷跟蹤升級
– 部署環境:虛機 + 物理機
– 部署方式:Standalone、Spark on YARN、Spark on Mesos
– Spark組件:通用Spark job, Spark MLlib,Spark Streaming
–語言:Scala & Java & Python
推薦
– 推薦模型訓練
– Spark MLlib Alternating Least Squares(ALS) Algorithm
– 輸入數據300+G,運行20分鐘
– 模型提供給Hadoop,Storm進行批處理和實時數據預測
– Spark on YARN
用戶行為分析
– 用戶畫像、分類
– iQIYI Logistic Regression (LR) Algorithm
– 輸入數據100G左右,1400W+ Features
– 迭代1000次左右
– 單機運行(20G左右)2小時或更長,Spark集群10分鐘左右
– Spark Standalone
PPT作者/主講人:愛奇藝技術產品中心 孫琦
下面是詳細的PPT內容:




















來自36大數據(36dsj.com):36大數據
本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!