菜鳥也能玩轉大數據:Airbnb開源Presto數據庫SQL工具
游房屋短租網站Airbnb近日開源了一款SQL工具——Airpal,使普通員工也能夠用Hadoop系統分析大數據。
Airpal是Airbnb一年前就已經開發并使用的Presto數據查詢工具,通過Airpal的設計宗旨是降低數據查詢門檻,通過可視化界面等使不同部門的業務人員也能輕松寫出數據查詢請求,預覽、分享并復用查詢任務。
在Airpal問世之前,互聯網公司普遍使用Hive分析Hadoop系統中的數據,但是在Airbnb只有不到15個人能夠為Hive編寫復雜的SQL查詢請求,因為Hive基于Hadoop最常見的批處理引擎——MapReduce,而且運行速度很慢。
據Airbnb的產品經理James Mayfield介紹,超過三分之一的Airbnb員工已經使用過Airpal,SQL的學習曲線坡度被極大降低。
過去,Airbnb的員工如果想分析用戶進行預訂房間或重置密碼等活動時系統自動發送的電子郵件的有效性,需要通過數據科學家使用 Hive(非死book 2008年開源的一款類似SQL的Hadoop數據倉庫框架),整個流程冗長緩慢,如今通過Airpal,Airbnb的員工可以自行查詢并在數分鐘內就 獲得結果。
Airpal的用戶界面
關于Presto:
Airpal的開發基于非死book的Presto SQL引擎,而Presto是 非死book開發的可在PB級數據上更快執行交互SQL查詢的技術,Presto沒有使用MapReduce引擎,所有處理都在內存中完成,因此能夠 獲得比Hive至少一個數量級的處理速度。2013年底,非死book將Presto開源,此舉讓Presto迅速流行,包括AirBnb和 Dropbox等明星創業公司都開始采用Presto。
文章來自IT經理網