使用Docker、Luigi和Spot Instances玩轉PB級的數據管道處理任務

jopen 10年前發布 | 16K 次閱讀 Docker

數據驅動類的產品近來很火，容器技術也是正值當年，試看AdRoll公司是如何將二者結合，并充分利用容器技術的優勢，提升研發效率的。AdRoll業務模式很有前途，是關于再定位廣告產品的，能夠最大化的提升廣告投放效果。當然其中有意思的還有 Luigi的引入解決了作業間復雜相互依賴的問題。同時很好的利用到了AWS的 Spot Instances， CloudWatch及 Auto-Scaling Groups，在最小成本下做到了彈性擴縮容，值得了解學習。

這是我們依托 Docker容器來構建數據密集型產品 AdRoll Prospecting系列文章中的第一篇。 PPT。

一個數據驅動產品

就在6月17號，我們的一款新產品 AdRoll Prospecting，發布了公網測試版。了不起的是，該產品是由一個六人小組，在六個月時間內，從頭開發并且按時發布的。

該產品所做的實際上是市場營銷的圣杯： AdRoll Prospecting的核心是一種大規模機器學習模型，通過對數十億Cookie進行分析，能夠預測出誰最有可能對您的產品感興趣，從而為您的企業發現新客戶。

現代化的數據驅動產品 AdRoll Prospecting，不單單是機器學習，還提供一個易用的儀表盤（基于 React.js構建），讓您能夠詳細查看分析的效果。在幕后，我們連接了AdRoll的實時競價引擎，還有許多檢查點和儀表盤用以監控產品內部的健康情況，這使得我們能夠在問題影響客戶之前就將其解決。

借助于AdRoll之前開發再定位廣告產品的經驗，我們在如何構建一種復雜系統上取得了共識。當我們著手開始 AdRoll Prospecting產品之時，我們回顧已有的經驗教訓，在不犧牲健壯性和成本前提下，如何對此類大規模數據驅動產品盡快建立一個靈活的并可持續發展的后端基礎架構。

管理復雜度

我們對結果非常滿意，這也促成了本系列文章。它不僅使我們的開發和發布按時完成，而且我們也計劃將現有工作負荷遷移到新系統。

新架構最重要的功能是簡單。知曉了我們誠待解決的問題是如此復雜，我們不想引入框架使其更加復雜，并迫使我們在此框架中工作。

我們的架構是基于三個互補層所構成的一個Stack，依賴于眾所周知并身經百戰的組件：