實時大數據分析平臺:Ebay Pulsar
Pulsar 是 eBay 開源的實時大數據分析平臺。
作為全球性的商務平臺和支付行業領先者,擁有海量的用戶行為數據。 基于現有的hadoop大數據處理,已經不能夠滿足業務上對實時性的需求。基于過去的大數據處理的經驗和對最新技術的運用,探索出一個對海量的數據流進行 實時的收集,處理,分發和分析的平臺。并于2015年2月底開源此平臺: Pulsar。
Pulsar 作為一個復雜事件處理平臺,具有快速,準確,靈活的特性,保證點到點的低延時和高可靠,從而很好得滿足了的eBay秒級實時數據分析的需求。同時每秒百萬 級流量處理能力,給客戶帶來更好的個性化體驗,幫助客戶監控實時業務信息并定制實時營銷策路,及時監測網絡欺詐行為并減少機器人干預。并且Pulsar是 基于標準的分布式云架構部署并跨越多個數據中心,從而保證了在系統升級和拓撲更新時沒有集群停機時間。
Pulsar 平臺提供了一個完整的實時大數據分析的解決方案:
該平臺能夠實時收集 Event Stream,并且對 Event 進行實時的 Enrichment 和 Sessionization,推送到不同的實時應用,同時能夠實時的進行統計和分析,對業務提供 Key insights.
在 Pulsar 平臺內部,它把 Event Stream 看成一種類數據庫的表,在上面通過應用申明式的4GL來定義Business logic. 并且同時開源了作為支撐Pulsar 的一個全新的大數據流處理框架: Pulsar Jetstream.
Pulsar.Stream 是一個通用的全新的大數據流的處理框架。他實現了一個開放的,自動發現的Topology, 不同的應用可以分布在不同的Data center, 通過網絡進行自動的發現并且建立連接,數據主動從Producer推送到Subscriber. 在每個應用內部,通過Pipeline的方式連接各個業務模塊,并且支持用4GL的EPL來定義業務邏輯。整個的topology是開放的并且能夠動態擴 展,相應的EPL也能夠進行動態的更新且沒有服務中斷。
典型的部署結構