大數據抽取工具,bboss v4.0.9 發布
bboss 大數據抽取工具 4.0.9 發布
相較上一版本(v4.0.8),v4.0.9增加了以下特性:
-
按照按日期字段切分任務,抽取db數據到hdfs,可以在第一次切分任務的基礎上,將日期范圍任務塊進一步切分為更小的任務塊
-
在數據庫表分區的基礎上,可以按照分區字段類型將分區切分為日期范圍任務塊或者數字范圍任務塊,同時可以將已經切分的任務快進行二次切分
-
增加為作業處理節點中的作業添加指定數目的工作線程功能。當節點中作業工作線程全忙情況下,還有排隊等待處理的作業任務時,可以通過增加工作線程數來處理這些正在排隊等待處理的作業任務,從而加快數據抽取進度
修復了一系列bug。
bboss大數據抽取工具功能特點如下:
-
實 現db到hadoop hdfs數據導入功能,提供高效的分布式并行處理能力,可以采用數據庫表分區、按字段分區、表分區+分區字段二次分區三種方式并行 抽取db數據到hdfs文件系統中;能有效解決按字段分區抽取數據時,各分區數據不均勻導致作業任務處理節點負載不均衡的問題,分區字段可以是數字類型和 日期類型(采用日期類型時,每個任務塊的數據分布更加均勻)。
-
靈活的作業任務處理模式:可以增量方式執行作業任務,作業可以停止后重新執行,重新執行時只需執行未完成的作業任務,也可以全部重新執行所有作業任務;當停止作業后,可以在原有作業切分的基礎進一步切分出子任務,然后再重新執行作業,提升系統處理數據效率。
-
作業處理服務器為每個作業分配獨立的作業任務處理工作線程和任務執行隊列,作業之間互不干擾
-
作業執行過程中,可以為作業添加工作線程,從而加快數據抽取進度。
-
采用異步事件驅動模式來管理和分發作業指令、采集作業狀態數據。
-
通過管理監控端,可以實時監控作業在各個數據處理節點作業任務的實時運行狀態,記錄并查看作業的歷史執行狀態,方便地實現提交新的作業、重新執行作業、停止正在執行的作業、清除作業執行監控數據、同步作業任務執行狀態等操作
工具架構拓撲圖:
工具采用的技術體系:
-
Bboss ioc:輕量級ioc容器,ioc擴展屬性配置語法
-
Bboss持久層:高效數據查詢行處理器,靈活動態數據源管理(連接池數據源/非連接池數據源),表分區信息查詢等,動態創建作業配置表和作業監控記錄表
-
Bboss分布式事件框架:基于JGroups,提供異步分布式事件驅動模型,動態管理作業節點(服務節點和數據處理節點),包括作業節點的動態加入、動態離開等;在管理節點、數據處理節點之間分發和接收各種作業處理指令事件
-
Bboss mvc:實現監控管理應用模塊,在監控服務節點中,通過mvc 容器啟動監聽器啟動作業管理節點
-
Bboss序列化組件:用來將作業監控數據序列化存儲到sqllite中的作業監控表,同時在查看作業執行歷史時將序列化存儲的作業監控數據還原為對象狀態的監控對象,便于界面展示
-
Bboss 標簽庫,jquery等:實現監控管理應用的視圖層
-
Hadoop Hdfs客戶端:用來連接hadoop hdfs文件系統
-
Sqllite:在監控節點中保存作業配置,保存作業執行狀態數據
-
Jetty:運行監控管理應用模塊的web應用容器
-
Bboss應用執行容器:用來啟動作業管理監控應用、作業數據處理應用、啟動jetty容器
操作管理使用文檔:大數據抽取工具管理操作手冊.docx