大數據抽取工具,bboss 4.0.8 發布
bboss大數據抽取工具4.0.8發布
bboss大數據抽取工具功能特點如下:
-
實現db到hadoop hdfs數據導入功能,提供高效的分布式并行處理能力,可以采用數據庫分區、按字段分區、分頁方式并行批處理抽取db數據到hdfs文件系統中;能有效解決按字段分區抽取數據時,各分區數據不均勻導致作業任務處理節點負載不均衡的問題。
</li> -
靈活的作業任務處理模式:可以增量方式執行作業任務,作業可以停止后重新執行,重新執行時只需執行未完成的作業任務,也可以全部重新執行所有作業任務;當停止作業后,可以在原有作業切分的基礎進一步切分出子任務,然后再重新執行作業,提升系統處理數據效率。
</li> -
作業處理服務器為每個作業分配獨立的作業任務處理工作線程和任務執行隊列,作業之間互不干擾
</li> -
采用異步事件驅動模式來管理和分發作業指令、采集作業狀態數據。
</li> -
通過管理監控端,可以實時監控作業在各個數據處理節點作業任務的實時運行狀態,查看作業的歷史執行狀態,方便地實現提交新的作業、重新執行作業、停止正在執行的作業、清除作業執行監控數據、同步作業任務執行狀態等操作
</li> </ul>工具架構拓撲圖:
工具采用的技術體系:
-
Bboss ioc:輕量級ioc容器,ioc擴展屬性配置語法
</li> -
Bboss持久層:高效數據查詢行處理器,靈活動態數據源管理(連接池數據源/非連接池數據源),表分區信息查詢等,動態創建作業配置表和作業監控記錄表
</li> -
Bboss分布式事件框架:基于JGroups,提供異步分布式事件驅動模型,動態管理作業節點(服務節點和數據處理節點),包括作業節點的動態加入、動態離開等;在管理節點、數據處理節點之間分發和接收各種作業處理指令事件
</li> -
Bboss mvc:實現監控管理應用模塊,在監控服務節點中,通過mvc 容器啟動監聽器啟動作業管理節點
</li> -
Bboss序列化組件:用來將作業監控數據序列化存儲到sqllite中的作業監控表,同時在查看作業執行歷史時將序列化存儲的作業監控數據還原為對象狀態的監控對象,便于界面展示
</li> -
Bboss 標簽庫,jquery等:實現監控管理應用的視圖層
</li> -
Hadoop Hdfs客戶端:用來連接hadoop hdfs文件系統
</li> -
Sqllite:在監控節點中保存作業配置,保存作業執行狀態數據
</li> -
Jetty:運行監控管理應用模塊的web應用容器
</li> -
Bboss應用執行容器:用來啟動作業管理監控應用、作業數據處理應用、啟動jetty容器
</li> </ul>bboss大數據抽取工具源碼github托管地址:
https://github.com/bbossgroups/bigdatas
版本源碼和發布包下載地址:
https://github.com/bbossgroups/bigdatas/releases
操作使用文檔:大數據抽取工具管理操作手冊.docx
</strong>本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!
-