部署大數據?請參考大數據分析平臺架構(Big Data Analytics Platform)

jopen 10年前發布 | 73K 次閱讀 大數據 分布式/云計算/大數據

一、數據分析平臺層次解析

部署大數據?請參考大數據分析平臺架構(Big Data Analytics Platform)
大數據分析處理架構圖

數據源: 除該種方法之外,還可以分為離線數據、近似實時數據和實時數據。按照圖中的分類其實就是說明了數據存儲的結構,而特別要說的是流數據,它的核心就是數據的連續性和快速分析性;

計算層: 內存計算中的Spark是UC Berkeley的最新作品,思路是利用集群中的所有內存將要處理的數據加載其中,省掉很多I/O開銷和硬盤拖累,從而加快計算。而Impala思想來源 于Google Dremel,充分利用分布式的集群和高效存儲方式來加快大數據集上的查詢速度,這也就是我上面說到的近似實時查詢;底層的文件系統當然是HDFS獨大, 也就是Hadoop的底層存儲,現在大數據的技術除了微軟系的意外,基本都是HDFS作為底層的存儲技術。上層的YARN就是MapReduce的第二 版,和在一起就是Hadoop最新版本。基于之上的應用有Hive,Pig Latin,這兩個是利用了SQL的思想來查詢Hadoop上的數據。

關鍵: 利用大數據做決策支持。R可以幫你在大數據上做統計分析,利用R語言和框架可以實現很專業的統計分析功能,并且能利用圖形的方式展現;而Mahout就是 一個集數據挖掘、決策支持等算法于一身的工具,其中包含的都是基于Hadoop來實現的經典算法,拿這個作為數據分析的核心算法集來參考還是很好的。

如此一個決策支持系統要怎么展現呢?其實這個和數據挖掘過程中的展現一樣,無非就是通過表格和圖標圖形來進行展示,其實一份分類詳細、顏色艷麗、數 據權威的數據圖標報告就是呈現給客戶的最好方式!至于用什么工具來實現,有兩個是最好的數據展現工具,Tableau和Pentaho,利用他們最為數據 展現層絕對是最好的選擇。

二、規劃的數據平臺產品AE(Accelerate Engine)

支持下一代企業計算關鍵技術的大數據處理平臺:包括計算引擎、開發工具、管理工具及數據服務。計算引擎是AE的核心部分,提供支持從多數據源的異構 數據進行實時數據集成、提供分布式環境下的消息總線、通過Service Gateway能夠與第三方系統進行服務整合訪問;設計了一個分布式計算框架,可以處理結構化和非結構化數據,并提供內存計算、規劃計算、數據挖掘、流計 算等各種企業計算服務。Data Studio包括了數據建模、開發、測試等集成開發環境。管理工具包括了實施、客戶化及系統管理類工具。AE平臺還可以通過UAP開發者社區提供豐富的數 據服務。

部署大數據?請參考大數據分析平臺架構(Big Data Analytics Platform)

AE架構圖

新規劃將BAP平臺拆分為兩部分,底層技術平臺發展內存計算和數據處理,上層BI展現端重點發展儀表盤、web和移動設備展現。

兩大產品通過數據處理接口和嵌入式應用服務于業務系統。

部署大數據?請參考大數據分析平臺架構(Big Data Analytics Platform)

生態系統圖

大數據處理平臺擔負著為BI系統提供語義層/OLAP引擎等底層技術支撐、BI及ERP系統的性能提升、以及數據挖掘、非結構化數據處理等系列數據整合與處理的解決方案。

具體模塊包括:

語義層:為統一的查詢建模平臺和數據訪問接口。除提供標準的查詢建模能力外,還有語義驅動、語義規則、語義函數、描述器等等擴展方式,滿足不同層面的擴展要求。

OLAP引擎:OLAP引擎提供全面的多維建模與分析能力。多維模型包括維度、層次、級別、屬性、指標、計算成 員等;同時預置系列分析函數,包括同比/環比/期比/基比等時間序列分析、占比/排名/方差等統計分析、指數回歸和線性回歸分析等;提供標準的MDX解析 與執行,與數據倉庫等模塊結合,提供針對海量數據的實時分析和處理能力。

數據集成:能夠勝任在大數據量、高并發、多維分析等環境背景下的實時分析。通過實時數據集成(RDI)提供的數據實時復制與DW的列式存儲引擎,解決了以往在傳統架構模式下,普通行式存儲引擎無法實現的業務場景。

數據挖掘:支持運行于分布式文件系統和分布式計算平臺之上的分布式數據挖掘算法,具體包括:邏輯斯特回歸、樸素 貝葉斯分類算法及其分布式實現;K均值、譜聚類算法及其分布式實現;潛在狄利克雷分配語義挖掘算法及其分布式實現;頻繁模式挖掘分析算法及其分布式實現; 協同過濾、概率矩陣分解推薦算法及其分布式實現;提供分布式挖掘算法的統一操作原語和執行引擎。

數據倉庫:數據倉庫提供針對海量數據進行高效的查詢和分析。包括同時支持關系數據庫、NoSQL數據庫、以及分布式文件系統進行數據存儲和加載的多存儲引擎,基于MapReduce框架針對海量數據的高性能查詢和分析,以及MapReduce 框架本身具有的高擴展性和容錯性。

非結構化數據管理:非結構化數據不包含內嵌的語義結構描述信息,而信息系統需要結合其“內容”而不僅僅是數據本 身進行查詢、檢索、分析與挖掘,因此非結構化數據管理系統需要實現非結構化數據的數據提取,提取的非結構化數據是進行后續處理的基礎,具體包括結構化信息 和底層/高層特征的提取兩個。非結構化數據提取組件依賴于分布式文件系統和非結構化數據存儲提供的原始數據作為數據源數據,依賴于非結構化數據存儲來存儲 提取的元數據或者特征數據,依賴于并行計算框架來分布化執行過程,加快執行速度。

消息總線:包括主數據管理、集中身份管理、應用集成開發環境、集成監控管理等。滿足集成平臺的應用需求,支持界面集成、信息集成、服務集成、流程集成等集成方式。

分布式計算系統:包括分布式文件系統和分布式計算框架。分布式文件系統以高可靠的容錯機制為核心,系統架構包括 多元數據服務器、多數據存儲服務器、多監管者、多客戶端,支持大文件和大數據塊的分布式存儲與管理;分布式計算框架基于MapReduce與MPI計算模 型,提供了一套并行計算框架;并利用物理機以及虛擬機的監控信息,實現對計算資源的合理分配,支持對大量工作任務的靈活切分和分布式調度。

流計算引擎:流計算引擎是為解決系統的實時性和一致性的高要求的實時數據處理框架,具備高可拓展性,能處理高頻數據和大規模數據,實時流計算解決方案被應用于實時搜索、高頻交易的大數據系統上。

參考文獻

  1. 知乎: 如何利用大數據進行輔助決策?
  2. 規劃的數據平臺產品AE(Accelerate Engine)

作者:Joe Jiang

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!