多圖技術貼:深入淺出解析大數據平臺架構

jopen 9年前發布 | 33K 次閱讀 大數據 分布式/云計算/大數據

目錄:

  • 什么是大數據
  • Hadoop介紹-HDFS、MR、Hbase
  • 大數據平臺應用舉例-騰訊
  • 公司的大數據平臺架構

“就像望遠鏡讓我們能夠感受宇宙,顯微鏡讓我們能夠觀測微生物一樣,大數據正在改變我們的生活以及理解世界的方式……”。

大數據的4V特征-來源

多圖技術貼:深入淺出解析大數據平臺架構

公司的“大數據”

隨著公司業務的增長,大量和流程、規則相關的非結構化數據也爆發式增長。比如:

1、業務系統現在平均每天存儲20萬張圖片,磁盤空間每天消耗100G;

2、平均每天產生簽約視頻文件6000個,每個平均250M,磁盤空間每天消耗1T;

……

三國里的“大數據”

“草船借箭”和大數據有什么關系呢?對天象的觀察是基于一種對風、云、溫度、濕度、光照和所處節氣的綜合分析這些數據來源于多元化的“非結構”類型,并且數據量較大,只不過這些數據輸入到的不是電腦,而是人腦并最終通過計算分析得出結論。

多圖技術貼:深入淺出解析大數據平臺架構

Google分布式計算的三駕馬車

  • Google File System用來解決數據存儲的問題,采用N多臺廉價的電腦,使用冗余(也就是一份文件保存多份在不同的電腦之上)的方式,來取得讀寫速度與數據安全并存的結果。
  • Map-Reduce說穿了就是函數式編程,把所有的操作都分成兩類,map與reduce,map用來將數據分成多份,分開處理,reduce將處理后的結果進行歸并,得到最終的結果。
  • BigTable是在分布式系統上存儲結構化數據的一個解決方案,解決了巨大的Table的管理、負載均衡的問題。

Hadoop體系架構

多圖技術貼:深入淺出解析大數據平臺架構

Hadoop核心設計

多圖技術貼:深入淺出解析大數據平臺架構

HDFS介紹-文件讀流程

多圖技術貼:深入淺出解析大數據平臺架構

Client向NameNode發起文件讀取的請求。
NameNode返回文件存儲的DataNode的信息。
Client讀取文件信息。
HDFS介紹-文件寫流程
多圖技術貼:深入淺出解析大數據平臺架構
Client向NameNode發起文件寫入的請求。
NameNode根據文件大小和文件塊配置情況,返回給Client它所管理部分DataNode的信息。
Client將文件劃分為多個Block,根據DataNode的地址信息,按順序寫入到每一個DataNode塊中。

MapReduce——映射、化簡編程模型

輸入數據->Map分解任務->執行并返回結果->Reduce匯總結果->輸出結果

多圖技術貼:深入淺出解析大數據平臺架構

Hbase——分布式數據存儲系統

多圖技術貼:深入淺出解析大數據平臺架構

Client:使用HBase RPC機制與HMaster和HRegionServer進行通信

Zookeeper:協同服務管理,HMaster通過Zookeepe可以隨時感知各個HRegionServer的健康狀況

HMaster: 管理用戶對表的增刪改查操作

HRegionServer:HBase中最核心的模塊,主要負責響應用戶I/O請求,向HDFS文件系統中讀寫數據

HRegion:Hbase中分布式存儲的最小單元,可以理解成一個Table

HStore:HBase存儲的核心。由MemStore和StoreFile組成。

HLog:每次用戶操作寫入Memstore的同時,也會寫一份數據到HLog文件

還有哪些NoSQL產品?

多圖技術貼:深入淺出解析大數據平臺架構

為什么要使用NoSQL?

一個高并發網站的DB進化史

多圖技術貼:深入淺出解析大數據平臺架構

關系模型>聚合數據模型的轉換-基本變換

多圖技術貼:深入淺出解析大數據平臺架構

關系模型>聚合數據模型的轉換-內嵌變換

多圖技術貼:深入淺出解析大數據平臺架構

關系模型>聚合數據模型的轉換-分割變換

多圖技術貼:深入淺出解析大數據平臺架構

關系模型>聚合數據模型的轉換-內聯變換

多圖技術貼:深入淺出解析大數據平臺架構

Hadoop2.0

MapReduce:
JobTracker:協調作業的運行。
TaskTracker:運行作業劃分后的任務。

多圖技術貼:深入淺出解析大數據平臺架構
大數據的技術領域
多圖技術貼:深入淺出解析大數據平臺架構
騰訊大數據現狀(資料來自2014.4.11 騰訊分享日大會)
多圖技術貼:深入淺出解析大數據平臺架構
  多圖技術貼:深入淺出解析大數據平臺架構
騰訊大數據平臺產品架構
多圖技術貼:深入淺出解析大數據平臺架構
騰訊大數據平臺與業務平臺的關系
多圖技術貼:深入淺出解析大數據平臺架構
公司數據處理平臺的基礎架構
多圖技術貼:深入淺出解析大數據平臺架構
公司大數據平臺架構圖
多圖技術貼:深入淺出解析大數據平臺架構
應用一數據分析
多圖技術貼:深入淺出解析大數據平臺架構
應用二視頻存儲
  多圖技術貼:深入淺出解析大數據平臺架構
應用三離線日志分析
多圖技術貼:深入淺出解析大數據平臺架構
應用五在線數據分析
參考資料:京東基于Samza的流式計算實踐
多圖技術貼:深入淺出解析大數據平臺架構

作者:昆明小蟲
來自:http://www.36dsj.com/archives/10223

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!