EMC存儲上的大數據–HDFS存儲可靠性
原文 http://www.thebigdata.cn/JieJueFangAn/13145.html
企業為了從其 Hadoop 分析投資中獲取最大價值,企業需要富有彈性的大數據存儲基礎架構。在傳統 Hadoop 集群中,用戶必須依賴于自定義的子數據塊 CRC 校驗和來提供硬件層數據保護,并且在 HDFS 層使用鏡像技術以保持某種級別的數據冗余。但是,在規模較大的情況下,這會成為一個非常高成本的方案。如果通過 EMC Isilon 作為存儲層, Isilon 的數據保護是在 OneFS 文件系統級別實施的,因此要使新的保護和性能方案可用,只需執行 OneFS 軟件升級即可。 OneFS 使用經過廣泛驗證的 Reed-Solomon 擦除編碼算法來執行其奇偶校驗保護計算。在文件界別應用保護,使得集群可以快速高效地恢復數據。信息節點、目錄和其他元數據在于其引用的數據塊相同或更高的級別進行保護。由于所有數據、元數據和向前糾錯( FEC )數據跨多個節點條帶化,因此不需要專用的奇偶校驗驅動器。這不僅可以防止出現單點故障和瓶頸,還使文件重建成為一個高度并行化的過程。
OneFS 還支持多種混合保護方案。這包括 N+2 : 1 和 N+3 : 1 ,前者可針對兩個驅動器故障或者一個節點故障提供保護,后者可針對三個驅動器故障或一個節點故障提供保護。對于高密度節點配置而言,這些保護方案特別有用。萬一發生多個設備同時故障的情況,以至于文件“超過了其保護級別”,則 OneFS 將盡可能重新保護所有可保護的內容,并且將與受影響的個別文件相關的錯誤報告到 Isilon 集群的日志。
Isilon 還支持多項保證數據可靠性功能,例如:
- 日志文件系統:每個 Isilon 節點都配備了一個由雙電池支持的 NVRAM 卡,以保護節點的文件系統。
- 主動節點 / 設備故障: OneFS 將主動刪除任何達到特點的已檢測 ECC 錯誤閥值的驅動器,自動重建該驅動器中的數據并將其定位至該集群中的其他位置。整個過程完全自動化,無需人工干預。
- Isilon 數據完整性: ISI 數據完整性( IDI )是一種通過 32 位 CRC 校驗和防止文件系統結構損壞的 OneFS 過程。所有 Isilon 數據塊(包括文件和元數據)都利用校驗和驗證。
- 協議校驗和: OneFS 為遠程數據塊管理( RBM )協議數據提供了校驗和驗證。 RBM 是 Isilon 開發的機遇 RPC 的單播協議,可供在后端集群互連上使用。
- 動態扇區修復: DSR 功能可用來隔離損壞的磁盤扇區,重新向完好的數據以便在其他位置重新寫入。
- Mediascan : MediaScan 在 OneFS 中的作用是檢查磁盤扇區并部署 DSR 機制,以便強制磁盤驅動器修復他們可能遇到的任何扇區 ECC 錯誤。
總之,在 HDFS 存儲層使用 EMC Isilon 存儲,可以避免多種傳統 Hadoop 存儲實施的許多缺點,如下所示: