Hadoop并非完美:8個代替 HDFS 的絕佳方案
HDFS(Hadoop Distributed File System)是 Hadoop 項目的核心子項目,是分布式計算中數據存儲管理的基礎,坦白說 HDFS 是一個不錯的分布式文件系統,它有很多的優點,但也存在有一些缺點,包括:不適合低延遲數據訪問、無法高效存儲大量小文件、不支持多用戶寫入及任意修改文 件。
Apache 軟件基金會成立的時候,HDFS 就一直在想辦法提高它的性能和可用性,坦白說,這也許對試點項目、非常規項目、要求不嚴格的大環境中比較適用,但是對于某些 Hadoop 用戶來說,他們對于性能、可用性、企業級特性有較高的要求,且注重直接附加存儲(DAS)架構,特別是老版本的 Hadoop 沒有高性能的主節點,那么接下來 8 個產品就是代替 HDFS 的絕佳方案。
1. Cassandra (DataStax)
并非一個完全的文件系統,而是一個開源、NoSQL 鍵值(key-value)商店。這給依靠快速數據訪問的 Web 應用多了一個 HDFS 選擇。簡單來說它把 Hadoop 融合在 Cassandra 里面,支持 Web 應用通過 Hadoop 快速訪問數據, 而 Hadoop 可以快速訪問流入 Cassandra 的數據。
2. Ceph
Ceph 是一個開源、多管齊下的操作系統,因為其高性能并行文件系統的特性,有人甚至認為它是基于 Hadoop 環境下的 HDFS 的接班人,因為自 2010 年就有研究者在尋找這個特性。
3. Cleversafe:分散存儲網絡
本周一 Cleversafe 宣布將融合 Hadoop 的并行編程技術和自己的分散存貯網絡。其原理是通過把整個元數據分布在集群中(不是依靠單個主節點、不是依靠復制),Cleversafe 表示這比 HDFS 更快、更穩定、更具擴展性。
4. GPFS (IBM)
IBM 一直在向高性能要求的用戶銷售其并行文件系統,包括世界上最快的超級電腦,2010年它推出了基于 Hadoop 的 GPFS, 并宣布 GPFS 不共享集群版本比 Hadoop 快多了,因為
它在內核級別中運行,而不是在操作系統中運行例如 HDFS。
5. Isilon (EMC)
EMC 提供 Hadoop 發行版已經一年了,但 2012 年 1 月轉型為 HDFS 企業級別的新方案——Isilon 的 OneFS 文件系統。因為 Isilon 可以讀取 NFS, CIFS 以及 HDFS 協議, 一個單獨的 Isilon NAS 系統可以攝入、處理、分析數據。
6. Lustre
HPC 存儲提供商 Xyratex 增在 2011 年的一份報道中寫到, 基于 Lustre 的集群會比基于 HDFS 的集群更快更便宜。
7. MapR 文件系統
MapR 文件系統在業內已經具有一定知名度了,不僅 MapR 宣布它自己的文件系統比 HDFS 快2-5倍(實際上有 20 倍),它還具有鏡像、快照、高性能這些企業用戶喜歡的特點。
8. NetApp Hadoop開放方案
NetApp 重新改版了物理 Hadoop 結構:把 HDFS 放在磁盤陣列中,通過這樣來達到更快、更穩定、更安全的 Hadoop 工作。
Via gigaom