什么是Hadoop即服務(Hadoop-as-a-Service)

jopen 10年前發布 | 27K 次閱讀 Hadoop 分布式/云計算/大數據

什么是Hadoop即服務(Hadoop-as-a-Service

</div>

 

轉載請在文首保留原文出處:EMC中文支持論壇https://community.emc.com/go/chinese 

介紹

</div>

 

    兩周前的VMworld 2014大會上,EMC演示了一段基于EMC Hybrid Cloud混合云架構之上的HaaSHadoop-as-a-ServiceHadoop即服務)和Virtual Data Lake(虛擬數據湖)的應用實例,并發布了EMC Hadoop Starter Kit快速部署套件。對于了解大數據的人肯定不會對Hadoop陌生,那到底什么是Hadoop即服務(HaaS)呢?本文將帶你來一探究竟。

更多信息

</div>

 

HaaS出現背景:

 

    開源大數據框架Apache Hadoop已經成了大數據處理的事實標準,同時也幾乎成了大數據的代名詞,雖然這多少有些以偏概全。根據Gartner的估計,目前的Hadoop生態系統市場規模在7700萬美元左右,2016年,該市場規模將快速增長至8.13億美元。

    但是在Hadoop這個快速擴增的藍海中游泳并非易事,不僅開發大數據基礎設施技術產品這件事很難,銷售起來也很難,具體到大數據基礎設施工具如HadoopNoSQL數據庫和流處理系統則更是難上加難。客戶需要大量培訓和教育,付費用戶需要大量支持和及時跟進的產品開發工作。而跟企業級客戶打交道往往并非創業公司團隊的強項。此外,大數據基礎設施技術創業通常對風險投資規模也有較高要求。

      種種這些就催生了眾多Hadoop作為一種服務(HaaS)提供商的誕生。HaaS為不堪重負,渴求Hadoop,但又缺乏相應的內部資源或專業知識的數據中心管理員們提供了一個絕佳的機會。

emc_hybrid_cloud_s.jpg

 

HaaS的價值

 

    與直接在物理機上部署Hadoop相比,很明顯HaaS可以做到按需購買、按需使用,并且只為使用時間付費。同時,和其他“即服務”的模式一樣,如果你不再需要Hadoop環境了,現有的資源可以被用于其他的工作負載。

    在物理機上部署Hadoop通常還需要專項的資金投資、數據中心的機柜空間、精密空調、電力和其他各種技術問題。而對于HaaS,用戶需要考慮的只是管理一些額外的虛擬設備,或者投入一些資金在設備群集上。

 

HaaS標準

 

    用戶需要什么樣的HaaS呢?每家服務提供商之間的差別是巨大的。HaaS供應商們提供一系列的功能和支持,從基本的訪問Hadoop軟件到虛擬機,從“自行運行”(RIY)環境軟件的預配置到包括工作監督和調整支持的全方位服務支持。對于HaaS的任何評價都應該考慮到如何更好的讓每一項服務能夠滿足您的業務目標,同時盡量減少Hadoop和基礎設施的管理問題。下面我們列舉五個標準,也許可以幫助您區分不同的HaaS備選方案。

·         HaaS應同時滿足數據科學家和數據中心管理員的需求

數據科學家們花費了大量時間進行處理數據,整合數據集及應用統計分析。這些類型的數據用戶通常會希望有一個功能豐富且強大的環境。理想情況下,數據科學家們應該具備通過HivePigRMahout及其他數據科學工具運行Hadoop YARN作業的能力。數據科學家一登錄到服務,相關的計算操作就應立即可用,并開始工作。集群啟動和重新加載數據的延遲是低效和不必要的。“永遠在線”的Hadoop服務,避免了數據科學家必須在開始工作之前從非HDFS的 數據存儲集群和負載數據部署出現的令人沮喪的延遲。而對于系統管理員,少即是多。他們的工作就是進行一系列的相關管理工作。管理控制臺應簡化,使他們能夠 迅速的通過執行數量最少的步驟就能完成這些任務。如果管理員必須配置一組參數,那么就應該同時避免這些參數被暴露,又要避免參數被HaaS 供應商管理。同樣的,低層次的監控細節應由HaaS 供應商管理。管理界面應該能夠簡單明了的反應管理平臺的整體狀況和是否遵從了SLA

·         HaaS應該在HDFS存儲“靜態數據”

HDFS是存儲在Hadoop的數據的原始格式。當數據需要被持久的以其他格式存儲時,其必須被加載到HDFS中。持久地在HDFS中存儲數據,避免了延誤,以及將數據從另一種格式轉換到HDFS的成本。

·         HaaS應該提供彈性

當企業用戶在考慮是否選擇某家HaaS供應商,并進行相關的評估時,彈性應成為考慮的中心要素。而在考慮是否選擇某家HaaS供應商時,需要考慮進行評估的另一個因素是HaaS供應商根據服務管理需求提供彈性的難易程度。特別是,必須考慮到服務處理不斷變化的計算和存儲資源需求的透明度。

·         HaaS應支持不停機操作

在有固定工作負載的生產環境中,系統管理員可以調整操作系統和應用程序來優化這些工作負載的處理。他們可以通過各具特色的配置參數的最佳設定和監控操作的關鍵指標,以確保工作按預期運行,實現不停機操作。

·         HaaS應該是自配置

使用HaaS的優點是,其最大限度地降低對Hadoop專家的需求。HaaS本身能夠自行配置最佳數量和類型的節點。數據科學家們深諳統計和機器學習何時可能需要應用特定的統計測試或使用特定的機器學習算法,但對于一個Hadoop集群的配置來保持他們的工作流程的運行則可能并沒有很深的造詣。

參考

</div>

 

EMC大數據博客文章:Hadoop-as-a-Service: An On-Premise Promise?

Chuck博客文章:Offering Your Users Hadoop-As-A-Service

應用于

</div>

 

Hadoop-as-a-Service  

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!