Docker將會改變Hadoop,變的更快更容易

jopen 9年前發布 | 30K 次閱讀 Docker
 

【編者的話】 最近在San Jose,Clif開幕的hadoop峰會上會有關于Docker和Hadoop的話題討論,越來越多的創業公司致力于使用Docker技術來簡化hadoop應用開發部署的速度。

目前有兩個方向:1)使用Docker容納Hadoop stack;2)通過YARN來部署基于Docker開發的容器化應用

原文參見: http://thenewstack.io/docker-w ... ster/

本周,hadoop峰會召開,其中著重討論了新平臺(例如docker)將會如何在hadoop環境下改變大數據分析行業。

BlueData,一家大數據基礎架構軟件平臺供應商,已經把對Docker containers的支持加入其免費EPIC平臺,叫做EPIC Lite ,允許用戶在筆記本電腦上運行虛擬的hadoop或者Spark集群。

另外,她還宣布了夏季版本,EPIC version 1.5,將會提供對新hadoop和Spark版本的支持,其中整合了Apache Ambari和Cloudera Manager, 支持通用大數據分析應用和“自建應用”能力。

VMware老員工Kumar Sreekant 和Tom Phelan在2012年創建了此家公司,期望在私有數據中心提供類似于Amazon Elastic MapReduce的大數據自服務架構,到去年九月份已經融資1900萬美金,并且完成了靜默期的開發工作。

EPIC軟件解決方案 --- 不要把它跟健康領域HER Giant混淆起來--- 運行在任何硬件上(任何服務器,存儲),其目標就是在企業內部(基于裸機) 快速部署hadoop環境。通過特有技術解決IO性能問題,允許計算和存儲分離,提供管理虛擬架構下多用戶環境工具,大大簡化客戶部署hadoop的難度。他們宣稱采用Docker主要是因為他們想在給大數據應用提供虛擬化帶來便利的同時,提供容器的簡化和裸機的性能。

同時,她也承認另外的動機:

“我們想給開發者和數據科學家帶來便利,讓他們很容易創建自己集群,快速指向數據進行分析;而在現在這是很困難的…. “Anant Chintamaneni,公司產品VP說。我們的產品可以幫助他們在自己的筆記本電腦上快速獲得如Cloudera或者Hortonworks之類的功能。

他說他們想給客戶從自己筆記本電腦訪問軟件的授權,如果喜歡他,可以讓IT管理者去購買他。

Anant Chintamaneni說:“Docker目前來看是此領域最成熟的….,客戶通過Docker可以體驗到在一臺筆記本電腦或者VM上創建由多個節點構成的集群。數據科學家希望在多個節點上驗證算法,或者可以弄清楚應用在真正集群上如何運作”。

企業版本面向多用戶需求。Lite版本包含幾個鏡像因為公司想使它保持輕量級。

“隨著越來越多用戶采用Docker容器技術,像BlueData這類公司將Docker加入其支持的虛擬技術是勢在必行的。”Tomer Shiran說,他是MapR公司產品管理VP以及Apache Drill項目管理委員會成員。

“Docker容器提供比傳統虛機更好的性能,因此我希望hadoop集群在Docker上也能運行的更快些”

BlueData并不認為虛擬化正在消亡,但是像VMware,盡管也采用Docker技術,并且在某些產品中已經嵌入了Docker,看到了Docker之后的危機并且正在試圖在危機出現前都改變它。

Jason Schroedl,VMware市場部VP,說,“我們認為容器是另外一種獲得虛擬化好處的方法。我們的計劃是開發一種可以運行在任何虛擬化環境下的大數據平臺技術,我們相信容器正式這樣一種可以給客戶帶來好處的技術”

他還說公司目前還沒有看到許多企業用戶希望軟件運行在Docker中的需求,但是希望很快會出現。

Tim Hall,Hortonworks產品管理VP說,Docker在企業應用中表現是成熟的,隨著基于Docker的私有和共有云平臺出現,hadoop變成一種必須提供的關鍵服務。

明天在San Jose,Clif開幕的hadoop峰會上會有關于Docker和Hadoop的三場討論,例如,來自Hortonworks的Sidharta Seethana和來自Altiscale的Abin Shahab將會討論Apache YARN和Docker生態環境。

Altisacle,一家提供Hadoop-as-a-service的公司,已經通過Docker容器來運行Hadoop服務,盡管這意味著他們的系統需要直接部署和管理Docker容器,而不能享受YARN(hadoop2.0帶來的數據處理框架)帶來的便利,然而他們發現Docker帶來更多的可重復使用和自動化特性。

Pachyderm則提供更加簡化的大數據分析平臺,他們使用Docker來實現hadoop stack,提供了一個MapReduce的可替代選擇。他們是基于CoreOS的Fleet和etcd,而不是Apache的YARN和Zookepper.

Hall說,有兩種方式處理這種需求,而Hortonworks都提供。

第一種是使用Docker容納Hadoop stack,通過Cloudbreak(最近收購SequenceIQ獲得)和Hortonworks Data Platform來實現。通過使用Docker鏡像在任何主流云平臺啟動HDP,包括微軟Azure,AWS,Google Cloud Platform等。

第二種是通過YARN來部署基于Docker開發的應用。這種方式已經在HDP2.2中發布,客戶可以體會如何更好利用他。

“本質上,Docker提供了一種理想的隔離和打包hadoop應用的方法,我們也正在研究如何使得Slider框架和Docker可以更好結合,從而使得部署更加簡便”,Hall說。

“我們有一個客戶正在考慮用同一種方法來,使用HDP和Docker,來部署他們的數據平臺,他們使用Cloudbreak在云端將 hadoop部署在Docker中,他們計劃把他們的應用打包成Docker鏡像,運行在YARN之上。還有其他很多客戶和代理商采用我們基于 Docker的hadoop技術來解決不可知環境下應用部署。其后臺推動力主要來自于敏捷性,新方法和一致性兼顧的速度。”

另外一種傳統的在虛擬環境中使用hadoop的方式是OpenStack。

他說,將hadoop運行在Docker之上帶來的好處包括:

? 快速安裝(預先拉下來的RPMs)

? 開發、QA、生產面對統一流程和鏡像

? 任意節點面對統一流程

在YARN上運行基于Docker開發應用的好處:

? 更好的軟件隔離

? 開發、QA、生產面對統一流程和鏡像

? 更好的應用版本和發布控制

大數據應用開發者將會越來越多的學習使用Docker來打包容器化他們的應用,他說,現在又很多興趣在裸機上運行Docker,而不是在VMs之上,這樣可以對hadoop類應用提供更好的性價比。

除此之外,YARN成為一種大數據應用分發部署平臺,他說,這種需求推動了YARN對內置容器化部署支持和在YARN上提供一種應用管理框架的需求。

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!