專訪:大數據群雄逐鹿 Hadoop堅持開源?
原文 http://www.shookr.com/opinions/602-專訪-大數據群雄逐鹿-hadoop堅持開源?
出身名門雅虎的Hortonworks擁有許多優秀的Hadoop架構師與源代碼的貢獻者,它們為Apache Hadoop項目貢獻了超過80%的源代碼。隨著各種Hadoop發行版的涌現,Hortonworks如何能一枝獨秀,堅持自己百分之百的開源路線呢? 本期IT名人堂嘉賓,我們在2015中國Hadoop技術峰會上,邀請到了Hortonworks的 CTO Jeff,對他進行了獨家視頻訪談。
皮皮:Jeff,很高興認識您!作為Hortonworks的CTO,您在海外非常有名氣了,可能對中國人還不太熟悉,能不能介紹下自己?
Jeff:當然,我叫Jeff,是Hortonworks亞太地區的技術總監,我們是一家提供開源Hadoop版本的提供商。
皮皮:在2015中國Hadoop技術峰會上,您的演講主題是什么?能否和我們分享下您的主要演講內容?
Jeff:我回顧了2014年的歷程,也講到了這一年重點發生的一些業界大事兒,整個Hadoop生態系統變得越來越成熟,變得越來越重要。在 技術層面上,我還談及了架構、SQL on Hadoop的解決方案等。此外,我還從整個開源項目的角度,預測了2015年Hadoop生態系統的發展趨勢。
皮皮:當我們談到大數據,大家會想到Hadoop,于是有人就會很好奇,大數據等同于Hadoop嗎?它們之間是什么關系?
Jeff:這個問題問得很好,有些人說大數據就是Hadoop,有些人覺得大數據不是Hadoop。毫無疑問,大數據勢不可擋,變得越來越流行,這背后有很多原因,其一是因為它純開源、擁有龐大的用戶群;其二是因為有足夠成熟的硬件支持,眾人拾材火焰高。
這就意味著大家可以開始下載、嘗試體驗、找出一些處理和分析數據的新方法,那在此之前呢,我們沒有辦法做到這些,所以,我覺得大數據和Hadoop非常相近,可以合二為一。
皮皮:這些年來,Hadoop廣為人知,幾乎每個人都在談論Hadoop,您是如何看待Hadoop生態系統的未來?
Jeff:我非常看好Hadoop生態系統的未來,因為它的開源,因為它擁有不錯的硬件支撐,任何規模的企業都可以采用前所未有的方式來采集與分析數據,對我們來講,我們會將重心轉移,從之前關注版本技術的層面,逐步轉移到更加廣闊的用戶應用場景中。
不同的行業,比如財務部門,制造業、電信業,怎么利用今天的數據來保持競爭性的優勢呢?我們更需要探討的是Hadoop對每個企業能帶來哪些整體價值。對企業來講,我們不僅要利用數據來淘金,還需要借助數據來更好、更深層次的理解客戶、產品和他們的服務。
皮皮:您說得非常好,我們今天在談大數據,經常會提及到3V( volume、variety、 velocity),Hadoop是怎么來滿足這些需求的?
Jeff:沒錯,這是一些與Hadoop、大數據非常相關的常見術語,我考慮更多的是,如何簡化Hadoop的版本問題,這樣我們可以采用新的方法把數據整合進Hadoop生態系統中。比如最近興起的storm、spark技術等。
皮皮:我常常認為,我們可以借助大數據或者Hadoop技術,把原始數據變成美元或者人民幣,但是數據是非常有價值的,有些數據也是特別敏感的,那在數據挖掘中如何保證數據的安全性呢?
Jeff:這些技術非常重要,在我們今天看到的Hadoop架構中是真實存在的,不可或缺的。無論是Hadoop、Storm還是Spark,它們的功能都在增長,也會變得更加重要。未來,我們覺得,大家會越來越喜歡探討Hadoop用戶案例等問題。
談到Hadoop,我們可能不再關注于查詢性能的優化,安全性問題將會成為Hadoop社區新的關注點。
我們Hortonworks收購了一家XA Secure的企業,我們為Apache軟件基金會貢獻了一個新項目Apache Ranger。這個新項目結合了一些安全性特征,被引入到了Hadoop項目的內核中,為Hadoop的發行版提供了全面的安全套件。在這個安全套件里, 不管你把數據存儲在Hadoop集群里,還是存儲在Hive Table、或者HDFS里,我們都可以使用Apache Ranger項目來確保數據的安全性。
皮皮:盡管Hadoop發展得如火如荼,但我們很少人會直接使用Apache的發行版。與此同時,我們注意到越來越多的Hadoop發行版開始 涌現了,比如Cloudera、IBM、微軟、Hortonworks和Amazon等。能不能和我們談談這些發行版在大數據市場的地位?
Jeff:你說到,很少人會直接使用Apache發行版,這個沒錯。事實上,當你在使用Hortonworks 數據平臺的時候,你在使用開源的Apache 軟件基金會的發行版。我們堅信,開源能夠帶來最好的價值,開源能夠實現最好的創新,開源能夠為數據中心引入最好的技術。因此,我們要做的事情都會圍繞 Apache軟件基金會展開。
當然,我對其它的發行版也心生敬畏,比如Cloudera Manager、 Cloudera Navigator等,這些項目在開源的世界里發揮著非常重要的作用。而我們一直以來,都堅持將它開源,保持了整個Hadoop生態系統的純開源的本質。 除了Hortonworks,沒有其它的企業還能堅持百分之百的開源。
皮皮:對于中國從事大數據行業的CTO,您有哪些建議?
Jeff:當我們投入Apache軟件基金會的研發過程時,當我們在開發Hadoop核心代碼時,我們要把已有的技術和資金投入到我們的數據中 心里。無論你用的是Oracle、SQL Server、還是Teradata等數據庫,我們想做的是將Hadoop整合到已有的技術中,能夠將現有技術的價值最大化。因此,我想對CTO說的是, 請在你的數據中心中使用Hadoop吧,將Hadoop整合到您的產品中吧,因為它們是開源的。
皮皮:對于中國從事大數據行業的個人來講,您有哪些建議?
Jeff:對于個人來講,我的建議是上官方網站Hortonworks.com 下載Sandbox體驗下,這是一個大家都可以使用的虛擬機,它能夠免費運行在桌面上,同時支持Windows和Mac操作系統,大家可以在VMware 里運行Sandbox,也可以在VirtualBox里運行它。
隨著企業數據量的增大,數據越來越多樣化,Hadoop大展拳腳,很多終端用戶感覺不到,但他們卻在真實使用著Hadoop,他們能覺察到,自己所使用的數據越老越龐大,越老越復雜。
(來源:泰迪智慧)