Hadoop不是萬能的
記者 / 董世曉
2011年,對 Hadoop 來說注定是載入史冊的一年:Yahoo!與風險投資公司 Benchmark Capital 聯合建立獨立公司 Hortonworks,接手 Yahoo!開源軟件平臺 Apache Hadoop;Hadoop 海量數據分析平臺 Datameer、Karmasphere 和 Hadapt 分別獲得千萬美元級別投資;一向對開源趨勢不屑一顧的微軟轉投 Hadoop 懷抱;Hadoop 之父 Doug Cutting 第一次蒞臨中國,布道 Hadoop 0.23……
可以說,Hadoop 生態系統呈現出一派欣欣向榮的景象。近日,記者專門采訪了 Hadoop in China 的兩位發起人——Yahoo!北京全球研發中心高級經理韓軼平和中科院計算所副研究員查禮,請他們為大家詮釋 Hadoop 的現狀。
Hadoop 商機無限
2011年關于 Hadoop 的眾多投資以及微軟等公司轉向 Hadoop 的事件,昭示了業內感受到了 Hadoop 中蘊藏的商機。
韓軼平認為:“互聯網行業由于擁有深厚的技術實力,所以 Hadoop 得以率先在互聯網行業得到了蓬勃發展。但這不意味著其他行業便沒有商機。因為不是所有企業都有能力使用 Hadoop,但需求又實實在在地擺在那兒,需要很多的技術支持、定制化產品,這便會最終催生出一個產業,來做這些方面的服務。”
查禮則解釋了傳統 IT 公司對 Hadoop 的態度:“微軟、IBM 這些公司擁抱 Hadoop,并不是說它們在向 Hadoop 傾斜,而是將 Hadoop 作為一個標準來支持,將 Hadoop 加入到自己的產品體系或者業務架構中,并進而鞏固其在這個市場上的地位。”
通過支持 Hadoop,老牌 IT 廠商用最小的代價加入大數據處理這個新興市場,不失為明智之舉。
Haoop 技術熱點
NoSQL
從 2010 年 NoSQL 的好處被認識到之后,好像一夜之間在 IT 業內便已街知巷聞。目前,NoSQL 已經不再停留在學習概念和坐而論道的階段,而是得到了廣泛應用,HBase、MongoDB、Redis 等深入人心。應該說 非死book 在這中間起到了領頭羊的作用,率先采用了一些開源 NoSQL 系統來支持其大數據應用,而國內互聯網企業也看到了這個趨勢,并積極跟進,不斷進行深入的交流和實踐。
實時處理
據韓軼平介紹,現在包括 非死book 和 Yahoo!在內的越來越多的公司都在向“實時處理”這個方向發展,而且會有更多的公司來關注怎樣真正地讓數據處理和分析能夠越來越實時,因為處理接近實 時之后,會對業務產生深遠的影響。例如對在線廣告系統,如果處理時間從十分鐘、一小時減少到一分鐘,廣告收益會有本質的區別。查禮認為,在解決了實時處理 這個“快”的問題之后,“準”的問題就迫在眉睫了。而 Hadoop/NoSQL 就能解決“準”的問題,從而實現精準營銷,達到高利潤、低成本的目標。
此外,Namenode、Scalability(可擴展性)、HDFS Performance 這些存在已久的問題,仍然是 Hadoop 的技術熱點。
應用需求或者業務需求,說到底是要為企業賺錢。企業對經營模式、盈利模式的追求,最后導致業務追求,這種業務追求就反映到對系統的追求上,所以 這些追求決定了有哪些問題要解決。例如,High Availability(高可靠性)對電商來說至關重要,如果在圣誕節宕機一小時,損失可想而知。
兩位 Hadoop in china 發起人暢談 Hadoop 熱點(左為韓軼平,右為查禮)
Hadoop 應用場景
可能是長久苦于大數據處理手段有限的緣故,隨著 Hadoop 應用的不斷拓展,使很多人陷入了對它的盲目崇拜中,認為它能解決一切問題。
對此,韓軼平說:“在我們研發中心的每次 Hadoop 訓練班開學時,我都會告誡學員務必記住‘Hadoop 不是萬能的’。在做具體工作時,首先要考量它是否適合使用 Hadoop。”這正如 Doug Cutting 所說:“如果一個小任務用一個節點就能完成,為何還多此一舉用 Hadoop 呢?”但如果任務當前很小,考慮到以后會有暴漲的話,最好還是一開始就用 Hadoop 來實現,以便保持將來良好的可擴展性。因此,在動手做之前,這些問題都應該要想清楚,如果沒有把握的話,可以多參加一些社區討論和交流活動,看看哪些人、 哪些公司在做類似的事情、有哪些經驗教訓,參考過后,再去做選型:技術到底怎樣構架、應用怎樣來組合這些技術。總之,做到不迷信、不盲從。
從狹義上來說,Hadoop 就是 MapReduce+HDFS,也就是一種離線處理或者批處理的模式。一方面,如果需求是對在線請求馬上得到結果,Hadoop 肯定不適合;另一方面,MapReduce 是一個簡化的并行模型,假設硬件總是要壞的,所以它中間所有的交互模式都做得很可靠、簡單。這樣一來,Hadoop 能夠處理的負載或者應用,就會相對較窄。
而互聯網應用模式是一種簡單模式,傳統 IT 行業則復雜得多,路數與互聯網企業完全不同,正因如此,Hadoop 率先在互聯網企業獲得成功。但以后 Hadoop 極可能應用到傳統 IT 行業,比如 MIS 或者 ERP。在傳統 IT 行業中,Hadoop 是否保持原樣,繼續是專用系統,還是慢慢演化成為通用系統,現在尚未可知,但已經顯露出這樣的苗頭。因此,查禮斷言,Hadoop 就像早期的操作系統一樣,剛推出時是個專用系統,經過多年的發展,才成為通用系統。這也符合計算機行業中從專用到通用的螺旋上升趨勢。
雖然目前 Hadoop 在大企業,特別是互聯網大企業中應用較多,但韓軼平認為這并不是因為存在技術門檻的緣故,而是一方面要看企業是否需要做 Hadoop,另一方面則是因為像 非死book、Google、Yahoo!這樣的公司得到了較多的媒體曝光,為人所熟知,而更多的小公司,不管是國內還是國外,都在用 Hadoop,可能規模較小、業務相對簡單。而數據的膨脹,也讓我們很難定義何為“小”公司了:硅谷一家創業公司,員工只有 13 人,但在 Amazon 租用了 1400 臺機器跑它的一個搜索業務。
Hadoop 主力誰屬
Doug Cutting 曾說:“Apache 軟件基金會的初衷是不希望始終有企業在某一個項目里面一家獨大,我們希望有更多的人參與進來,希望有更多的交流和碰撞。”因此,盡管目前 Yhaoo!在 Hadoop 中的貢獻還是最大,但其占比一直在下降,這在韓軼平看來是件好事,因為現在有更多的公司在為 Hadoop 做貢獻,Hadoop 生態系統也日益完善。
目前看來,對 Yahoo!老大地位形成挑戰的幾家勢頭較猛的公司是 Cloudera、非死book、Hortonworks,還包括國內的企業,比如華為的增長就很快。盡管華為此前從不開源,但現在還能夠往 Hadoop 社區里面做貢獻,也著實讓人感到驚訝。韓軼平點評道:“這也從側面反映了開源在中國慢慢得到認可了。”查禮則認為:“我覺得還是 Hadoop 給它帶來了好處,或者至少沒有什么壞處。”
MapR 在特定應用場景下做出了貢獻
2011年 5 月,MapR 公司推出分布式文件系統和 MapReduce 引擎——MapR Distribution for Apache Hadoop,號稱比開源版本的 Hadoop 性能高數倍。
對此,韓軼平解釋道:“在今年的 Hadoop Summit 上,我了解到 MapR 確實在某些特定的應用場景和特定的問題規模下,起到了一定的效果。這樣的優化對業界和整個社區絕對是件好事,因為總體上能夠推進技術的發展。但我又不認為 它能夠完全解決問題,因為要把 Hadoop 做成一個通用系統,把所有問題都解決,還有很漫長的路要走。我很欣賞針對一類具體的問題,去提供一類的優化解決方案,這是絕對可能的,因為當整個產業擴大 了以后,必然會出現某種程度上的分化或者定制化。但我不覺得它已經本質性地改變了 Hadoop。而對于它公布出來的成績,我也不懷疑,因為它是針對某些限定條件而得出的。”
查禮也表示認同:“既然 MapR 要兼容 Hadoop,那么它的模式肯定沒有創造性或者顛覆性的變化。Hadoop 本身有很多能夠優化的地方,在某個 Benchmark 上完全可以做到比 Hadoop 快很多。做系統其實就是在平衡,舍棄一些特性,就像 CAP 理論一樣,總是有舍有得,不可能設計出一個完美的系統。”
2012年 Hadoop 暢想
2011年,可以看作是 Hadoop 蓄勢待發的準備年,那么 2012 年,Hadoop 又會怎樣呢?
韓軼平講出了他的 Hadoop 愿景:“第一,完善 Hadoop 生態系統,而不僅僅局限于 Hadoop 本身的持續開發、新特征加入和改進。第二,希望進一步根據不同的應用場景、專業領域和應用邏輯,出現更多的中間件和解決方案,因為它們能夠幫助 Hadoop 走出互聯網公司,走進更多的公司和行業,從而真正推動整個信息產業和行業的發展。”
查禮也暢想道:“2012年應該是 Hadoop 向傳統信息領域進軍的一年。在這個領域,海量數據的問題早就存在,只是沒有辦法解決或者解決的成本太高,再加之那種‘反正這樣的問題同行們也都解決不了’ 的心態,所以就先擱置。互聯網企業已經為 Hadoop 的應用做出了表率,明年完全有理由期待它在傳統信息領域得到更多的應用。”
眾所周知,傳統行業手中握有非常多的數據,但苦于沒有好的方法充分利用起來。通過像 Hadoop 這樣的大數據處理技術,完全可以幫助傳統行業創造出更新的價值:一方面可以使其傳統業務邏輯得到更有效的實現,另一方面也能夠培養出一種思維和方法,使其 慢慢從中發現更多的價值,并進而延伸出更多的價值。此外,Hadoop 還可能催生很多其他行業,例如可以將高鐵網絡上的所有運行數據、軌道數據采集處理以后,進行優化,就會對交通運輸的價格體系和物流體系產生深遠影響。
社會總是要前進,需要有更新的產業出現,Hadoop 是一個值得信賴的推動引擎。