Intel數據中心軟件部首席架構師陳奇:IntelHadoop助推大數據社會
Intel 數據中心軟件部首席架構師陳奇
“IntelHadoop 是一個開源技術,Intel 利用自己的力量改進了版本,這些改進會放到開源的社區,希望相互的開放式的結構不光是為程序員作貢獻,為整個社會也作貢獻,數據社會就需要交互,不是封閉的。”
陳奇現場講話 實錄:
大家對英特爾很熟悉。 首先講到英特爾,他們肯定會想到 CPU,它主要是開放架構的。聽了我的講座,你可能就會記住 Intel Hadoop。 英特爾不光會做 CPU,不光會做硬件,特別是在大數據這個領域,更想建立 Hadoop 的基礎架構,叫 Intel Hadoop。前面講的智慧城市,物聯網,云計算等等, 都會產生巨量數據。這些數據怎么存儲,你怎么從數據中挖掘出你所想要的這些東西,最終怎么解決這些命題, 都是我們今天要講的基礎架構可以幫助實現的。我們前面講到過各種各樣的技術演變,結果就會產生各種各樣的價值。
我的題目叫 Hadoop,可能有的人不熟悉 Hadoop,前面有的人也談到 Hadoop,我現在不談 Hadoop 做什么,是談 Intel 在這個領域是不是可以加上 Intel 的標簽,這個我們在國內已經做了,而且做的很成功。
我們這個會議主題是數據社會,可能不談你的數據量有多大,現在談的更多的是大數據,談到大數據,就是這些數據怎么存儲,怎么被利用。以前就是簡 單的數據存儲,現在這些數據是不是要進行一些挖掘。就是你的數據能不能預測將來,不是說你們的數據能夠幫助你預測你的命運,但是我現在要是說的是利用 Intel 的基礎架構,利用我們的技術幫你做一些想要做的事情。我們國家談論城市的城鎮化,城鎮化不光是土地面積有多大,城市擴展有多大,更講得是一個智慧城市。
智慧城市也會產生各種各樣的數據,我前面提到智慧城市,云計算都離不開數據。前面有位嘉賓提到,比如你在工廠里面做工,老是放著攝象頭來監視 你。這些攝像頭就會產生大量的數據與視頻,你不能靠幾十個人 24 小時目不轉睛地盯著屏幕看, 這就需要 Intel Hadoop 來幫你完成實時的分析,預警。我上次去一家很大的半導體公司,它關心的是員工會不會把數據偷出去給第三方,這也需要很好的數據挖掘, 也需要我們的開放架構。在我們國家,不管是智慧交通,城市安全監控,我們在硬件上還是做的比較好的,因為我們裝了很多攝象頭,這些攝象頭的數據怎么被利 用,政府要關心,我們公民也希望可以享受到它帶來的交通便利,智慧管理,這就更需要我今天講的 Intel Hadoop。
我之前舉了一個例子,像電信業,中國的人口非常多,一般的電信公司每月會產生 30T 的記錄。很多人用 3G 上網,你的手機流量怎么算,這個年輕人比較關心,是不是到國外去一趟,產生一萬塊錢的帳單。如果你跟大公司打交道,他們給你提供很好的便利手段, 讓你隨時隨地知道你的手機流量,同時也讓公司知道用戶的使用習慣與喜好, 這就是個雙贏的局面, 是非常方便的。這就是我們正在幫這些公司做的,也很好地利用了我們提供的開放 Hadoop 平臺。它的數據量很大,首先它存在那兒,這些數據能幫你做什么,我們就提供了各種各樣的工具,最重要是我們提供了一個基礎架構,這個基礎架構是個開源的架 構,就是開放的架構,叫 Intel Hadoop。隨著互聯網的發生,想到大數據就會想到一個重要的架構,就是 Hadoop。
Hadoop 運營在開放平臺上,是個開放的分布式的系統,它是用比較廉價的制式,而不是價格很貴的制式。我三年前跟他們說 Hadoop,很多大型企業不知道什么叫 Hadoop,但是這幾年,包括銀行、電信、制造公司等等這些點名說我們需要用這種技術。大數據在我們國家也成為一個戰略決策,當然,要響應這個戰略決 策,要有一個基礎架構,開放式的平臺,這個開放式的平臺不是以前數據庫的平臺,更多是 Hadoop 的平臺。
Hadoop 是跑在 Intel 的 CPU 上,但是因為它是剛剛出現的技術,Intel 希望把它做的更好,同時讓 Intel 的硬件更好的發揮作用。這是一張預測表,就是 2017 年運行 Hadoop 的 Intel Xeon 處理器的數量。這里講的是 Intel Hadoop 的基礎架構。
當講到你的數據存儲時,得考慮到它的安全性,這方面 Intel 有自己的特點,在 Hadoop 的平臺上進行了很大的改進,然后是數據的管理等等方面的改進。然后就是架構上的提速,Intel 提倡的是開放的架構。現在提到大數據,都會想到的是 Hadoop,這也是一個實實在在的架構。 不像云計算, 沒有統一的架構, 云里霧里。 Hadoop 確實一個很實在的標準開放架構,Intel 也希望在這個實實在在的架構里面發揮它的作用。Intel 還有各種各樣的大數據解決方案,不光是架構上發揮它本身硬件的作用,在更深更廣的層面上利用自身的軟硬件優勢,可以幫助我們實現大數據,更好、更快、更正 確的分析這些你想要的東西。
Intel 所做的貢獻,它進行改進產生的結果是什么?首先是 Intel 在 CPU 上可以說是獨當一面,用 Intel 的 CPU 可以提升 50% 的性能,Intel 有它自己的技術,把硬件技術結合在軟件技術上。所以用 Intel Hadoop 將會有 50% 的性能提升。還有就是 Intel 在存儲上的加速。再有就是 Intel 在大數據的存儲、管理這個方面的改進,特別是利用 Intel 的硬件可以提高性能。現在市場上有各種各樣的技術,談到大數據的時候你想到的一個標準技術就是 Hadoop。Hadoop 是一個開放的平臺,但是原始的平臺并沒有很好的利用硬件的特性,Intel 在硬件的特性上有獨特的優勢,對現有的平臺結合硬件進行了改進。 舉個例子, 處理 1T 的數據,用原始的開放 Hadoop 平臺,一般是四個小時, 但如果你用 Intel Hadoop, 只需要幾分鐘時間, 這就是 Intel 對這種開放平臺的貢獻, 在 Hadoop 平臺上貼上了 Intel 的標簽。Intel Hadoop 是基于開放架構,Intel 利用自己的力量進行了改進,這些改進會放到開源的社區,希望相互的開放式的結構不光是為程序員作貢獻,為整個社會也作貢獻,數據社會就需要交互,不是封閉 的。這個是 Intel 在大數據領域,特別是在企業界應用最廣的基礎。Intel 在硬件上是獨當一面,在開放架構上 Intel Hadoop 國內被應用的程度也是最廣的。另外,Intel 利用軟件和硬件相結合,保證它很可靠的運行。因為這種大的企業,并不是互聯網的企業,首先考慮的是數據的安全性、可靠性,然后是你性能的提高。
Intel 是一家提倡開方式架構的公司。當然 Intel 不光是一個軟件公司,也是一個硬件公司,Intel 希望更好的成為開源軟件的公司,就是與開源軟件相結合,這張圖里面有各種各樣的與 Intel 合作的公司。Intel 并不是他自己的力量在做,Intel 更多靠的是自己的合作伙伴,這些合作伙伴當他們出去,比如他們研發一些大數據技術,或者應用這些大數據工具,他們會首先想到 Intel Hadoop。
我今天基本上講的是這些,因為講的不是技術東西,主要讓大家知道提到大數據的時候,大家就會想到 Hadoop 的技術,想到 Hadoop 的技術,就會想到 Intel Hadoop. Intel 在這方面有它的領先優勢,對 Hadoop 的技術進行了很好的改進,然后慢慢就會主導 Hadoop 的市場,所以說以后你可能看到隨著 Hadoop 的應用越來越廣泛,Intel 版本的 Hadoop 將會被最廣泛的應用。基本上我們現在活躍度和應用已經非常廣了,謝謝大家!