谷歌大數據工具衍生新開源平臺Drill

openkk 13年前發布 | 19K 次閱讀 谷歌

谷歌大數據工具衍生新開源平臺Drill

硅谷創業公司 MapR 已經發布了一個名為 Drill 的開源項目,尋求模仿谷歌所開發的一個十分有效的數據分析工具。

        北京時間 8 月 22 日消息,《連線》雜志編輯凱德·梅茨(Cade Metz)近日在這份雜志的網絡版上撰文稱,谷歌的大數據工具 Hadoop 已經衍生出了兩個開源平臺,這兩個平臺分別是由硅谷創業公司 Cloudera 和 MapR 所構建的。其中,MapR 已經發布了一個名為 Drill 的開源項目,尋求模仿谷歌的數據分析工具。

        以下是這篇文章的全文:

        在硅谷邱吉爾俱樂部(Churchill Club)最近召開的一次會議上,邁克·奧爾森(Mike Olson)和約翰·施羅德(John Schroeder)共用了一個講臺,但這兩人的觀點并不完全一致。

        奧爾森是一家名為 Cloudera 的硅谷創業公司的首席執行官,施羅德則是 MapR 的首席執行官,這家公司很明顯是 Cloudera 的競爭對手。兩家公司都在開源云計算軟件平臺 Hadoop 上經營自身業務,這個平臺以數據中心技術為基礎,這種技術為谷歌占據互聯網市場主導地位的搜索引擎提供支持。但在構建各自業務的問題上,這兩家創業公司是 從兩個十分不同的方向靠近這個平臺的。

        Cloudera 與開源 Hadoop 項目密切合作,目的是增強這個平臺免費向全世界提供的軟件代碼;而與此相比, MapR 則決定從頭開始重新建設這個平臺,而當這項工作完成以后,這家公司會將新的代碼作為專有軟件出售。在上個月專為 Hadoop 召開的一次專題討論會上,奧爾森和施羅德登上講臺,就哪家公司的方法最有意義進行了面對面的辯論。正如開源項目成為討論主題的許多時刻那樣,他們兩人之間 的爭論也引發了聽眾們的熱議。

        施羅德表示,MapR 不一定非要反對開放式的開發。他解釋稱,這家公司之所以保密其所開發的代碼,至少有部分原因在于那些推動這個開源項目的人不愿迅速地作出 MapR 希望作出的改變。“在開源社區中有很多政治性的問題需要考慮。”他說道。“情況會因你所處的狀況而有所不同。”

        似乎是為了證明他的這一觀點,MapR 已經推出了另一個開源項目,旨在將其作為 Hadoop 平臺的重大補充。MapR 最近向阿帕奇軟件基金會(Apache Software Foundation)——負責管理 Hadoop 的非盈利開源組織——提出了一個項目,其目標是模仿 Dremel,這是一種由谷歌開發和使用的十分有效的數據分析工具。這個項目名為 Drill,管理該項目的 MapR 負責人托莫·希蘭(Tomer Shiran)表示,該項目適合完全開放式的開發,這是該公司最初的 Hadoop 項目所不具備的特點。通過 Hadoop 平臺,MapR 以往的作法是與一個根深蒂固的開發者社區就一個現有的項目展開合作。而在有了 Drill 以后,這家公司正在開創某種新的東西。

        希蘭表示,MapR 之所以將 Drill 的開發對外開放,其原因在于該公司希望將這個平臺變成能迅速分析在 Hadoop 上所存數據的業界標準。這家公司希望能促進 Drill 的應用程序接口(API)的使用,允許用戶將其他工具嵌入這個平臺。

        “這是一套新的應用程序接口,這是一個新的系統。”希蘭說道,他此前曾供職于惠普和 IBM 旗下的研究部門。“如果這些新的應用程序接口是開放的,那么肯定會有助于提高使用量。”

        通過建設開放式的 Drill 項目,這家公司可能還希望贏得全球開發者和 IT 經理的某種認同;在構建自己專有版本的 Hadoop 平臺時,該公司失去了這種認同。希蘭對此作出了否認,但開源社區中的政治性問題會在許多不同的地方出現——正如上個月在邱吉爾俱樂部召開的主題討論會所明 確表明的那樣。當時,施耐德表示 MapR 對開源“意識形態”問題并不感到擔心,因此招來了激烈的質問。開源軟件代碼的理由幾乎從來都不明確,但很明顯的一個問題是,在當今的軟件市場上,保持代碼 的開源性正日益成為從事相關業務的重要組成部分。

        這不僅有助于擴大軟件代碼的使用度,同時還能有助于傳播商譽——而商譽對于一家公司來說也是非常重要的。

        當 MapR 從 2009 年開始致力于在 Hadoop 平臺上進行開發工作時,這個平臺已經在整個互聯網范圍內被廣泛使用。基于描述了 MapReduce 和谷歌文件系統(Google File System)——這是兩個意義深遠的軟件平臺,它們重新創造了谷歌構建自身搜索索引的方式——的研究報告,Hadoop 被雅虎、非死book 及其他公司作為使用數以千計的廉價服務器來運算海量數據的工具。作為這種工具來說,Hadoop 是非常有效的——一名 非死book 工程師曾將其比作我們所呼吸的空氣——但從某種程度上來說,象雅虎和 非死book 這樣缺乏工程專業知識的公司并不太適合使用這種工具。

        MapR 解決了許多缺陷——其中包括曾困擾谷歌文件系統的一個顯而易見的缺陷等——但據施耐德和公司聯合創始人斯萊瓦斯M.C. Srivas(M.C. Srivas)稱,那些推動開源項目的人不愿象 MapR 所希望的那樣迅速地作出這些改變。因此,MapR 自己對文件系統進行了重新構建,并在 2011 年發布了自己專有版本的 Hadoop,決心為其所做的工程工作謀求財務利益。

        正如奧爾森所指出的那樣,開源 Hadoop 項目已經解決了許多同樣的問題;而且他相信,從長期來看保持這個平臺的核心代碼的開放性是一種好得多的解決方案。“最重要的一個問題在于,你想要開源軟 件,因為這種軟件能突破廠商的封鎖。”他在上個月召開的主題討論會上說道。“你可以把廠商踢出去,而且我們無法關閉數據的可獲得性,無法關閉分析信息的可 獲得性,也無法關閉數據庫的可獲得性。”

        但施耐德則極力主張,奧爾森和 Cloudera 同樣也提供專有軟件——以 Hadoop 管理工具的方式——而且他還指出,所有軟件公司都必須找到某種方法來利用自己的代碼賺錢。有許多方法能做到這一點,而在推出 Drill 項目以后,MapR 也已經證明,這家公司同樣也看重開放式開發的價值。

        希蘭指出,第三方開發者已經表現出自己對這個項目的興趣。在 MapR 向阿帕奇軟件基金會提交的 Drill 計劃中,兩名第三方開發者——分別是一家名為 Concurrent 的公司的創始人兼首席執行官克里斯·溫瑟爾(Chris Wensel)和 Drawn to Scale 的工程副總裁賴安·羅森(Ryan Rawson)——被列為這個項目的核心開發者。

        雖然希蘭指出 MapR 已經對 Hadoop 平臺及其各個姊妹項目作出了開源貢獻,但 Drill 則有所不同,原因是這家公司計劃開放式地構建整個平臺。按希蘭所說,這樣做是有必要的。雖然谷歌在 2010 年發布了一份描述 Dremel 的研究報告,但 Hadoop 社區仍有待復制其相當驚人的數據分析技術,而 MapR 則希望確保能以“正確的方法”做到這一點。希蘭表示,這是 MapR 無法通過 Hadoop 做到的事情。

        沒錯,Hadoop 已經被作為一種數據分析工具來被人們使用,這種使用應歸功于 Hive 和 Pig 等姊妹項目;但 Hadoop 是一個“批處理”工具,這意味著數據請求需要相當長的一段時間才能完成。而與此相比,Drill 的設計目的則是效法 Dremel,對海量數據進行幾乎實時的分析。據谷歌基礎設施專家烏爾斯·霍澤爾(Urs Holzle)稱,Dremel 能在大約三秒鐘時間里處理 1 拍字節(petabyte,PB,1PB 等于 1024TB)的數據。

        “你擁有一種類似于 SQL 的語言,能讓制定專設的查詢請求變得非常簡單——而且,你不需要做任何編程工作,只需將查詢請求輸入到命令行里即可。”霍澤爾在上個月向我們說到,他所指 的 SQL 是 Structured Query Language(結構化查詢語言),這是傳統數據庫用來處理數量少得多的數據的一種語言。

        希蘭表示,Drill 的設計目的是為 Hadoop 提供補充,而并非取代后者。他指出,就轉換一個龐大的數據集而言,Hadoop 是一種最好用的工具。舉例來說,你可以通過海量的網頁集合來建設一個搜索索引;但 Drill 則允許你從同一個數據集中非常迅速地抽取一小部分信息。

        “(Hadoop)能對一拍字節的數據進行運算,將其變成新的數據。”希蘭說道。“通過 Dremel 或是 Drill,你能對一拍字節的數據進行分析,然后得出一拍字節或少于一拍字節的數據。”他表示,MapR 的一些用戶已在將該公司專有版本的 Hadoop 平臺與谷歌在線服務 BigQuery 配合使用,后一種服務能讓谷歌以外的公司使用 Dremel。

        希蘭稱,Drill 這個名稱是由一名谷歌員工提議的,MapR 曾與這名員工合作開發 BigQuer。MapR 的聯合創始人斯萊瓦斯也曾在谷歌供職,當時他曾是谷歌搜索基礎設施建設團隊的成員之一。就谷歌官方而言,這家公司并未正式參與 Drill 項目。通過這些龐大的基礎設施平臺,谷歌傾向于去做自己的事情。

        MapR 也一直都以做自己的事情而著稱,但這一次則并非如此。

來自: 騰訊科技
 本文由用戶 openkk 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!