BigInsights:解讀IBM基于Hadoop的數據分析平臺
毫無疑問,大數據成了 2012 年的熱門詞。根據國外統計機構的報告,大數據處理在今年的市場規模已經達到 700 億美元并且正以每年 15-20% 的速度增長。幾乎所有主要的大科技公司都對大數據感興趣,對該領域的產品及服務進行了大量投入。其中包括了 IBM、Oracel、EMC、HP、Dell、SGI、日立、Yahoo 等,而且這個列表還在繼續。
IBM 也在 2011 年中旬對外發布了針對大數據處理和分析技術:在 SmartCloud 平臺上新增基于 Apache Hadoop 的服務 InfoSphere BigInsights 分析軟件。在日前舉行的中國程序員、數據庫工程師“2011 IBM DB2 遷移之星大賽”媒體活動上。IBM 軟件集團大中華區信息管理軟件總經理盧偉權、IBM 中國開發中心信息管理總經理朱輝就相關話題分享了自己的看法。
3年前布局 Hadoop 研發
據介紹,IBM 對 Hadoop 的研究開始于2~3年前。截止到目前,研究成果涉及作業調度、查詢語言等多個方面。作為典型應用成果,IBM InfoSphere 大數據分析平臺包括 BigInsights 和 Streams,二者互補,Biglnsights 對大規模的靜態數據進行分析,它提供多節點的分布式計算,可以隨時增加節點,提升數據處理能力。Streams 采用內存計算方式分析實時數據。InfoSphere 大數據分析平臺還集成了數據倉庫、數據庫、數據集成、業務流程管理等組件。
BigInsight 整體框架圖
BigInsights 基礎版和企業版均包含了 Apache Hadoop 和大量的開源軟件技術,具體包含的開源項目:
- Apache Hadoop 包括 Hadoop Distributed File System (HDFS)、MapReduce 框架和通用的實用工具,是一種適用于數據密集型應用的軟件框架,可用于開發分布式計算環境
- Pig 是用于 Hadoop 的一種高級編程語言和運行時環境
- Jaql 是基于 JavaScript Object Notation (JSON)的一種高級查詢語言,也支持 SQL
- Hive 是一種數據倉庫基礎架構,設計用于支持批量查詢和分析 Hadoop 管理的文件
- HBase 是一種以列為主的數據存儲環境,設計用于支持 Hadoop 中的稀疏填充的大型表格
- Flume 是一種用來數據收集并將其加載到 Hadoop 中的工具
- Lucene 是一種文本搜索和索引技術
- Avro 是一種數據序列化技術
- ZooKeeper 是分布式應用程序的一種協作服務
- Oozie 是工作流/作業編排技術
除了開源技術,BigInsights 還包含了 IBM 開發的定制技術:一個文本分析引擎、一個用于商業分析的數據挖掘工具,以實現與企業軟件的整合和 Hadoop 增強的效果。
IBM 中國開發中心信息管理總經理朱輝
在 IBM 中國開發中心信息管理總經理朱輝看來,BigInsights 并沒有替代 OLAP(Online Analytical Processing)或 OLTP(Online Transaction Processing)應用程序,但它可以整合其中,用于“過濾大量原始數據并合并結果,將結果以結構化數據的形式保存在 DBMS 或數據倉庫中”。IBM 的 Hadoop 解決方案已經問世了,客戶可以進行測試。
Hadoop 無法單一解決大數據問題
此外,朱輝認為目前面臨的大數據分析和處理問題,業界需要一整套全面的解決方案。“當前任何一種單一的產品都無法完整解決面臨的大數據的問題和 挑戰。現在行業當中大家聽得最多的是 Hadoop,但我不認為基于任何一個例如 Hadoop 這樣的單一產品就能夠解決目前的問題。傳統的數據倉庫在這當中仍然扮演一個非常重要的角色,至少是海量數據巨大的產生源。”
此外,據當天與會的 IBM Big Data 開發資深經理王遠洪介紹,IBM CDL (中國開發實驗室)的研發人員參與了 BigInsights 項目的全球研發,并積極幫助國內客戶在本地驗證 IBM 基于 Hadoop 的數據分析平臺項目。
IBM 軟件集團大中華區信息管理軟件總經理盧偉權
在當天的活動中,IBM 軟件集團大中華區信息管理軟件總經理盧偉權介紹了本次中國程序員、數據庫工程師“2011 IBM DB2 遷移之星大賽”活動情況。此次大賽于 2011 年 9 月 20 日在北京正式拉開帷幕,分為預賽、復賽、決賽三個階段。預賽采取了網上答題的方式進行,選取成績最好的 100 名選手進入復賽;進入復賽的選手則根據地域、興趣自行組隊,按照組委會公布的應用相關的方向和領域,向組委會提交團隊的 Proposal,由評委最終選出進入決賽環節的 10 支隊伍,參加 3 月 14 日于北京進行的總決賽。除獲得獎金、證書等獎勵外,競賽優勝隊伍還將獲得參觀 IBM 美國實驗室的機會。
在早些時候,甲骨文也曾宣布其大數據系統 Big Data Appliance 將能夠支持 Hadoop,而且微軟也暗示將在 Azure 云平臺和 Windows Server 上對 Hadoop 進行支持。此外,亞馬遜的 Elastic MapReduce 云服務也是基于 Hadoop。可以相信,大數據的解決方案會受到業界的極大關注。