Oracle大數據機和連接器產品支持與Hadoop和Cloudera Manager集成
(作者:Srini Penchikala,譯者:吳宇)
Oracle 大數據機和大數據連接器軟件支持與 Hadoop、Cloudera Manager 以及 Oracle NoSQL 數據庫的集成。上月 Oracle宣布攜手 Cloudera 進軍大數據機和連接器軟件領域。
大數據機融合了 Cloudera 公司的 Apache Hadoop(CDH)和 Cloudera Manager 管理應用,以及一個開源統計性編程語言R。它采用 Oracle Enterprise Linux 5.6 作為其操作系統,配備有 HotSpot Java 虛擬機。大數據機能夠運行 Oracle NoSQL 數據庫社區版和企業版。它同時能與 Oracle 的其他產品,如 Exadata、以及配備有 Oracle 大數據連接器軟件的 Oracle 數據庫進行集成,以此分析企業內部那些結構化數據和非結構化數據。
大數據連接器軟件:
Oracle 的大數據連接器軟件產品可利用 Oracle 數據庫 11g 整合儲存在 Hadoop 及 Oracle NoSQL 數據庫中的數據。通過在 Hadoop 數據上直接使用 Oracle 的開源R語言可實現對數據的分析。大數據連接器軟件包包含以下組件:
- 針對 Hadoop 的 Oracle 加載器:這是一種 MapReduce 應用,用以優化從 Hadoop 下載到 Oracle 數據庫中的數據。它可以用來在 Hadoop 中對數據進行篩選、分區以及轉換成 Oracle 數據庫的數據格式。它還可以以 Hadoop 集群中的一項 Hadoop 任務的形式來對數據進行預處理,然后再將轉換過的數據加載入數據庫中。該特性同樣支持在線或離線選項,負載均衡及多種輸入格式(如定界文本文件、Hive 表以及自定義格式)。
- 針對 Hadoop 分布式文件系統(HDFS)的 Oracle 直連器: 支持從 Oracle 數據庫中直連在 HDFS 上的數據,并且通過在 Oracle 數據庫中創建某外部表,用戶能夠從 HDFS 訪問和導入數據。在 HDFS 中存儲的數據可通過 SQL 進行查詢,這些數據會與 Oracle 數據庫中存儲的數據相關聯,或被加載至 Oracle 數據庫中。HDFS 中的數據可以存在于界定文件中,或者是由 Oracle 加載器為 Hadoop 創建的 Oracle 數據 pump 文件中。
- 針對 Hadoop 的 Oracle 數據集成(ODI)應用適配器:該適配器提供了與 ODI 的原始 Hadoop 集成。ODI 模塊可用于在 ODI 內部構建 Hadoop 元數據、加載數據到 Hadoop、在 Hadoop 內部轉換數據以及利用針對 Hadoop 的 Oracle 加載器直接將數據加載到 Oracle 數據庫中。
- 針對 Hadoop 的 Oracle R 連接器:該組件是一個R語言包,用來幫助訪問 Hadoop 以及存儲在 HDFS 中的數據。它可用于創建R模塊來應對使用 MapReduce 處理的海量數據。
Cloudera Manager:
包含在大數據機捆綁包中的 Cloudera Manager 提供一個集群范圍的、實時的運行節點及服務視圖,它能夠用來改變跨集群內的配置。它還包括了報告和診斷工具來觀察集群的性能和利用率。
Oracle Advanced Analytics:
Oracle 近期還發布了一款新的針對大數據的產品 Oracle Advanced Analytics,它將統計式編程語言R集成至 Oracle 數據庫 11g 產品中。Oracle Data Mining,作為內嵌于 Oracle Advanced Analytics 的數據挖掘軟件,能夠幫助客戶構建并部署預測分析應用從而獲悉更多應用性能方面的信息。
查看英文原文: Oracle Big Data Appliance and Connectors Support Integration with Hadoop and Cloudera Manager