【譯】大數據分析平臺搭建教程:基于Apache Zeppelin Notebook和R的交互式數據科學
來自: https://segmentfault.com/a/1190000004428222
介紹
這篇文章的目的是幫助您開始使用 Apache Zeppelin Notebook,它可以滿足您用R做數據科學的需求。Zeppelin 是一個提供交互數據分析且基于Web的筆記本。方便你做出可數據驅動的、可交互且可協作的精美文檔,并且支持多種語言,包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等等。
然而,最新的官方版本是0.5.0,還不支持R編程語言。幸運的是,NFLabs公司做了個開源項目,讓我提供了一個R的編譯器。這個編譯器是讓用戶可以使用自定義的語言做為數據處理后端的一個 Zeppelin 插件。例如在 Zeppelin 使用scala代碼,您需要一個 Spark編譯器。所以,如果你像我一樣有足夠的耐心將R集成到Zeppelin中, 這個教程將告訴你怎樣從源碼開始配置 Zeppelin和R。
準備工作
-
我們將通過Bash shell在Linux上安裝Zeppelin。如果您使用的是Windows操作系統,我建議您安裝和使用Cygwin終端(它提供功能類似于Windows上的Linux發行版)。
-
確保 Java 1.7 和 Maven 3.2.x 是已經安裝并且配置到環境變量中。
從源代碼構建 Zeppelin
第一步:下載 Zeppelin 源代碼
去這github分支下載源代碼,將這個鏈接復制并粘貼到你的瀏覽器: https://github.com/elbamos/incubator-zeppelin/tree/rinterpreter
在我的例子中我已經下載并解壓文件夾在我的桌面
第二步:構建 Zeppelin
假設你是安裝在單機,打開你的Terminal,運行下面的代碼。如果你是安裝在一個集群,會稍微復雜一點,具體步驟 Zeppelin 的文檔 中找到。
$ cd Desktop/Apache/incubator-zeppelin-rinterpreter $ mvn clean package -DskipTests
這將需要約16分鐘構建Zeppelin、Spark,所有引擎包括R,markdown,shell,hive等。(見下圖)。
第三步:啟動 Zeppelin
運行以下命令啟動Zeppelin:
$ ./bin/zeppelin-daemon.sh start
打開web瀏覽器,訪問 http://localhost :8080。此時,您已經準備好開始在 Zeppelin 用代碼創建交互筆記本。
交互式數據科學
第一步:創建一個筆記本
單擊下拉箭頭旁邊的“筆記本”頁面,點擊“創建新報告”。
給你的筆記本命名或您可以使用指定的缺省名稱。我命名為“Base R in Apache Zeppelin”。
第二步:開始你的分析
如下圖所示,調用R可以用“%spark.r”或“%spark.knitr”標簽。首先讓我們用 markdown 寫一些介紹。
根據我們可能需要我們的分析,現在讓我們來安裝一些包。
我們將使用“flights”數據集顯示2013年離開紐約的航班,現在讓我們讀取數據集。
現在,讓我們使用dplyr(用管道符)做一些數據操作。
您還可以使用條形圖和餅圖來可視化一些描述性統計數據。
現在,讓我們與ggplot2共舞。
現在,讓我們用 caret 包做一些統計的機器學習。
最后,繪制幾個地圖。
結束語
Zeppelin 幫助您使用多種編程語言創建交互式文檔和美麗的圖表。這篇文章的目的是幫助你配置 Zeppelin 和 R。希望這牛逼的的項目管理委員會(PMC)的開源項目可以用R引擎發布下一個版本。到時候安裝 Zeppelin肯定會更快更方便,而不必從源代碼構建。
還值得一提的是,還有另一個R的編譯器是由 Data Layer 提供的。你可以在這里找到說明如何使用: https://github.com/datalayer/zeppelin-R 。
你可以嘗試著兩個編譯器,然后然后在下面的評論區分享一下你的使用體驗。
Data Layer提供的編譯器
RCharts
Rchats Map
GoogleViz
Scala R Binding
R Scala Dataframe Binding
SparkR
用Docker鏡像部署
為了您的方便, Datalayer 為Apache Zeppelin 提供了一個最新的 Docker鏡像。你可以通過執行下面的命令來獲取鏡像
docker pull datalayer/zeppelin-rscalaRun the Zeppelin notebook with:
docker run -it -p 2222:22 -p 8080:8080 -p 4040:4040 datalayer/zeppelin-rscala</pre>
現在,你可以去 http://localhost:8080 測試這個R教程筆記了。
展望
作為后續這篇文章中,我們將看到在 Zeppelin 中如何使用 Apache Spark(尤其是SparkR)。
更新
此小節由于原文有可能變動,故不作翻譯,望讀者原諒,可以直接訪問原文查看最新的更新情況。
【原文地址】 http://blog.sparkiq-labs.com/2015/11/16/interactive-data-science-with-r-in-apache-zeppelin-notebook/
</div>