Ubuntu下Spark開發環境搭建
配置Ubuntu下使用Python開發Spark應用
-
Ubuntu 64基本環境配置
-
安裝JDK,下載jdk-8u45-linux-x64.tar.gz,解壓到/opt/jdk1.8.0_45
-
安裝scala,下載scala-2.11.6.tgz,解壓到/opt/scala-2.11.6
-
安裝Spark,下載spark-1.3.1-bin-hadoop2.6.tgz,解壓到/opt/spark-hadoop
-
下載地址:http://www.oracle.com/technetwork/java/javase/downloads/index.html
下地地址: http://www.scala-lang.org/
下載地址:http://spark.apache.org/downloads.html,
配置環境變量,編輯/etc/profile,執行以下命令
python@ubuntu :~$ sudo gedit /etc/profile
在文件最增加:
#Seeting JDK JDK環境變量
export JAVA_HOME=/opt/jdk1.8.0_45
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:${JRE_HOME}/bin:$PATH
#Seeting Scala Scala環境變量
export SCALA_HOME=/opt/scala-2.11.6
export PATH=${SCALA_HOME}/bin:$PATH
#setting Spark Spark環境變量
export SPARK_HOME=/opt/spark-hadoop/
#PythonPath 將Spark中的pySpark模塊增加的Python環境中
export PYTHONPATH=/opt/spark-hadoop/python
-
測試安裝結果
-
打開命令窗口,切換到Spark根目錄
重啟電腦,使/etc/profile永久生效,臨時生效,打開命令窗口,執行 source /etc/profile 在當前窗口生效
-
執行 ./bin/spark-shell,打開Scala到Spark的連接窗口
啟動過程中無錯誤信息,出現scala>,啟動成功
-
執行./bin/pyspark ,打開Python到Spark的連接窗口
啟動過程中無錯誤,在出現如上所示時,啟動成功。
-
通過瀏覽器訪問:出現如下頁面
測試SPark可用。
-
Python安發Spark應用
-
前面已設置PYTHONPATH,將pyspark加入到Python的搜尋路徑中
-
打開Spark安裝目錄,將Python-》build文件夾下py4j,復至到Python目錄下,如圖:
-
打開命令行窗口,輸入python,Python版本為2.7.6,如圖所示,注意Spark不支持Python3
-
輸入import pyspark,如下圖所示,證明開發前工作完成
-
使用Pycharm新建項項目,使用紅框中的代碼測試: