搭建Spark完全分布式集群
寫在前面一:
本文詳細總結Spark分布式集群的安裝步驟,幫助想要學習Spark的技術愛好者快速搭建Spark的學習研究環境。
寫在前面二:
使用軟件說明
約定,Spark相關軟件存放目錄: /usr/local/yujianxin/spark,
Hadoop 相關軟件存放目錄: /home/yujianxin/hadoop。
Spark集群示意圖
一、具體安裝步驟
1、安裝jdk
2、安裝Hadoop集群,參考 http://blog.csdn.net/aaronhadoop/article/details/24867257
3、安裝 Scala
cd /usr/local/yujianxin/spark/
tar -zxvf scala-2.9.3.tgz
修改/etc/profile
4、安裝Spark
4.1、修改/etc/profile
cd /usr/local/yujianxin/spark/
tar -zxvf spark-0.7.2-prebuilt-hadoop1.tgz
4.2、配置Spark
4.2.1、修改配置文件 spark-env.sh
cd /usr/local/yujianxin/spark/spark-0.7.2/conf
cp spark-env.sh.template spark-env.sh
vi spark-env.sh
4.2.2、修改配置文件
slaves
至此,master節點上的Spark已配置完畢。 把master上Spark相關配置copy到slave1、 slave2中,注意,三臺機器spark所在目錄必須一致,因為master會登陸到worker上執行命令,master認為worker的spark路徑與自己一樣。
二、安裝測試
2.1、測試1——通過命令行
cd $SPARK_HOME/bin
start-all.sh
2.2、測試2——通過瀏覽器
