Scala-Spark環境搭建配置

jopen 11年前發布 | 103K 次閱讀 Spark 分布式/云計算/大數據

開始搭建的jdk這些自不必說，本文只是簡單的介紹安裝scala/spark

1.下載scala安裝包

去官網下載tgz包，解壓在/opt/scala/下，設置環境變量：

export SCALA_HOME=/opt/scala/scala-2.10.3
export PATH=$SCALA_HOME/bin:$PATH

設置完成后，就可以了，在命令行里測試安裝是否正確：#scala 會進入類似于Mysql的命令輸入模式，就說明已經安裝成功了。（我之前下載的是rpm包，但是通過rpm命令安裝后，使用的是默認安裝，都不知道安裝在哪里了，如果不熟的同學建議還是通過解壓的方式，這樣我們可以很好的設置環境變量什么的）

rpm卸載已安裝的包：rpm -e test app_name 先看有沒有依賴等錯誤提示，如果沒有的話，可以放心的使用：rpm -e app_name刪除了。

scala下載地址：http://www.scala-lang.org/download/2.10.3.html

2.下載spark安裝包

依然是下載tgz包到：/opt/spark/ 下，然后進行配置。配置文件：/conf/spark-env.sh(這個文件本來沒有，需要把spark-env.sh.template名字改成這個)。

目前spark環境不依賴Hadoop，也就不需要Mesos，所以配置的東西很少，配置信息詳見：http://spark.incubator.apache.org/docs/latest/configuration.html 這個頁面的最下解釋區。

我的配置信息：

export SCALA_HOME=/opt/scala-2.10.3
export JAVA_HOME=/usr/java/jdk1.7.0_17

配置好了之后，好像也就可以了。根據官網的“Quick Start”，我們就快速體驗下吧！

-------------------------------------------------------------------------------------------

1.built Spark

sbt/sbt assembly  #使用此命令需要在工程目錄的home下

命令完成后，就會下載插件或jar包，效果如下：

Scala-Spark環境搭建配置

SBT是Simple Build Tool的簡稱，如果讀者使用過Maven，那么可以簡單將SBT看做是Scala世界的Maven，雖然二者各有優劣，但完成的工作基本是類似的。

上面的命令：sbt assembly 愚下認為是使用的sbt-assembly插件，這個插件的目的是：

可以將當前項目的二進制包以及依賴的所有第三方庫都打包成一個jar包發布，即one-jar，對于那種直接運行的應用程序很方便

經過此命令編譯后的結果是:

Scala-Spark環境搭建配置

[info]部分說得挺清楚，就是編譯后的jar文件在：/opt/spark/spark-0.9.0-incubating/assembly/target/scala-2.10/spark-assembly-0.9.0-incubating-hadoop1.0.4.jar

將這個文件添加到CLASSPATH（位置應該是在conf/spark-env.sh中加入，參考本文最下面的一張參考配置圖）,就可以創建Spark應用（當然通過>[bin]#./spark-shell命令進入的是Scala解釋器環境，所以需要編譯。）

在解釋器環境下測試Spark：（Spark交互模式）

scala> var data=Array(1,2,3,4,5,6)
data: Array[Int] = Array(1, 2, 3, 4, 5, 6)

scala> val distData = sc.parallelize(data)
distData: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at :14

scala> distData.reduce(_+_)
14/02/28 18:15:54 INFO SparkContext: Starting job: reduce at :17
14/02/28 18:15:54 INFO DAGScheduler: Got job 0 (reduce at :17) with 1 output partitions (allowLocal=false)
14/02/28 18:15:54 INFO DAGScheduler: Final stage: Stage 0 (reduce at :17)
14/02/28 18:15:54 INFO DAGScheduler: Parents of final stage: List()
14/02/28 18:15:54 INFO DAGScheduler: Missing parents: List()
14/02/28 18:15:54 INFO DAGScheduler: Submitting Stage 0 (ParallelCollectionRDD[0] at parallelize at :14), which has no missing parents
14/02/28 18:15:55 INFO DAGScheduler: Submitting 1 missing tasks from Stage 0 (ParallelCollectionRDD[0] at parallelize at :14)
14/02/28 18:15:55 INFO TaskSchedulerImpl: Adding task set 0.0 with 1 tasks
14/02/28 18:16:00 INFO TaskSetManager: Starting task 0.0:0 as TID 0 on executor localhost: localhost (PROCESS_LOCAL)
14/02/28 18:16:00 INFO TaskSetManager: Serialized task 0.0:0 as 1077 bytes in 88 ms
14/02/28 18:16:01 INFO Executor: Running task ID 0
14/02/28 18:16:02 INFO Executor: Serialized size of result for 0 is 641
14/02/28 18:16:02 INFO Executor: Sending result for 0 directly to driver
14/02/28 18:16:02 INFO Executor: Finished task ID 0
14/02/28 18:16:02 INFO TaskSetManager: Finished TID 0 in 6049 ms on localhost (progress: 0/1)
14/02/28 18:16:02 INFO DAGScheduler: Completed ResultTask(0, 0)
14/02/28 18:16:02 INFO DAGScheduler: Stage 0 (reduce at :17) finished in 6.167 s
14/02/28 18:16:02 INFO TaskSchedulerImpl: Remove TaskSet 0.0 from pool 
14/02/28 18:16:02 INFO SparkContext: Job finished: reduce at :17, took 7.928379191 s
res0: Int = 21

在Eclipse下開發Spark：

將通過sbt/sbt assembly編譯生成的/opt/spark/spark-0.9.0-incubating/assembly/target/scala-2.10/spark-assembly-0.9.0-incubating-hadoop1.0.4.jar 導出，作為創建Scala工程項目時需要的jar引入，就行了（我編譯后的jar大小為：83.8 MB (87,878,749 字節)）

示例：

（1）工程

Scala-Spark環境搭建配置

（2）代碼[代碼不報錯就說明沒問題了~]

Scala-Spark環境搭建配置

當我們在Eclipse上寫完代碼后，通過Eclipse導出為jar文件，然后編寫個shell腳本，就可以在Spark中執行了。

其他Spark環境設置參考：

Scala-Spark環境搭建配置

說明：最后的方法還是去看官網教程！

quick start : http://spark.incubator.apache.org/docs/latest/quick-start.html

configuration : http://spark.incubator.apache.org/docs/latest/configuration.html

推薦一篇針對以前版本的博客介紹，對新的也有一定的參考價值：

http://www.cnblogs.com/jerrylead/archive/2012/08/13/2636115.html

Spark 開發API：

http://spark.incubator.apache.org/docs/latest/api/core/index.html#org.apache.spark.rdd.RDD

本文由用戶 jopen 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/lib/view/open1393753753443.html

Spark 分布式/云計算/大數據

Scala-Spark環境搭建配置

相關經驗

相關資訊

相關文檔

目錄