前置作業:
安裝java
安裝ssh 並設置好無密碼登入
安裝好hadoop-2.6.0 分散式
版本:
Spark-1.2.1
Scala-2.11.5
配置:
一個master (tuning13)
兩個slave1 (tuning14)
slave2 (tuning15)
我的資料都習慣放置於/opt中
----------------------------------------------------------------------------------------------------------------------------------------------
其實Spark安裝起來不難
1.下載Scala 並設置環境變數 (沒有此步驟 Master會開不起來)
cd /opt
sudo wget http://www.scala-lang.org/files/archive/scala-2.11.5.tgz
tar -zxvf scala-2.11.5.tgz
配置Scala環境變數
sudo vi /etc/profile
在最尾端加入
export SCALA_HOME=/opt/scala-2.11.5
export PATH=$PATH:$SCALA_HOME/bin
儲存並離開 執行 source /etc/profile 這樣才會讀入環境變數
可以echo $SCALA_HOME 和 scala -version 確認看看
環境參數設定好了以後
使用scp -r spark資料夾 tuning14:/opt
的方式傳送給其他台機器
2.下載Spark (此處下載的是必須搭配hadoop-2.4+版本 已經編譯過後的Spark)
cd /opt
sudo wget http://ftp.twaren.net/Unix/Web/apache/spark/spark-1.2.1/spark-1.2.1-bin-hadoop2.4.tgz
tar -zxvf spark-1.2.1-bin-hadoop2.4.tgz
配置環境變數
sudo vi /etc/profile
加入
export SPARK_HOME=/opt/spark-1.2.1-bin-hadoop2.4
export PATH=$PATH:$SPARK_HOME/bin
3.配置Spark 參數
cd /opt/spark-1.2.1-bin-hadoop2.4/conf
mv spark-env.sh.template spark-env.sh
vi spark-env.sh
加入
export JAVA_HOME/usr/lib/jvm/java-1.7.0-openjdk-amd64
export SCALA_HOME=/usr/local/scala-2.11.5
export SPARK_MASTER_IP=tuning13 (這是我的機器的名字)
export SPARK_WORKER_MEMORY=1000m (選擇性的)
儲存離開
mv slaves.template slaves
vi slaves
加入 (一行一台機器名字)
tuning13
tuning14
tuning15
環境參數設定好了以後
使用scp -r spark資料夾 tuning14:/opt
的方式傳送給其他台機器
4.執行spark
確認已經執行了hadoop 並且 程序無誤時 (jps檢查)
在spark目錄中
sbin/start-all.sh
正確執行的話 jps檢查
master的機器會多 Master , Worker 兩個程序
slaves的機器會多 Worker的程序
留言列表