Hadoop 0.20的配置過程和配置文件(分布式)
在安裝Fedora 11的兩臺機器上的目錄結構一致,分別安裝JRE 6 Update 14,下載hadoop
0.20后解壓放在目錄/home/hadoop/下。hadoop包解壓以后的路徑名字是hadoop-0.20.0,建立一個軟鏈接指向這個目錄,方
便今后的升級,名字叫hadoop。修改/home/hadoop/hadoop/conf/hadoop-env.sh文件中的變量
JAVA_HOME,“export JAVA_HOME=/usr/java/jre1.6.0_14”。下面是配置文件的具體內容:
1、文件 core-site.xml:
fs.default.name
hdfs://hadoop1:9000
fs.inmemory.size.mb
200
io.sort.factor
100
io.sort.mb
200
io.file.buffer.size
131072
2、文件hdfs-site.xml:
dfs.name.dir
/home/hadoop/hdfs/name
dfs.data.dir
/home/hadoop/hdfs/data
dfs.block.size
134217728
dfs.namenode.handler.count
40
3、文件mapred-site.xml:
mapred.job.tracker
hadoop1:12345
mapred.system.dir
/home/hadoop/mapred/system/
mapred.local.dir
/home/hadoop/mapred/local/
mapred.reduce.parallel.copies
20
mapred.child.java.opts
-Xmx512M
4、文件masters存放NameNode的機器,slaves中是DataNode機器,這兩個文件分別寫上環境中不同的機器。在我配置的這個環境里 只有兩臺機器,在masters里面的內容是hadoop1,在slaves文件里是hadoop2。
把
上面幾個文件拷貝到其它機器的相同目錄下,然后可以執行腳步開始啟動hadoop:/home/hadoop/hadoop/bin/start-
dfs.sh 和
/home/hadoop/hadoop/bin/start-mapred.sh。這兩個腳本會提示生成相應的日志文件,檢查這些日志文件以確定
hadoop成功啟動。接下來,網上有些測試步驟的例子,比如:bin/hadoop jar hadoop-0.20.0-examples.jar
wordcount input output,驗證啟動后的hadoop可以正常工作。DL cxzx