Hadoop入門 - Linux下偽分布式計算的安裝與wordcount的實例展示
本人是在ubuntu下進行實驗的,java和ssh安裝就不在這里講了,這兩個是必須要安裝的,好了我們進入主題安裝hadoop:
1.下載hadoop-0.20.1.tar.gz:
http://www.apache.org/dyn/closer.cgi/hadoop/common/
解壓:$ tar –zvxf hadoop-0.20.1.tar.gz
把Hadoop 的安裝路徑添加到環/etc/profile 中:
export HADOOP_HOME=/home/hexianghui/hadoop-0.20.1
export PATH=$HADOOP_HOME/bin:$PATH
2.配置hadoop
hadoop 的主要配置都在hadoop-0.20.1/conf 下。
(1)在conf/hadoop-env.sh 中配置Java 環境(namenode 與datanode 的配置相同):
$ gedit hadoop-env.sh
$ export JAVA_HOME=/home/hexianghui/jdk1.6.0_14
3.3)配置conf/core-site.xml, conf/hdfs-site.xml 及conf/mapred-site.xml(簡單配
置,datanode 的配置相同)
core-site.xml:
<configuration>
<!--- global properties -->
<property>
<name>hadoop.tmp.dir</name>
<value>/home/yangchao/tmp</value>
<description>A base for other temporary directories.</description>
</property>
<!-- file system properties -->
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
hdfs-site.xml:( replication 默認為3,如果不修改,datanode 少于三臺就會報錯)
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
mapred-site.xml:
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>
4.運行hadoop
首先進入hadoop所在目錄,執行格式化文件系統 bin/hadoop namenode –format
啟動hadoop: bin/start-all.sh
用jps命令查看進程,顯示: