云平臺hadoop搭建以及wordcount實例運行
hadoop是大數據處理的平臺,是基于linux系統下的,在windows安裝hadoop,很是費勁,連平臺搭建都那么難在上面運行代碼就更難了,這不是windows的強項,你們都懂得!!hadoop的搭建俺花了很長時間,寫下來希望對大家有所幫助!
前提準備:由于hadoop是基于linux,那就先要在windows下模擬出linux環境來,現推薦幾款軟件:cygwin、hadoop4win、HDP和vmware。
cygwin:Cygwin是一個在windows平臺上運行的類UNIX模擬環境,Cygwin 提供一個UNIX 模擬 DLL 以及在其上層構建的多種可以在 Linux 系統中找到的軟件包,在 Windows XP SP3 以上的版本提供良好的支持。簡單說就是unix下的命令行和windows的cmd一樣!
hadoop4win:是一個集成包包括cygwin、hadoop、jdk、hbase。這些都是hadoop需要的,安裝上hadoop4win都包括了,直接運行hadoop就行了。這個還在增加包,有個缺點就是自帶的hadoop版本是0.2.0有點低最新的是2.6.0.
HDP:Hortonworks Data Platform (HDP) 完全在開源的環境下設計、開發和構建,提供企業可用的數據平臺,讓組織能夠采用現代化數據架構。
HDP 以 YARN 作為其架構中心,是一系列處理方法(從批量到交互式再到實時)的多個工作負荷數據處理平臺,擁有企業數據平臺所需的關鍵能力 - 廣泛的管制、安全和運營。
這個是個集成工具,可以在vmware下打開,這是個虛擬機,可以直接打開不用安裝。估計這是趨勢。我在研究中,大家可以一起討論。
正文開始:我用了3中方法,第一種失敗,第二種和第3中成功,花了不少時間,真是獲益頗多。
1:現在windows下安裝cygwin,這個安裝起來比較麻煩,俺花了3天時間,最后還是沒成功,這是很重要的一步。雖然沒成功,可學了不少東西,對后面其他的安裝很有幫助。*下載cygwin一定去官網下最新的,要不然安裝是有一步提示選擇鏡像,就會出錯,或者直接在地址欄輸入http://www.cygwin.com/setup-x86.exe這是32位,要是64位把x86改成x86_64就行了。
安裝的過程中會提示安裝包,有兩個要選上openssh和openssl這兩個在net目錄下,或者直接在上面搜就可以。這2個一定要選的。安裝好后要配置運行cygwin輸入ssh-host-config,下面的我就不說了,網上一搜一大把。中間會提示錯誤/var pression denied 這就要給這個文件付權限。只要輸入下面代碼:chmod 777 /var和 chown :Users /var這兩個多試幾遍就行了,我的也是有時候數一遍不行。777代表最高權限,網上還有其他數字,這個就行。
最重要的一步:我就卡在這里了,開啟ssh服務,用命令net start sshd,再把私鑰設置成公搖命令:ssh-keygen這一步會有提示直接點回車就行,接著輸入cd ~/.ssh、cp id_rsa.pub authorized_keys.可以參看http://blog.csdn.net/bigdata_bupt/article/details/23049817。
最后要驗證net start sshd輸入命令ssh localhost沒提示說明正確。如果提示Connection closed by ::1 就錯了
。我的就到這就走不動了,因為跑hadoop項目是ssh要聯通,要不然跑不動的。cygwin配置網上很多,可以嘗試,接下來就是俺成功的配置。
注意:可能和系統有關,我換了個win7,安裝上了,原來問win8.1安裝不上,具體沒去研究。你可以試試換個系統試試
2:下載hadoop4win 地址http://sourceforge.net/projects/hadoop4win/files/0.1.4/hadoop4win-setup-net_0.1.4.zip/download 直接安裝就行了,里面的東西都有了,運行hadoop4win,先看安裝目錄有個opt/hadoop/bin,進入這個文件夾內,(注意:安裝時必須以管理員身份運行,不然會出現安裝不全,缺少快捷方式的錯誤)輸入命令 ls 下圖:
選擇里面的hadoop-daemon.sh腳本命令:hadoop-daemon.sh start namenode
用jps命令查看進程
顯示namenode 這個進程說明成功了,一共有5個進程都要開啟,namenode、datanode、secondarynamenode、jobtracker、tasktracker.這5個有順序的就是上面順序,具體這5個的作用自已可以google,下圖顯示
接下來打開瀏覽器輸入:localhost:50030和localhost:50070,查看是否成功顯示如下:
1:
2:
顯示這兩個說明你安裝成功了,下面跑一個wordcount例子,是hadoop4win自帶的一個jar包,有2種方法一個命令行,一個是eclipse下,新手建議命令行,這樣可以了解過程,熟悉后在eclipse。
先建一個txt文件隨便輸入內容我的如下
把這個文件上傳到HDFS文件系統下現在hadoop4win命令下進入本地目錄下 cd d: 再用命令:hadoop fs -put hello.tex /
接下來打開localhost:50070查看文件,點擊browser the filesystem,看有沒有hello.txt
1:
2:
這樣就是給上傳成功了。接下來運行jar包。命令如下圖
運行hadoop-0.20.2-examples.jar這個包,命令如下:hadoop jar hadoop-0.20.2-examples.jar wordcount hello.txt /sum.txt其中、sum.txt是自己定義的文件,可以其他。圖如下:
然后打開localhost:50070,就會出現sum.txt,查看里面的內容,點開查看內容:
上面的寫的很賤減略,能力有限,其中許多linux下的命令沒說,看不懂的可以看一下這個視頻很詳細 http://www.ppvke.com/10354.html
上面的算是講完了,可能要花點時間去查看其中的很多地方,多去想,多動手,多google!下面是第3種正在研究中,分享一下子:
3:
先安裝虛擬機,vmware這就不講了,安裝后打開虛擬機導入下載的文件,地址:http://zh.hortonworks.com/hdp/downloads/
直接打開就行了,打開后到最后會出現一個地址形式是:192.168.xxx.xxx
把這個地址輸入到瀏覽器中查看結果,如果出來hadoop界面,說明跑通了,后面的怎么跑項目,怎么去配置,還沒去研究下網大家一起做!!
總結;到這就完了,中間遇到了不少問題,也學到了不少,自己不要怕不會的,只要多查,多想,就行了。可能你到最后也沒配置成功,可你也會學到不少東西。男人嘛。。。就應該這樣,做編程就要靜下心來去研究。。
有問題下面留言,俺能解決的一定會回答,俺可能不經常上社區,回復可能不那么及時,還望理解。。。。。學習中!
轉載請注明出處。謝謝!!