Hadoop運維經驗雜談

系統架構:

Cloudera和它的產品們
Apache Hadoop與CDH版本關系

CDH為什么更好?
yum ,tar, rpm, cloudera manager 四種安裝方法
CDH3u3重大改善

CDH3u4重大改善

Cloudera Manager



Cloudera Training
分為Administrator和Development兩門課程
運維事故
1、傷不起的內存
現象1
系統上線第二天,Jobtracker不工作,web頁面打不開
原因
一次提交Job數量太多,導致Jobtracker 內存溢出
解決
調大JT內存;限制Running Job數量
現象2
NN內存溢出,重啟后發現50030頁面顯示fsimage損壞,調查發現SNN fsimage同樣損壞了
原因
小文件太多導致NN/SNN內存溢出,導致fsimage文件損壞,但是重啟后的NN可以正常服務。
原因
Cloudera google group去救,獲得后門腳本
2、低效的MapReduce Job
現象
MapReduce Job執行時間過長
原因
MR中用到了Spring,小文件導致Map方法效率低下,GZ文件讀寫效率低
解決
MR去Spring化;開啟JVM重用;使用LZO作為輸入和map輸出結果;加大reduce并行copy線程數
壓縮與MapReduce性能

3、OMG,整個集群完蛋了
現象
早上來發現所有DataNode都dead了,重啟后10分鐘,DN陸續又都dead了;調查發現節點有8%左右丟包率
原因
交換機模塊故障;DN不能Hold住大量小文件
解決
升級3u2到3u4;設置DN內存到2GB
遇到無法跨越的問題解決辦法
監控與高級

Nagios告警:

業務監控:



本文由用戶 mrul0595 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!