Hadoop運維經驗雜談

mrul0595 9年前發布 | 14K 次閱讀 Hadoop 運維技術分布式/云計算/大數據

Hadoop運維經驗雜談

系統架構：

Hadoop運維經驗雜談

Cloudera和它的產品們

Apache Hadoop與CDH版本關系

Hadoop運維經驗雜談

CDH為什么更好？

yum ,tar, rpm, cloudera manager 四種安裝方法

CDH3u3重大改善

Hadoop運維經驗雜談

CDH3u4重大改善

Hadoop運維經驗雜談

Cloudera Manager

Hadoop運維經驗雜談

Cloudera Training

分為Administrator和Development兩門課程

運維事故

1、傷不起的內存

現象1

系統上線第二天，Jobtracker不工作，web頁面打不開

原因

一次提交Job數量太多，導致Jobtracker 內存溢出

解決

調大JT內存；限制Running Job數量

現象2

NN內存溢出，重啟后發現50030頁面顯示fsimage損壞，調查發現SNN fsimage同樣損壞了

原因

小文件太多導致NN/SNN內存溢出，導致fsimage文件損壞，但是重啟后的NN可以正常服務。

原因

Cloudera google group去救，獲得后門腳本

2、低效的MapReduce Job

現象

MapReduce Job執行時間過長

原因

MR中用到了Spring，小文件導致Map方法效率低下，GZ文件讀寫效率低

解決

MR去Spring化；開啟JVM重用；使用LZO作為輸入和map輸出結果；加大reduce并行copy線程數

壓縮與MapReduce性能

Hadoop運維經驗雜談

3、OMG，整個集群完蛋了

現象

早上來發現所有DataNode都dead了，重啟后10分鐘，DN陸續又都dead了；調查發現節點有8%左右丟包率

原因

交換機模塊故障；DN不能Hold住大量小文件

解決

升級3u2到3u4；設置DN內存到2GB

遇到無法跨越的問題解決辦法

監控與高級

Hadoop運維經驗雜談

Nagios告警：

Hadoop運維經驗雜談

業務監控：

Hadoop運維經驗雜談

原文 http://www.thebigdata.cn/Hadoop/29673.html

本文由用戶 mrul0595 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/lib/view/open1460586103525.html

Hadoop 運維技術分布式/云計算/大數據

Hadoop運維經驗雜談

1、傷不起的內存

2、低效的MapReduce Job

3、OMG，整個集群完蛋了

相關經驗

相關資訊

相關文檔

目錄