2005年,美國新建立的數據中心需要消耗的能量=加利福尼亞州所消耗能量的10%(大約5GW),約40億美金。 英國的1500個數據中心每年消耗的能量和英國第十大城市萊卡斯特所需要的能量相當。 2010年,英國單個數據中心每年在能量上的花費達到大約740萬英鎊。 計算機集群系統由于采用商用化部件,其能耗問題更為突出。 比利時的圣吉蘭(Saint Ghislain)數據中心完全依靠數據中心外面的空氣來冷卻系統。 Dalles數據中心位于俄勒岡州的哥倫比亞河旁,河上的Dalles大壩為數據中心提供電力。數據中心有2座4層樓高的冷卻塔。 Google數據中心以集裝箱為單位,每個集裝箱有1160臺服務器,每個數據 中心有眾多集裝箱。 Google一次搜索查詢的能耗能點亮100瓦的燈泡11秒鐘。
云計算的前世今生“云計算”、“大數據”、“物聯網”,作為當今互聯網行業最火的三個詞語,這三項技術已經廣泛應用在實際生活當中,并隨著科技的不斷發展,正在使我們的生活發生翻天覆地的變化。
HDFS為了做到可靠性(reliability)創建了多份數據塊(data blocks)的復制(replicas),并將它們放置在服務器群的計算節點中(compute nodes),MapReduce就可以在它們所在的節點上處理這些數據了。
MapReduce是一個在海量數據上進行數據處理的并行編程模型,它特別適合于海量非結構化和結構化數據的搜索、分析和挖掘任務,已經開始被人們廣泛使用。對于興起的眾多類似MapReduce系統來說,如何有效地評估和分析對比這些系統,成為當前一個需要解決的問題。本文詳細討論了針對MapReduce運行系統的性能評估指標和方法,設計和選擇一系列具有代表性的程序和數據作為基準,用來評估和分析MapReduce系統。在這一評估方法指導下,本文在我們自己實現的MapReduce運行系統——Tplatform平臺上擴展了Profiling功能,然后進行了一系列評估實驗,來分析和尋找系統性能瓶頸,為未來系統優化提供依據。通過實驗我們發現了我們系統的一些可改進的問題如任務調度、落后者問題等等。我們選擇了針對導致提交任務延遲增加的落后者問題,通過實現后備任務策略來嘗試改進。經模擬實驗結果顯示,我們提出的改進策略能夠有效地改進落后者問題的性能問題。關鍵詞:MapReduce,性能評估,落后者問題,后備任務策略。