百度的Hadoop分布式文件系統圖解:4000節點集群
百度的高性能計算系統(主要是后端數據訓練和計算)目前有4000節點,超過10個的集 群,最大的集群規模在1000個節點以上。每個節點由8核CPU以及16G內存以及12TB硬盤組成,每天的數據生成量在3PB以上。規劃當中的架構將有 超過1萬個節點,每天的數據生成量在10PB以上。
底層的計算資源管理層采用了Agent調度不同類型的計算分別給MPI結構的算法和Map-Reduce和DAG算法應用等。而通過調度的分配,可以讓HPC高性能計算集群和大規模分布式集群各得其所的計算相應數據。
百度通過HCE對streaming作業的排序,壓縮,解壓縮,內存控制進行了優化并提供了C++版的MapReduce接口。
百度HCE語言的有關內容,HCE是基于C++的Hadoop環境,是一個全功能C++環境,可以避開Java語言對于釋放內存和資源申請的弊端,并在調用數據時繞開Java語言的所有關節,極大的提升算法效率。
來自:http://www.cnblogs.com/chinacloud/archive/2010/11/08/1871592.html
本文由用戶 openkk 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!