想從事大數據、海量數據處理相關的工作，如何自學打基礎?

jopen 11年前發布 | 18K 次閱讀大數據分布式/云計算/大數據

海量數據分成兩塊，一是系統建設技術，二，海量數據應用。

先說系統建設，現在主流的技術是HADOOP，主要基于mapreduce的分布式框架。目前可以先學習這個。但是我的觀點，在分布式系統出來之前，主要是集中式架構，如DB2，oracle。為什么現在用分布式架構，那是因為現在集中式架構受限于IO性能，出來速度慢，如果又一種硬件技術，可以很快地處理海量數據，性能上能滿足需求，那么集中式架構優于分布式架構，因為集中式架構穩定，運維壓力小。現在的集中式架構要么性能達不到要求，要么就是過于昂貴。我期待一種技術出現，可以非常快地傳輸和處理數據，那么集中式架構將再次進入人們眼球。再說海量數據應用。海量數據應用主要是數據挖掘和機器算法。具體有不同的應用場景，如個性化搜索和推薦，社交網絡發現，精準營銷，精準廣告，實時最優路徑，人工智能等等。看你想做系統支撐技術還是與業務結合的應用技術。

如果現在學系統建設技術，可以讀下如下書籍：

想從事大數據、海量數據處理相關的工作，如何自學打基礎?

如果學數據挖掘和機器算法，推薦先看數據挖掘導論，統計分析原理，Mahout，R,MATLAB

來自36大數據（36dsj.com)：36大數據

本文由用戶 jopen 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/lib/view/open1418366535480.html

大數據分布式/云計算/大數據

想從事大數據、海量數據處理相關的工作，如何自學打基礎?

相關經驗

相關資訊

相關文檔

目錄