想從事大數據、海量數據處理相關的工作,如何自學打基礎?
海量數據分成兩塊,一是系統建設技術,二,海量數據應用。
先說系統建設,現在主流的技術是HADOOP,主要基于mapreduce的分布式框架。目前可以先學習這個。但是我的觀點,在分布式系統出來之 前,主要是集中式架構,如DB2,oracle。為什么現在用分布式架構,那是因為現在集中式架構受限于IO性能,出來速度慢,如果又一種硬件技術,可以 很快地處理海量數據,性能上能滿足需求,那么集中式架構優于分布式架構,因為集中式架構穩定,運維壓力小。現在的集中式架構要么性能達不到要求,要么就是 過于昂貴。我期待一種技術出現,可以非常快地傳輸和處理數據,那么集中式架構將再次進入人們眼球。再說海量數據應用。海量數據應用主要是數據挖掘和機器算法。具體有不同的應用場景,如個性化搜索和推薦,社交網絡發現,精準營銷,精準廣告,實時最優路徑,人工智能等等。看你想做系統支撐技術還是與業務結合的應用技術。
如果現在學系統建設技術,可以讀下如下書籍:
如果學數據挖掘和機器算法,推薦先看數據挖掘導論,統計分析原理,Mahout,R,MATLAB
來自36大數據(36dsj.com):36大數據
本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!