大數據領域一些實用工具
大數據指的是海量數據的分析處理,可能是EB級的數量處理,我們之前也提到過大數據擁有4V特性,Volume(大量)、Velocity(高 速)、Variety(多樣)、Value(價值),對于大數據的分析處理,需要有專門設計的硬件和軟件工具進行專業化處理,大數據經過收集再到清洗計算挖掘再到展現和利用,每一步可用的工具都不同,下面我們就來扒一扒大數據領域一些實用工具吧。
1、 收集工具
由于大數據數據集的體量非常巨大高達EB級,而數據源來來自于各種公開信息、傳感器、氣候等各種渠道,以互聯網渠道舉例,網站公開信息、交易記錄、 評價信息、網絡日志、視頻、事監控、大型電子商務、門戶信息或垂直媒體等各種渠道。像八爪魚采集器也是新一代采集技術的大數據收集工具,除此以外,數據源 收集這塊目前比較常見的工具有:
scraperWIKI(可從多種數據源獲取數據,生成自定義視圖)
needlebase(可編寫代碼自動化抓取公開網站)
2、 數據處理
Hadoop (能夠對大量數據進行分布式處理的軟件框架,具有高可靠性、高擴展性、高效性和高容錯性)
Storm(分布式實時計算系統,開源系統,支持多種編程語言,可處理Hadoop的批量數據)
Apache Drill(有助于Hadoop用戶實現更快查詢海量數據集)
RapidMiner(分布式數據挖掘,免費提供數據挖掘技術和庫,支持JAVA代碼)
3、 數據存儲(計算)
NoSql 數據庫 – MongoDB, Cassandra, Hbase
SQL 數據庫 – MySql(Oracle), MariaDB, PostgreSQL, TokuDB
4、 數據清洗
DataWrangler(基于網絡服務的可視化組數據清洗和重排工具,文本編輯簡單,但不適合商業或敏感信息處理)
Google Refine(支持多種格式數據的聚類分析,無電子表格計算功能)
OpenRefine (交互數據轉換工具,可對新的行數據進行編碼)
5、 數據分析
Jaspersoft(報告和分析服務器)
Pentaho(數據集成和業務分析)
Splunk(IT分析平臺)
Talend(大數據集成,數據管理和應用集成)
6、展現工具
可視化展現工具
EXCEL/ CSV/JSON(很對企業人員均會用到的數據分析工具)
Google Chart API(動態圖標工具,須支持JavaScript的設備上使用)
Flot(線框圖表庫,支持所有支持canvas的瀏覽器)
D3(支持SVG渲染的另一種JavaScript庫,提供大量線性圖和條形圖之外的復雜圖表樣式)
Processing(數據可視化的招牌工具,編寫簡單的代碼即可編譯成JAVA)
FUSION TABLES(可根據地理位置可視化數據)
Gephi(進行社交圖譜數據可視化分析的常用工具)
R(大數據預測分析工具)
Modest Maps(本身的地圖庫較小,但是配合WAX等擴展庫很強大)
OpenLayers(可靠性高的地圖庫)
除了上述介紹的一些工具外,每個類別還有很多其他的工具可實現,有興趣的朋友可以進一步去了解。