大數據領域一些實用工具

y37f 9年前發布 | 38K 次閱讀 工具 分布式/云計算/大數據

大數據指的是海量數據的分析處理,可能是EB級的數量處理,我們之前也提到過大數據擁有4V特性,Volume(大量)、Velocity(高 速)、Variety(多樣)、Value(價值),對于大數據的分析處理,需要有專門設計的硬件和軟件工具進行專業化處理,大數據經過收集再到清洗計算挖掘再到展現和利用,每一步可用的工具都不同,下面我們就來扒一扒大數據領域一些實用工具吧。

1、  收集工具

由于大數據數據集的體量非常巨大高達EB級,而數據源來來自于各種公開信息、傳感器、氣候等各種渠道,以互聯網渠道舉例,網站公開信息、交易記錄、 評價信息、網絡日志、視頻、事監控、大型電子商務、門戶信息或垂直媒體等各種渠道。像八爪魚采集器也是新一代采集技術的大數據收集工具,除此以外,數據源 收集這塊目前比較常見的工具有:

scraperWIKI(可從多種數據源獲取數據,生成自定義視圖)

needlebase(可編寫代碼自動化抓取公開網站)

2、  數據處理

Hadoop (能夠對大量數據進行分布式處理的軟件框架,具有高可靠性、高擴展性、高效性和高容錯性)

Storm(分布式實時計算系統,開源系統,支持多種編程語言,可處理Hadoop的批量數據)

Apache Drill(有助于Hadoop用戶實現更快查詢海量數據集)

RapidMiner(分布式數據挖掘,免費提供數據挖掘技術和庫,支持JAVA代碼)

3、  數據存儲(計算)

Apache Hadoop

NoSql 數據庫 – MongoDB, Cassandra, Hbase

SQL 數據庫 – MySql(Oracle), MariaDB, PostgreSQL, TokuDB

4、  數據清洗

DataWrangler(基于網絡服務的可視化組數據清洗和重排工具,文本編輯簡單,但不適合商業或敏感信息處理)

Google Refine(支持多種格式數據的聚類分析,無電子表格計算功能)

OpenRefine (交互數據轉換工具,可對新的行數據進行編碼)

5、  數據分析

Jaspersoft(報告和分析服務器)

Pentaho(數據集成和業務分析)

Splunk(IT分析平臺)

Talend(大數據集成,數據管理和應用集成)

6、展現工具

可視化展現工具

EXCEL/ CSV/JSON(很對企業人員均會用到的數據分析工具)

Google Chart API(動態圖標工具,須支持JavaScript的設備上使用)

Flot(線框圖表庫,支持所有支持canvas的瀏覽器

D3(支持SVG渲染的另一種JavaScript庫,提供大量線性圖和條形圖之外的復雜圖表樣式)

Processing(數據可視化的招牌工具,編寫簡單的代碼即可編譯成JAVA)

FUSION TABLES(可根據地理位置可視化數據)

Gephi(進行社交圖譜數據可視化分析的常用工具)

SPSSSAS

R(大數據預測分析工具)

Modest Maps(本身的地圖庫較小,但是配合WAX等擴展庫很強大)

OpenLayers(可靠性高的地圖庫)

除了上述介紹的一些工具外,每個類別還有很多其他的工具可實現,有興趣的朋友可以進一步去了解。

 本文由用戶 y37f 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!