使用開源軟件快速搭建數據分析平臺

BessMcfarla 8年前發布 | 70K 次閱讀 數據挖掘

來自: http://my.oschina.net/taogang/blog/630632


最近,國內涌現出了不少數據分析平臺產品,例如魔鏡數據觀

這些產品的目標應該都是self service的BI,利用可視化提供數據探索的功能,并且加入機器學習和預測的功能。它們對標的產品應該是Tableau或者SAP Lumira。因為筆者曾經為Lumira開發數據可視化的功能,對這一塊很感興趣,于是就試用了一下這些產品,感覺這些產品似乎還有很大的差距,于是就想自己用開源軟件搭一個簡單的數據分析平臺試試看。

代碼在這里 https://github.com/gangtao/dataplay2 

廢話少說,上架構圖:

列一下主要用到的開源軟件:

服務器端:

客戶端:

開發構建工具

  • nodejs https://nodejs.org/en/ 

    這個應該也不用介紹

  • babel https://babeljs.io/ 

    javascript的編譯器,支持把ES6的代碼轉換成瀏覽器可執行的代碼,這里主要是為了支持reactjs使用的jsx的編譯。

好了,羅列了這么多的開源軟件后,我們看看dataplay2的功能,然后看看這些開源軟件起到的作用和我為什么要選擇它們的原因。

在介入正題之前,我們先聊聊dataplay2這個名字,dataplay很容易理解,我希望創建一個簡單易用的數據平臺,使用起來像玩一樣的愉快。但為什么是2呢?因為這個軟件很二么?當然不是。其實我之前寫過一個dataplay的,當時的架構略有不同,為了使用R里的ggplot來支持語法驅動的可視化方案,我后臺使用了R/Python的橋接方案,前臺的可視化操作會生成ggplot的命令,好處是可以有一個統一的數據模型和語法來驅動數據的可視化分析,便于用戶進行數據的探索。然而這樣的架構太復雜了,服務器端既有R又有Python,我自己都看不下去了,后來就放棄了。新的dataplay2使用echart的圖表庫來做可視化,優缺點我們后面再聊。

好了,運行dataplay2非常簡單,下載github上的code后,建議安裝anaconda,所有的Python依賴就都準備好了,進入dataplay2/package目錄,運行:

python main.py

然后在瀏覽器中鍵入 localhost:5000啟動客戶端。

首先我們進入數據菜單

在這個頁面,用戶可以瀏覽已有的數據,或者上傳一個CSV文件,增加一個數據集。

簡單介紹一下這一部分的實現。

數據上傳用到了file input控件,數據表用了datatable控件。為了方便CSV文件直接存貯在本地文件系統中。后臺用pandas對csv文件進行處理。前臺用Rest API讀取csv文件,然后用papaparse解析后,展現在數據表中。這樣做純粹是為了方便,因為整個POC是我在假期花了3/4天做的,所以怎么方便怎么來。更好的做法是在后臺用Python對CSV文件作解析。

注意這里我們對上傳的CSV文件有嚴格的要求,必須有首行的header,末尾不能有空行。

有了數據后,就可以開始做分析了。首先我們看看可視化的分析。點擊菜單Analysis/Visualization

例如我們選定Iris數據源做一個Scatter Plot

可視化這一塊的主要工作是從CSV的表結構數據,根據數據綁定,變形到echart的數據結構。因為echart并沒有一個統一的數據模型,所以每一個類型的圖表都需要有對應的數據變形的邏輯 。(代碼 package/static/js/visualization )

現在主要的做了Pie,Bar,Line,Treemap,Scatter, Area這幾種chart。

現在用下來感覺echart優缺點都很明顯,他提供的輔助功能很好,可以方便的增加輔助線,note,存貯為圖形等。但是由于缺乏統一的數據模型擴展起來比較麻煩,我希望有時間試用一下plotly,當然highchart是非常成熟的圖表庫,無需證明。

其實我希望能找到一個ggplot的D3的實現,例如這個http://benjh33.github.io/ggd3/ ,可惜該項目似乎不活躍了。

除了基于可視化的分析功能,還有機器學習的功能。

分類

分類的算法可以使用KNN,Bayes和SVM。

如果選擇兩個Feature做預測,我用D3畫出了該預測的模型。大于兩個時,就沒有辦法畫出來了。

然后用戶可以選擇基于該模型來做預測。

聚類和回歸的功能和分類基本一致。

聚類

聚類算法現在實現了Kmeans

線性回歸

邏輯回歸

 

基本功能就這些了,這里列出一些我想要實現的功能:

  • 數據源

    現在的數據源只有CSV文件,可以考慮更多的數據源支持,例如數據庫/數據倉庫,REST調用,流等等。

  • 數據模型

    現在的數據模型比較簡單,就是pandas的dataframe或者一個簡單的cvs的表結構。可以考慮引入數據庫。另外還需要增加對層級數據(hierachical)的支持

  • 數據變形

    數據變形是數據分析的必要準備工作。業內有很多專注于數據準備的產品,例如paxata,trifacta

    這個版本的dataplay沒有任何的數據變形和準備的功能,其實pandas有非常豐富的data wrangling的功能,我希望能在這之上包裝一個data wrangling的DSL,可以讓用戶快速的進行數據準備。

  • 可視化庫

    Baidu的echart是非常優秀的可視化庫,可是用于數據探索時,還不夠好。希望能有一套類似ggplot的前端可視化庫來使用。另外地圖功能和層級化的圖表也是數據分析常見的功能。

    還需要加入圖表的選項

  • 儀表盤功能

    這個版本的dataplay沒有儀表盤功能,這個功能是數據分析軟件的標配,必須有。pyxley似乎是個不錯的選擇,也和dataplay的架構一致(python,reactjs),有時間可以嘗試一下

  • 機器學習和預測

    dataplay現在實現了最簡單的一些機器學習的算法,我覺得方向應該是面向用戶,變得更簡單,用戶只給出簡單的選項,例如要預測的目標屬性,和用于預測的屬性,然后自動的選擇算法。另外需要更方便的對算法進行擴展。

好了,最后談談簡單的感受

  • reactjs真不錯,一直不喜歡MVC,reactjs的組件化用起來更舒服,而且開發效率確實高,整個項目我用假期3/4天完成,react功不可沒。

  • dataplay現在的功能還比較弱,但是基本的架構已經搭好了,大家喜歡的話可以拿去擴展。我不一定會有時間繼續對它的功能增強,但是歡迎大家和我一起討論。

 

 本文由用戶 BessMcfarla 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!