PyMining - 基于Python的數據挖掘平臺
這是一個能夠根據源數據(比如說用csv格式表示的矩陣,或者中文文檔)使用多種多樣的算法去得到結果的一個平臺。
算法能夠通過xml配置文件去一個一個的運行,比如在開始的時候,我們可以先運行一下主成分分析算法去做特種選擇,然后我們再運行隨機森林算法來做分類。
目前算法主要是針對那些單機能夠完成的任務,該架構良好的擴展性能夠讓你在很短的時間內完成自己想要的算法,并且用于工程之中(相信我,肯定比Weka更快更好)。該項目的另一個特色是能夠很好的支持中文文本的分類、聚類等操作。
下圖是使用PyMining主成分分析(PCA)算法將一個數千維的數據投影到2維平面的結果,也是PyMining中的一個例子,位于example/pca_matplot_example.py。原始數據為文本,每種顏色代表不同分類的文本,可以看出,雖然維度變成了2維,但是不同分類的文本投影后的結果還是有一定的區分度的。
重要:目前項目已經集成了Scipy與Matplotlib,目前PCA調用了Scipy,上面的例子調用了Matplotlib。在Ubuntu下,Scipy的安裝可以參考我的另一篇文章:Scipy在Ubuntu上的安裝,Matplotlib的可以使用sudo apt-get install python-matplotlib。對于其他平臺,只有自己去搜索配置一下,可以見項目主頁中wiki下面的installing頁面。
本文由用戶 fmms 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!