2016 年十大 Python 機器學習開源項目
2016年十大Python機器學習開源項目
1、 Scikit-learn 用于數據挖掘和數據分析的簡單而有效的工具,基于NumPy,SciPy和matplotlib,開源,商業可用的BSD許可證。
Commits: 21486, Contributors: 736, Github地址: Scikit-learn
2、 Tensorflow 最初由Google機器智能研究機構的Google Brain小組的研究人員和工程師開發。 該系統旨在促進機器學習的研究,并使其快速和容易地從研究原型過渡到生產系統。
Commits: 10466, Contributors: 493, Github地址: Tensorflow
3、 Theano 允許您有效地定義,優化和評估涉及多維數組的數學表達式。
Commits: 24108, Contributors: 263, Github URL: Theano
4、 Caffe is一個深入學習的框架,速度快和模塊化。 它由伯克利視覺和學習中心(BVLC)和社區貢獻者開發。
Commits: 3801, Contributors: 215, Github URL: Caffe
5、 Gensim is 一個免費的Python庫,具有諸如可擴展的統計語義之類的特性,分析用于語義結構的純文本文檔,從語義上檢索類似的文檔。
Commits: 2702, Contributors: 145, Github URL: Gensim
6、 Pylearn2 是一個機器學習庫。 它的大部分功能是建立在Theano的基礎之上。 這意味著您可以使用數學表達式編寫Pylearn2插件(新模型,算法等),Theano將為您優化和穩定這些表達式,并將其編譯為您選擇的后端(CPU或GPU)。
Commits: 7100, Contributors: 115, Github URL: Pylearn2
7、 Statsmodels 是一個Python模塊,允許用戶探索數據,估計統計模型和執行統計測試。 描述性統計,統計測試,繪圖函數和結果統計的詳細列表可用于不同類型的數據和每個估計器。
Commits: 8664, Contributors: 108, Github URL: Statsmodels
8、 Shogun 是機器學習工具箱,提供廣泛的統一和高效的機器學習(ML)方法。 工具箱無縫地允許容易地組合多個數據表示,算法類和通用工具。
Commits: 15172 Contributors: 105, Github URL: Shogun
9、 Chainer 一個用于深度學習模型的基于Python的獨立開源框架。 Chainer提供靈活,直觀和高性能的方法來實現全范圍的深度學習模型,包括最先進的模型,如復現神經網絡和變分自動編碼器。
Commits: 6298, Contributors: 84, Github URL: Chainer
10、 NuPIC 是基于稱為分層時間存儲器(HTM)的新皮層理論的開源項目。 HTM理論的一部分已經在應用中實現,測試和使用,并且HTM理論的其他部分仍在開發中。
Commits: 6088, Contributors: 76, Github URL: NuPIC
11、 Neon 是 Nervana 的基于Python的深度學習庫。 它提供易用性,同時提供最高的性能。
Commits: 875, Contributors: 47, Github URL: Neon
12、 Nilearn 一個Python模塊,用于在NeuroImaging數據上快速輕松地進行統計學習。 它利用scikit-learn Python工具箱來處理多變量統計信息,包括預測建模,分類,解碼或連接分析。
Commits: 5254, Contributors: 46, Github URL: Nilearn
13、 Orange3 是開源機器學習和數據可視化的新手和專家。 具有大型工具箱的交互式數據分析工作流程。
Commits: 6356, Contributors: 40, Github URL: Orange3
14、 Pymc 一個實現貝葉斯統計模型和擬合算法的python模塊,包括馬爾可夫鏈蒙特卡羅。 其靈活性和可擴展性使其適用于大量問題。
Commits: 2701, Contributors: 37, Github URL: Pymc
15、 PyBrain is 一個用于Python的模塊化機器學習庫。 它的目標是為機器學習任務提供靈活,易于使用但仍然強大的算法,以及各種預定義環境,以測試和比較您的算法。
Commits: 984, Contributors: 31, Github URL: PyBrain
16、 Fuel 是一個數據管道框架,為您的機器學習模型提供他們需要的數據。 它計劃被 Blocks 和 Pylearn2 神經網絡庫使用。
Commits: 1053, Contributors: 29, Github URL: Fuel
17、 PyMVPA 是一個Python包,旨在簡化大型數據集的統計學習分析。 它提供了一個可擴展的框架,具有用于分類,回歸,特征選擇,數據導入和導出的廣泛算法的高級接口。
Commits: 9258, Contributors: 26, Github URL: PyMVPA
18、 Annoy ( Approximate Nearest Neighbors Oh Yeah)是一個C ++庫,使用Python綁定來搜索靠近給定查詢點的空間中的點。 它還創建大型只讀的基于文件的數據結構,這些數據結構被映射到內存中,以便許多進程可以共享相同的數據。
Commits: 365, Contributors: 24, Github URL: Annoy
19、 Deap 一個用于快速原型和測試思想的新型進化計算框架。 它試圖使算法顯式和數據結構透明。 它與并行機制(例如多處理和 SCOOP )完美協調。
Commits: 1854, Contributors: 21, Github URL: Deap
20、 Pattern 是Python編程語言的Web挖掘模塊。 它捆綁了數據挖掘工具(Google + 推ter +維基百科API,網絡爬蟲,HTML DOM解析器),自然語言處理(詞性標記,n元語法搜索,情感分析,WordNet),機器學習 ,k-means聚類,樸素貝葉斯+ k-NN + SVM分類器)和網絡分析(圖形中心性和可視化)。
Commits: 943, Contributors: 20 , Github URL: Pattern
來自:http://www.iteye.com/news/31945