機器學習 scikit-learn 圖譜
scikit-learn 是機器學習領域非常熱門的一個開源庫,基于Python 語言寫成。可以免費使用。
網址: http://scikit-learn.org/stable/index.html
上面有很多的教程,編程實例。而且還做了很好的總結,下面這張圖基本概括了傳統機器學習領域的大多數理論與相關算法。
我們可以看到,機器學習分為四大塊,分別是 classification (分類), clustering (聚類), regression (回歸), dimensionality reduction (降維)。
給定一個樣本特征
如果給定一組樣本特征
如果我們想用維數更低的子空間來表示原來高維的特征空間, 那么這就是降維問題。
classification & regression
無論是分類還是回歸,都是想建立一個預測模型
不同的只是在分類問題中,
clustering
聚類也是分析樣本的屬性, 有點類似classification, 不同的就是classification 在預測之前是知道
clustering 事先不知道樣本的屬性范圍,只能憑借樣本在特征空間的分布來分析樣本的屬性。這種問題一般更復雜。而常用的算法包括 k-means (K-均值), GMM (高斯混合模型) 等。
dimensionality reduction
降維是機器學習另一個重要的領域, 降維有很多重要的應用, 特征的維數過高, 會增加訓練的負擔與存儲空間, 降維就是希望去除特征的冗余, 用更加少的維數來表示特征. 降維算法最基礎的就是PCA了, 后面的很多算法都是以PCA為基礎演化而來。
來自: http://blog.csdn.net/matrix_space/article/details/50541217