用Python做機器學習不得不收藏的重要庫

jopen 5年前發布 | 14K 次閱讀 機器學習 Theano Seaborn TensorFlow

用Python做機器學習不得不收藏的重要庫

用Python做機器學習不得不收藏的重要庫

Python 通常被應用統計技術或者數據分析人員當做工作中的首選語言。數據科學家也會用 python 作為連接自身工作與 WEB 應用程序/生產環境集成中。

Python 在機器學習領域非常出色。它具有一致的語法、更短的開發時間和靈活性,非常適合開發能夠直接插入生產系統的復雜模型和預測引擎。

Python 的一個最大的資產是其廣泛的庫。

庫是一組用給定語言編寫的程序和功能的集合。一組健壯的庫可以使開發人員更容易執行復雜的任務,而無需重寫許多代碼。

機器學習很大程度上是基于數學。具體來說就是數學優化、統計和概率。Python 庫幫助那些不具備開發人員知識的研究人員/數學家輕松地“進行機器學習”。

以下是機器學習中最常用的一些庫:

Scikit-learn   經典的 ML 算法

用Python做機器學習不得不收藏的重要庫

Scikit-learn 是最流行的 ML 庫之一,他支持很多監督學習和非監督學習算法。例如:線性回歸,邏輯回歸,決策樹,聚類 ,k-means 等。

他基于兩個 python 庫:Numpy 和 Scipy 。 他為常見的機器學習和數據挖掘提供了一組算法:聚類,回歸和分類。甚至像數據轉換,特征選擇,集成學習這樣的任務也可與通過簡短幾行代碼實現。

對于機器學習的新手來說,Scikit-learn 是一個夠用的工具,直到你自己開始實現更復雜的算法。

Tensorflow for Deep Learning 深度學習

用Python做機器學習不得不收藏的重要庫

如果你在機器學習的世界里,你可能聽過,嘗試過或者實現過某種形式的深度學習的算法。但是他們是必要的嗎?回答可能是不必要。但是完成他們后感覺很酷對嗎? 回答是:對的!酷斃了。

Tensorflow 有趣的地方在于,當你使用 python 編寫代碼,你可以編譯和運行在你的 CPU 或者 GPU 上,而且你不需要寫 c++ 或者 CUDA 的代碼,就可以運行在 GPUs 集群上。

他使用一個多層節點的系統,允許你快速的簡歷,訓練,部署具有大量數據集的人工神經網絡。這讓谷歌能夠識別照片中的物體,通過語音識別程序理解在口語中的單詞。

Theano is also for Deep Learning

用Python做機器學習不得不收藏的重要庫

Theano 是另一個用于數值計算的優秀類庫,有點類似于 Numpy。Theano 允許你高效的定義,優化和評估涉及多維數組的數學表達式。

使 Theano 與眾不同的是它利用了計算機的 GPU。這使得它能夠比單獨在 CPU 上運行時快 100 倍進行數據密集型計算。Theano 的速度使得它對于深度學習和其他復雜的計算任務特別有價值。

Theano 庫的最終發布是在去年——2017 年,版本 1.0.0 包含了許多新特性、界面更改和改進。

Pandas  數據提取與預處理

panda 是一個非常流行的庫,它提供了簡單易用且直觀的高級數據結構。

它有許多內建的方法來分組、組合數據和過濾以及執行時間序列分析。

panda 可以輕松地從 SQL 數據庫、CSV、Excel、JSON 文件等不同來源獲取數據,并對數據進行操作。圖書館有兩個主要結構:

  • Series“級數”---- 一維 。

用Python做機器學習不得不收藏的重要庫

  • Data Frames“數據幀”---- 二維。

用Python做機器學習不得不收藏的重要庫

如果想得知關于如何使用序列和數據看框架的更多細節,請查看的我的其他文章。

Matplotlib 用于數據可視化

用Python做機器學習不得不收藏的重要庫

如果你不能很好的與其他人交流,那么最好的,最復雜的機器學習就顯得沒有意義。

那么如何從這些數據中轉換出價值呢?你如何激勵你的業務分析師,告訴他們充滿“洞察力”的“故事”?

這就是 Matplotlib 發揮作用的地方。它是每個數據科學家用于創建 2D 圖形和圖形的標準 Python 庫。它是命令行簡單,這意味著它需要更多的命令來生成好看的圖形和數字,而不是使用一些高級庫。

然而,這也帶來了靈活性。有了足夠的命令,您可以使用 Matplotlib 制作任何您想要的圖形。您可以構建不同的圖表,從直方圖和散點圖到非笛卡爾坐標圖。

它支持所有操作系統上的不同 GUI 后端,還可以將圖形導出到通用矢量和圖形格式,如 PDF、SVG、JPG、PNG、BMP、GIF 等。

Seaborn 是另一個數據可視化庫

用Python做機器學習不得不收藏的重要庫

Seaborn 是一個流行的可視化庫,它建立在 Matplotlib 的基礎之上。它是一個高級庫,這意味著更容易生成某些類型的圖,包括熱圖、時間序列和小提琴圖。

最后

這是機器學習中最重要的 Python 庫的集合。如果您打算使用 Python 和數據科學,那么這些庫是值得一看的,同時也值得您熟悉。

我是否錯過了任何重要的 Python ML 庫?如果是,請務必在下面的評論中提到它。盡管我試圖介紹最有用的庫,但可能仍然沒有介紹其他一些值得研究的庫。

問題或建議嗎?我很想聽聽你的意見——請隨意留言。

來自: 雷鋒網

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!