數據科學之5個最佳Python庫,為初學者定制的教程
如果你已經決定把Python作為你的編程語言,那么,你腦海中的下一個問題會是:“進行數據分析有哪些Python庫可用?”
Python有很多庫可用來進行數據分析。但不必擔心,你不需要學習所有那些可用庫。你只須了解5個Python庫,就可以完成絕大多數數據分析任務。下面逐一簡單介紹這5個庫,并提供你一些最好的教程來學習它們。
1.Numpy
對于科學計算,它是Python創建的所有更高層工具的基礎。以下是它提供的一些功能:
1. N維數組,一種快速、高效使用內存的多維數組,它提供矢量化數學運算 。</div>
2. 你可以不需要使用循環,就對整個數組內的數據行標準數學運算。</div>
3. 非常便于傳送數據到用低級語言(如C或C++)編寫的外部庫,也便于外部庫以Numpy數組形式返回數據。</div>
NumPy不提供高級數據分析功能,但有了對NumPy數組和面向數組的計算的理解,能幫助你更有效地使用像Pandas之類的工具。
教程:
1. Scipy.org提供了Numpy庫的簡要說</div>
http://scipy.org/
2. 這個教程棒極了,完全注重于Numpy的可用性</div>
2.Scipy
Scipy庫依賴于NumPy,它提供便捷和快速的N維向量數組操作。SciPy庫的建立就是和NumPy數組一起工作,并提供許多對用戶友好的和有效的數值例程,如:數值積分和優化。SciPy提供模塊用于優化、線性代數、積分以及其它數據科學中的通用任務。
教程:
我找不到比Scipy.org更好的教程了,它學習Scipy的最佳教程
3.Pandas
Pandas包含高級數據結構,以及和讓數據分析變得快速、簡單的工具。它建立在NumPy之上,使以NumPy為中心的應用變得簡單。
1. 帶有坐標軸的數據結構,支持自動或明確的數據對齊。這能防止由于數據沒有對齊,以及處理不同來源的、采用不同索引的數據而產生的常見錯誤。</div>
2. 使用Pandas更容易處理缺失數據。</div>
3. 合并流行數據庫(如:基于SQL的數據庫)中能找到 的關系操作。</div>
Pandas是進行數據清洗/整理(data munging)的最好工具。
教程:
1. Pandas快速入門</div>
2. Alfred Essa有一系列關于Pandas的視頻,這些視頻應該會讓你很好地了解基本概念。</div>
http://alfredessa.com/data-analysis-tutorial/2-pandas-library/
3. 還有,不可錯過Shane Neeley提供的教程視頻,它全面介紹了Numpy, Scipy和Matplotlib</div>
Matplotlib
Matlplotlib
是Python的一個可視化模塊。它讓你方便地制作線條圖、餅圖、柱狀圖以及其它專業圖形。使用Matplotlib,你可以定制所做圖表的任一方面。在
IPython中使用時,Matplotlib有一些互動功能,如:縮放和平移。它支持所有的操作系統下不同的GUI后端(back
ends),并且可以將圖形輸出為常見地矢量圖和圖形格式,如:PDF、SVG、JPG、PNG、BMP和GIF等。
教程:
1. ShowMeDo網站上有一個關于很好地教程</div>
2. 推薦這本書Packt出版社的操作寶典,對于初學者來說,這本書真是極棒的~</div>
5.Scikit-learn
Scikit-learn是一個用于機器學習的Python模塊。它建立在Scipy之上,提供了一套常用機器學習算法,讓使用者通過一個統一的接口來使用。Scikit-learn有助于你迅速地在你的數據集上實現流行的算法。
看一下Scikit-learn中提供的算法列表,你就會馬上意識到它包含了許多用于標準機器學習任務的工具,如:聚類、分類和回歸等。
教程:
1. Scikit-learn入門</div>
2. 來自于Scikit-learn.org的教程</div>
結束語
還有其它一些庫,如:用于自然語言處理的Nltk,用于網站數據抓取的Scrappy ,用于網絡挖掘的Pattern ,用于深度學習的Theano等。
但是,如果你正開始學習Python,我建議你首先熟悉這5個庫。
我說過,這些教程都非常適合初學者。不過,在學習這些教程前,先要熟悉Python語言的基本編程知識。
來自:http://bi.dataguru.cn/article-6903-1.html
本文由用戶 ngww 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!