Python性能優化的20條建議

jopen 9年前發布 | 20K 次閱讀 Python Python開發

  1. 優化算法時間復雜度

    算法的時間復雜度對程序的執行效率影響最大,在Python中可以通過選擇合適的數據結構來優化時間復雜度,如list和set查找某一個元素的時間復雜度分別是O(n)和O(1)。不同的場景有不同的優化方式,總得來說,一般有分治,分支界限,貪心,動態規劃等思想。

    </li>

  2. 減少冗余數據

    如用上三角或下三角的方式去保存一個大的對稱矩陣。在0元素占大多數的矩陣里使用稀疏矩陣表示。

    </li>

  3. 合理使用copy與deepcopy

    對于dict和list等數據結構的對象,直接賦值使用的是引用的方式。而有些情況下需要復制整個對象,這時可以使用copy包里的copy和deepcopy,這兩個函數的不同之處在于后者是遞歸復制的。效率也不一樣:(以下程序在ipython中運行)

    import copy
    a = range(100000)
    %timeit -n 10 copy.copy(a) # 運行10次 copy.copy(a)
    %timeit -n 10 copy.deepcopy(a)
    10 loops, best of 3: 1.55 ms per loop
    10 loops, best of 3: 151 ms per loop

    timeit后面的-n表示運行的次數,后兩行對應的是兩個timeit的輸出,下同。由此可見后者慢一個數量級。

    </li>

  4. 使用dict或set查找元素

    python dict和set都是使用hash表來實現(類似c++11標準庫中unordered_map),查找元素的時間復雜度是O(1)

    a = range(1000)
    s = set(a)
    d = dict((i,1) for i in a)
    %timeit -n 10000 100 in d
    %timeit -n 10000 100 in s
    10000 loops, best of 3: 43.5 ns per loop
    10000 loops, best of 3: 49.6 ns per loop

    dict的效率略高(占用的空間也多一些)。

    </li>

  5. 合理使用生成器(generator)和yield

    %timeit -n 100 a = (i for i in range(100000))
    %timeit -n 100 b = [i for i in range(100000)]
    100 loops, best of 3: 1.54 ms per loop
    100 loops, best of 3: 4.56 ms per loop

    使用()得到的是一個generator對象,所需要的內存空間與列表的大小無關,所以效率會高一些。在具體應用上,比如set(i for i in range(100000))會比set([i for i in range(100000)])快。

    但是對于需要循環遍歷的情況:

    %timeit -n 10 for x in (i for i in range(100000)): pass
    %timeit -n 10 for x in [i for i in range(100000)]: pass
    10 loops, best of 3: 6.51 ms per loop
    10 loops, best of 3: 5.54 ms per loop

    后者的效率反而更高,但是如果循環里有break,用generator的好處是顯而易見的。yield也是用于創建generator:

    def yield_func(ls):
        for i in ls:
            yield i+1

    def not_yield_func(ls): return [i+1 for i in ls]

    ls = range(1000000) %timeit -n 10 for i in yield_func(ls):pass %timeit -n 10 for i in not_yield_func(ls):pass 10 loops, best of 3: 63.8 ms per loop 10 loops, best of 3: 62.9 ms per loop</pre>

    對于內存不是非常大的list,可以直接返回一個list,但是可讀性yield更佳(人個喜好)。

    python2.x內置generator功能的有xrange函數、itertools包等。

    </li>

  6. 優化循環

    循環之外能做的事不要放在循環內,比如下面的優化可以快一倍:

    a = range(10000)
    size_a = len(a)
    %timeit -n 1000 for i in a: k = len(a)
    %timeit -n 1000 for i in a: k = size_a
    1000 loops, best of 3: 569 μs per loop
    1000 loops, best of 3: 256 μs per loop
    </li>

  7. 優化包含多個判斷表達式的順序

    對于and,應該把滿足條件少的放在前面,對于or,把滿足條件多的放在前面。如:

    a = range(2000)  
    %timeit -n 100 [i for i in a if 10 < i < 20 or 1000 < i < 2000]
    %timeit -n 100 [i for i in a if 1000 < i < 2000 or 100 < i < 20]     
    %timeit -n 100 [i for i in a if i % 2 == 0 and i > 1900]
    %timeit -n 100 [i for i in a if i > 1900 and i % 2 == 0]
    100 loops, best of 3: 287 μs per loop
    100 loops, best of 3: 214 μs per loop
    100 loops, best of 3: 128 μs per loop
    100 loops, best of 3: 56.1 μs per loop
    </li>

  8. 使用join合并迭代器中的字符串

    In [1]: %%timeit
       ...: s = ''
       ...: for i in a:
       ...:         s += i
       ...:
    10000 loops, best of 3: 59.8 μs per loop

    In [2]: %%timeit s = ''.join(a) ...: 100000 loops, best of 3: 11.8 μs per loop</pre>

    join對于累加的方式,有大約5倍的提升。

    </li>

  9. 選擇合適的格式化字符方式

    s1, s2 = 'ax', 'bx'
    %timeit -n 100000 'abc%s%s' % (s1, s2)
    %timeit -n 100000 'abc{0}{1}'.format(s1, s2)
    %timeit -n 100000 'abc' + s1 + s2
    100000 loops, best of 3: 183 ns per loop
    100000 loops, best of 3: 169 ns per loop
    100000 loops, best of 3: 103 ns per loop

    三種情況中,%的方式是最慢的,但是三者的差距并不大(都非常快)。(個人覺得%的可讀性最好)

    </li>

  10. 不借助中間變量交換兩個變量的值

    In [3]: %%timeit -n 10000
        a,b=1,2
       ....: c=a;a=b;b=c;
       ....:
    10000 loops, best of 3: 172 ns per loop

    In [4]: %%timeit -n 10000 a,b=1,2 a,b=b,a ....: 10000 loops, best of 3: 86 ns per loop</pre>

    使用a,b=b,a而不是c=a;a=b;b=c;來交換a,b的值,可以快1倍以上。

    </li>

  11. 使用if is

    a = range(10000)
    %timeit -n 100 [i for i in a if i == True]
    %timeit -n 100 [i for i in a if i is True]
    100 loops, best of 3: 531 μs per loop
    100 loops, best of 3: 362 μs per loop

    使用if is True比if == True將近快一倍。

    </li>

  12. 使用級聯比較x < y < z

    x, y, z = 1,2,3
    %timeit -n 1000000 if x < y < z:pass
    %timeit -n 1000000 if x < y and y < z:pass
    1000000 loops, best of 3: 101 ns per loop
    1000000 loops, best of 3: 121 ns per loop

    x < y < z效率略高,而且可讀性更好。

    </li>

  13. while 1比while True更快

    def while_1():
        n = 100000
        while 1:
            n -= 1
            if n <= 0: break
    def while_true():
        n = 100000
        while True:
            n -= 1
            if n <= 0: break

    m, n = 1000000, 1000000 %timeit -n 100 while_1() %timeit -n 100 while_true() 100 loops, best of 3: 3.69 ms per loop 100 loops, best of 3: 5.61 ms per loop</pre>

    while 1 比 while true快很多,原因是在python2.x中,True是一個全局變量,而非關鍵字。

    </li>

  14. 使用**而不是pow

    %timeit -n 10000 c = pow(2,20)
    %timeit -n 10000 c = 2**20
    10000 loops, best of 3: 284 ns per loop
    10000 loops, best of 3: 16.9 ns per loop

    **就是快10倍以上!

    </li>

  15. 使用 cProfile, cStringIO 和 cPickle等用c實現相同功能(分別對應profile, StringIO, pickle)的包

    import cPickle
    import pickle
    a = range(10000)
    %timeit -n 100 x = cPickle.dumps(a)
    %timeit -n 100 x = pickle.dumps(a)
    100 loops, best of 3: 1.58 ms per loop
    100 loops, best of 3: 17 ms per loop

    由c實現的包,速度快10倍以上!

    </li>

  16. 使用最佳的反序列化方式

    下面比較了eval, cPickle, json方式三種對相應字符串反序列化的效率:

    import json
    import cPickle
    a = range(10000)
    s1 = str(a)
    s2 = cPickle.dumps(a)
    s3 = json.dumps(a)
    %timeit -n 100 x = eval(s1)
    %timeit -n 100 x = cPickle.loads(s2)
    %timeit -n 100 x = json.loads(s3)
    100 loops, best of 3: 16.8 ms per loop
    100 loops, best of 3: 2.02 ms per loop
    100 loops, best of 3: 798 μs per loop

    可見json比cPickle快近3倍,比eval快20多倍。

    </li>

  17. 使用C擴展(Extension)

    目前主要有CPython(python最常見的實現的方式)原生API, ctypes,Cython,cffi三種方式,它們的作用是使得Python程序可以調用由C編譯成的動態鏈接庫,其特點分別是:

    CPython原生API: 通過引入Python.h頭文件,對應的C程序中可以直接使用Python的數據結構。實現過程相對繁瑣,但是有比較大的適用范圍。

    ctypes: 通常用于封裝(wrap)C程序,讓純Python程序調用動態鏈接庫(Windows中的dll或Unix中的so文件)中的函數。如果想要在python中使用已經有C類庫,使用ctypes是很好的選擇,有一些基準測試下,python2+ctypes是性能最好的方式。

    Cython: Cython是CPython的超集,用于簡化編寫C擴展的過程。Cython的優點是語法簡潔,可以很好地兼容numpy等包含大量C擴展的庫。Cython的使得場景一般是針對項目中某個算法或過程的優化。在某些測試中,可以有幾百倍的性能提升。

    cffi: cffi的就是ctypes在pypy(詳見下文)中的實現,同進也兼容CPython。cffi提供了在python使用C類庫的方式,可以直接在python代碼中編寫C代碼,同時支持鏈接到已有的C類庫。

    使用這些優化方式一般是針對已有項目性能瓶頸模塊的優化,可以在少量改動原有項目的情況下大幅度地提高整個程序的運行效率。

    </li>

  18. 并行編程

    因為GIL的存在,Python很難充分利用多核CPU的優勢。但是,可以通過內置的模塊multiprocessing實現下面幾種并行模式:

    多進程:對于CPU密集型的程序,可以使用multiprocessing的Process,Pool等封裝好的類,通過多進程的方式實現并行計算。但是因為進程中的通信成本比較大,對于進程之間需要大量數據交互的程序效率未必有大的提高。

    多線程:對于IO密集型的程序,multiprocessing.dummy模塊使用multiprocessing的接口封裝threading,使得多線程編程也變得非常輕松(比如可以使用Pool的map接口,簡潔高效)。

    分布式:multiprocessing中的Managers類提供了可以在不同進程之共享數據的方式,可以在此基礎上開發出分布式的程序。

    不同的業務場景可以選擇其中的一種或幾種的組合實現程序性能的優化。

    </li>

  19. 終級大殺器:PyPy

    PyPy是用RPython(CPython的子集)實現的Python,根據官網的基準測試數據,它比CPython實現的Python要快6倍以上。快的原因是使用了Just-in-Time(JIT)編譯器,即動態編譯器,與靜態編譯器(如gcc,javac等)不同,它是利用程序運行的過程的數據進行優化。由于歷史原因,目前pypy中還保留著GIL,不過正在進行的STM項目試圖將PyPy變成沒有GIL的Python。

    如果python程序中含有C擴展(非cffi的方式),JIT的優化效果會大打折扣,甚至比CPython慢(比Numpy)。所以在PyPy中最好用純Python或使用cffi擴展。

    隨著STM,Numpy等項目的完善,相信PyPy將會替代CPython。

    </li>

  20. 使用性能分析工具

    除了上面在ipython使用到的timeit模塊,還有cProfile。cProfile的使用方式也非常簡單:python -m cProfile filename.py,filename.py是要運行程序的文件名,可以在標準輸出中看到每一個函數被調用的次數和運行的時間,從而找到程序的性能瓶頸,然后可以有針對性地優化。

    </li> </ol>

    參考

    [1] http://www.ibm.com/developerworks/cn/linux/l-cn-python-optim/

    [2] http://maxburstein.com/blog/speeding-up-your-python-code/

    來自:http://segmentfault.com/a/1190000000666603

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!