硬件強悍 算法就不再重要了嗎?
英文原文:Are algorithms (and efficiency in general) getting less important?
本文翻譯自程序員的問答社區 stackexchange.com 上的一個問題。
追求算法(特別是普遍高效的)已經不再重要?因為現在計算機硬件的成本,比起以前已經很便宜,是否意味著算法和改進算法的技能已經不那么重要了?大部分時候,只要別寫出一個死循環就行了。但當你擁有了強悍的硬件,是不是意味著爛代碼也不是什么大問題?
Pavel Zaichenkov 11 票:我特別喜歡《算法導論》一書中的一個例子,以摧枯拉朽地方法說明了算法性能的重要性。
我們來比較兩種排序算法:“插入排序”和 “歸并排序”。他們的算法復雜度分別是 O (n2)=c1n2 和 O (nlogn)=c2n lg n。一般情況下,歸并排序算法有一個更大的常數因子,所以我們假設 c1 < c 2。
為了回答你的問題,我們在一臺時髦的高速電腦 A 上跑“插入排序”算法,和一臺跑“歸并排序”算法的老土電腦 B 做對比。
我們假設:
- 輸入的問題數據量為1,000 萬個數字:n=107;
- 電腦A一秒鐘可以執行 1010 次運算指令 ( ~10GHz );
- 電腦B一秒鐘只能執行 107 次運算指令 ( ~10MHz );
- 常數系數 C1 = 2(有點夸張),C2 = 50 (比現實中稍微小了一點)
于是在以上假設下,我們得到如下結果:
牛X電腦A:
2·(107)2 次運算 1010 次運算/秒=2·104 秒
給爪機用戶:
土鱉電腦 B :
50·107lg107 次運算 107 次運算/秒≈1163 秒
給爪機用戶:
所以你看,那部慢了 1000 倍的電腦,干活速度是快的那臺的 17 倍。而且在現實中,歸并算法有更高的效率,特別是隨計算量增加的而更加明顯。我希望這個答案能回答你的問題。
然而,這還不光是算法復雜程度的問題。在今天,單單想通過提高 CPU 主頻來獲得很明顯的性能提升是不可能的。我們需要改良算法在多核 CPU 架構下的表現。而且這是個不太好對付的問題,因為隨著內核數量的增加,其他方面的開銷正在成為性能的障礙(比如內存訪問調度控制)。所以,堆硬件很難獲得 線性的性能增長。
總而言之,當下對于算法的改進和以前一樣重要,因為再多的 CPU 內核和再高的主頻都無法給你帶來和算法改進一樣的回報。
Yuval Filmus 11 票:正相反,隨著硬件越來越便宜,新的運算需求正在增加。
首先,我們現在所需要面對和處理的數據正海量增加。這就要談到“準線性算法(quasilinear time algorithms)”和大數據研究的話題。比如想想搜索引擎的算法設計 —— 它們必須要處理巨量的請求,在茫茫數據中,快速地找到,返回結果,算法的效率比以前更加重要。
其次,“機器學習(machine learning)”的勢頭正猛,這就是一個算法的世界(可能和你大學本科學的不太一樣)。這個領域充滿荊棘,但也正是新的算法誕生的地方。
再者,“分布式計算”已經變得非常重要,現在我們在 CPU 主頻提升上已經遇到了瓶頸。如今計算機性能只能通過并行計算來獲得提升,這也是算法發揮力量的地方。
最后,為了平衡 CPU/GPU 性能的突飛猛進,大量虛擬機技術被用來抵御安全漏洞的威脅,操作系統花費更多的時間和精力來處理安全威脅和警報,余下的 CPU 時間才能真正用來做正經事,這讓你的程序性能表現有所下降。特別是還有很耗費 CPU 資源的視頻壓縮/解壓縮計算,雖然計算機硬件性能與日俱增,但使用效率并沒有同樣提高。
總結一下,對于大數據處理、人工智能領域、分布式計算來說,算法的改進是不可或缺的;CPU 的運算能力在脫韁野馬一般增長的需求面前,因為各種原因沒有得到有效的利用,算法的重要性離死還遠著呢。
備注:以上外文原文來自程序員的問答社區 stackexchange.com 上的一個問題。