對比 Ruby 和 Python 的垃圾回收

jopen 11年前發布 | 19K 次閱讀 Ruby Python

注：這篇文章基于我在布達佩斯的RuPy大會上所作的演講。我覺得與其直接將幻燈片發布出來，不如在我還有印象的時候將它寫成博客來的更有意義。同樣，我會在將來發布RuPy大會的視頻鏈接。我計劃將在RubyConf大會上發表類似的演講，除了有關于Python的部分，并且將對比 MRI，JRuby以及Rubinius的垃圾回收器是怎樣工作的。

如果想要對Ruby垃圾回收器以及內部原理有更加深入的了解，你可以在我即將出版的新書《Ruby Under a Microscope》中找到答案。

對比 Ruby 和 Python 的垃圾回收

如果算法和業務邏輯是一個人的大腦，那么垃圾回收機制是人體的哪個器官呢？

在”Ruby Python”大會上，我想對比Ruby和Python內部的垃圾回收機制是一件很有意思的事情。在開始之前，我們為什么要討論垃圾回收機制呢？畢竟這是一個最迷人的，最令人激動的主題，不是嗎？你們有多少人對垃圾回收機制感到興奮？(許多的大會參與者竟然舉起了雙手！)

最近，在Ruby社區中有一篇帖子，關于怎樣通過修改Ruby GC的設置來提高單元測試的速度。這棒極了！通過減少GC垃圾回收的處理來提高測試的速度，這是一件很好的事情，但是不怎的，GC不會真正的讓我感到興奮。就如咋一看就感覺令人厭煩，枯燥的技術帖子。

事實上，垃圾回收是一個令人著迷的主題：垃圾回收算法不僅是計算機科學歷史一個重要的部分，更是前沿研究的一個主題。例如，MRI Ruby解釋器使用的”Mark Sweep”算法已經超過了50年的歷史，與此同時，在Rubinius解釋器中使用的一種垃圾回收算法，是在Ruby中的另一種實現方式，這種算法僅僅是在2008才被研究出來。

然而，”垃圾回收”的這個名稱，是非常的不恰當的。

應用程序的心臟

垃圾回收系統要做的不僅僅是”回收垃圾”。事實上，它主要完成三個重要任務：

為新的對象分配內存
</li>
標記垃圾對象
</li>
回收垃圾對象占用的內存
</li> </ul>

想象你的應用程序是一個人的身體：所有你寫的優雅的代碼，你的商業邏輯，你的算法，將會成為你的應用程序的大腦或智能。與此類似的，你認為垃圾回收器會成為身體的哪一個部分呢？(我從大會的聽眾中得到了很多有趣的答案：腎，白細胞)

我認為垃圾回收器是一個應用的心臟。正如心臟為身體的其他部分提供血液和養料一樣，垃圾回收器提供內存和對象供程序使用。如果你的心臟停跳，你將活不了幾秒。如果垃圾回收器停止運行或者變慢，就像動脈阻塞一樣，你的程序將變的慢下來最后死掉！

一個簡單的例子

通過例子來驗證理論是一種很好的方式。這里有一個簡單的類，用Python和Ruby寫成，我們可以將它們作為一個簡單的例子：

于此同時，兩種代碼如此相似讓我感到非常吃驚：Python和Ruby在表達相同的語義時幾乎沒有差別。但是，兩種語言的內部實現方式是否相同呢？

空閑對象鏈表

在上面的代碼中，當我們調用了Node.new(1)之后，ruby將會做什么？也就是說，Ruby怎樣創建一個新的對象？

令人驚訝的是，Ruby做的事情非常少！事實上，在代碼運行之前，Ruby解釋器會提前創建成千上萬的對象放置到一個鏈表中，這個鏈表被稱為”空閑對象鏈表”(free list)。空閑對象鏈表(`free list`)在概念上看起來像下面的樣子：

每一個白色方塊可以想象成一個預創建的，沒有使用的Ruby對象。當我們調用Node.new，Ruby簡單的使用一個對象，并且將它的引用返回給我們：

在上圖中，左邊的灰色方塊代表一個活躍的Ruby對象，被我們的代碼所使用，而其余的白色方塊代碼沒有使用的對象。(注意：當然，圖中是一種簡化的實現版本。事實上，Ruby將會使用另外一個對象保存字符串”ABC”，使用第三個對象保存Node的定義，以及其他的對象保存代碼處理過的抽象語法數”AST”，等待。)

如果我們再次調用Node.new，Ruby僅僅返回另外一個對象的引用。

約翰麥卡錫在1960年在Lisp中首次實現了垃圾回收機制

這中使用預創建對象鏈表的簡單算法發明于50多年前，它的作者是傳說中的計算機科學家，約翰麥卡錫，正是他實現了最初的Lisp解釋器。Lisp不僅是第一個函數式編程語言，并且包含了計算機科學中許多突破性的進展。其中之一便是通過垃圾回收機制自動管理內存。

標準版Ruby，也就是”Matz’s Ruby Interpreter”(MRI)，使用了一種類似于約翰麥卡錫在1960年實現的Lisp的垃圾回收算法。就像Lisp一樣，Ruby會預先創建對象并且在你創建對象或值的時候返回對象的引用。

在Python中分配對象內存

從上面我們可以看出，Ruby會預先創建對象，并且保存在空閑對象鏈表(free list)中。那么Python呢？

當然Python內部也會由于各種原因使用空閑對象鏈表(它使用鏈表循環確定對象)，Python為對象和值分配內存的方式常常不同于Ruby。

假設我們創建一個Node對象使用Python：

Python不同于Ruby，當你創建對象的時候，Python會立即向操作系統申請分配內存。(Python 事實上實現了自己的內存分配系統，它在操作系統內存堆上提供了另外一層抽象，但是今天沒有事件深入探討。 )

當我們創建第二個對象時，Python將再次向操作系統申請更多的內存：

看起來相當簡單，當我們創建Python對象的時刻，將花費事件申請內存。

Ruby將沒有用的對象扔的到處都是，直到下一個垃圾回收過程

Ruby開發者生活在一個臟亂的房間

回到Ruby，由于我們分配越來越多的對象，Ruby將繼續為我們從空閑對象鏈表(free list)獲取預分配對象。因此，空閑對象鏈表將變得越來越短：

或者更短：

請注意，我將一個新的值賦給了n1，Ruby會遺留下舊的值。”ABC”, “JKL”和”MNO”等結點對象會依然保留在內存中。Ruby不會立即清理舊的對象盡管程序不再使用！作為一名Ruby開發者就像生活在一個臟亂的房間，衣服隨意的仍在地板上，廚房的水槽中堆滿了臟盤子。作為一個Ruby開發者，你必須在一大堆垃圾對象中去工作。

當你的程序不在使用任何對象的時候，Python會立刻進行清理。

Python開發者生活在一所整潔的房子

垃圾回收機制在Python和Ruby中迥然不同，讓我們回到前面三個Python中Node對象的例子：

內部的，每當我們新建一個對象，Python將在對象對應的C語言結構中保存一個數字，叫做引用技術。最初，Python將它的值設為1。

值為1表明每個對象有一個指針或引用指向它。假設我們創建一個新的對象，JKL：

正如前面所說，Python將”JKL”的引用計數設置為1。同樣注意到我們改變n1指向了”JKL”，不再引用”ABC”，同時將”ABC”的引用計數減少為0。

通過這一點，Python垃圾回收器將會立即執行！無論何時，只要一個對象的引用計數變為0，python將立即釋放這個對象，并且將它的內存返回給操作系統。

上圖中，Python將回收”ABC”對象的內存。記住，Ruby只是將舊的對象遺留在那里并且不去釋放它們占用的內存。

這種垃圾回收算法被稱為”引用計數”，由喬治柯林斯發明于1960年。非常巧合的是在同一年約翰麥卡錫大叔發明了”空閑對象鏈表算法”。正如Mike Bernstein在Ruby Conference大會上所說”1960年是屬于垃圾回收器的…”。

作為一個Python開發者，就像生活在一個整潔的房間中。你知道，你的室友有些潔癖，他會把你使用過的任何東西都清洗一遍。你把臟盤子，臟杯子一放到水槽中他就會清洗。

現在看另外一個例子，假設我們讓n2和n1指向同樣的結點：

上圖左邊可以看到，Python減少了”DEF”的引用計數并且立即回收了”DEF”對象。同時可以看到，由于n1和n2同時指了”JKL”對象，所以它的引用計數變為了2。

標記回收算法

最終臟亂的房間將堆慢垃圾，生活不能總是如此。Ruby程序在運行一段時間之后，空閑對象鏈表最終將被用盡。

上圖中所有的預分配對象都被用盡(方塊全部變成了灰色)，鏈表上沒有對象可用(沒有剩余的白色方塊)。

此時，Ruby使用了一種由約翰麥卡錫發明的被稱為”標記回收”的算法。首先，Ruby將停止程序的執行，Ruby使用了”停止這個世界，然后回收垃圾”的方式。然后，Ruby會掃描所有的指向對象和值的指針或引用。同樣，Ruby也會迭代虛擬機內部使用的指針。它會標記每一個指針所能到達的對象。在下圖中，我使用了”M”指出了這些標記：

上面三個”M”標記的對象為活躍對象，依然被我們的程序使用。在Ruby解釋器內部，通常使用”free bitmap”的數據結構來保存一個對象是否被標記：

Ruby將”free bitmap”保存在一個獨立的內存區域，以便可以更好的利用Unix的”copy-on-write”特性。更詳細的信息，請參考我的另一篇文章《為什么Ruby2.0的垃圾回收器讓我們如此興奮》。

如果活躍對象被標記了，那么其余的便是垃圾對象，意味著它們不再會被代碼使用。在下圖中，我使用白色的方塊表示垃圾對象：

接下來，Ruby將清理沒有使用的，垃圾對象，將它們鏈入空閑對象鏈表(free list)：

在解釋器內部，這個過程非常迅速，Ruby并不會真正的將對象從一個地方拷貝到另一個地方。相反的，Ruby會將垃圾對象組成一個新的鏈表，并且鏈入空閑對象鏈表(free list)。

現在，當我們要創建一個新的Ruby對象的時候，Ruby將為我們返回收集的垃圾對象。在Ruby中，對象是可以重生的，享受著多次的生命！

標記回收算法 vs. 引用計數算法

咋一看，Python的垃圾回收算法對于Ruby來說是相當讓人感到驚訝的：既然可以生活在一個整潔干凈的房間，為什么要生活在一個臟亂的房間呢？為什么Ruby周期性的強制停止程序的運行去清理垃圾，而不使用Python的算法呢？

然而，引用計數實現起來不會像它看起來那樣簡單。這里有一些許多語言不愿像Python一樣使用引用計數算法的原因：
- 首先，實現起來很困難。Python必須為每一個對象留有一定的空間來保存引用計數。這會導致一些細微的內存開銷。但更遭的是，一個簡答的操作例如改變一個變量或引用將導致復雜的操作，由于Python需要增加一個對象的計數，減少另一個對象的計數，有可能釋放一個對象。
  </li>
- 其次，它會減慢速度。盡管Python在程序運行過程中垃圾回收的過程非常順暢(當你把臟盤子放到水槽后，它立馬清洗干凈)，但是運行的并不十分迅速。Python總是在更新引用計數。并且當你停止使用一個巨大的數據結構時，例如一個包含了大量元素的序列，Python必須一次釋放許多對象。減少引用計數可能是一個復雜的，遞歸的過程。
  </li>
- 最后，它并不總是工作的很好。在我演講的下一部分，也就是下一篇帖子中能看到，引用計數不能處理循環引用數據結構，它包含循環引用。
  </li> </ul>
  
  下一次…
  
  下周我將發布演講的其他部分。我將討論Python怎樣處理循環引用數據結構，以及在即將到來的Ruby2.1中，垃圾回收器是怎樣工作的。
  原文鏈接： Pat Shaughnessy 翻譯：伯樂在線 - geekerzp
  譯文鏈接： http://blog.jobbole.com/60900/
  
  本文由用戶 jopen 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。
  
  轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。
  
  本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！
  
  本文地址：http://www.baiduhome.net/news/view/2c821d
  
  Ruby Python

相關資訊

相關經驗

相關文檔