OpenJDK 和 HashMap,大量數據處理時，避免垃圾回收延遲的技巧（off-heap)

jopen 11年前發布 | 61K 次閱讀 OpenJDK Java開發

從Java 6開始，要求標準化非堆存儲（off-heap）作為Java內部API的提議就已經在JDK強化提案（JEP）中被提出。這種方式的處理能力和堆存儲（on-heap）一樣高效，并且沒有堆存儲使用中的一些局限問題。堆存儲在百萬數量級瞬時使用的對象/值下工作的相當好，但是一旦你試圖存儲十億數量級的對象/值時，你就要想辦法去避免垃圾回收帶來的持續增加的延遲。并且有時系統會要求同時保證大量數據處理和低延遲。非堆存儲就是有這樣一種能力：獨立管理內存空間而不產生垃圾回收壓力。Java中管理集合的兩個類”Queue“和"HashMap"使用起來相當方便，如果使用這兩個已有接口再加上我們自己的垃圾回收機制實現起來應該不是很難。這樣既能實現大量數據存儲并且能大大減少延遲，相比而言，原有的堆存儲方式很容易產生內存不足錯誤，隨之就要重啟服務了。

這篇文章將會研究 JEP所帶來的影響，將使得我們獲悉類似于Java HashMap和新的off-heap的性能。簡言之，JEP可能就有“指導”HashMap這個可愛的老家伙的一些新特性的魔法。 JEP所述的特性，在OpenJDK的發布來看，相對于傳統的Java平臺優先級做了許多重大的改變。

1、關于安全性的重構，這一sun.misc.Unsafe上的有用的部分，被放入了新的API包。
2、提倡使用新的API包，直接影響高性能的本地內存操作（在off-heap上的本地內存操作對象上）。
3、（通過新的API）提供一個外部函數接口(FFI)橋針對Java直接操作系統資源和系統調用。
4、許可了Java運行時能輔助硬件事務性內存（Hardware Transactional Memory）的提供者能把焦點集中在重寫低并發字節碼到高并發的 speculatively branched機器碼。
5、移除了FUD（坦率的講這是一種技術偏見），這與使用off-heap編程策略來提升Java的執行性能有關。總的來講，JEP有幾點是很清楚的，在OpenJDK平臺上，相對于曾經的 dark craft, secret society of off-heap practitioners，現在的主流對開放是擁抱的。

本文力求（用普遍而溫和的方式）讓所有對此感興趣的 Java 開發者都能有所收獲。作者希望即使新手也能跟上本文節奏，而不會有看不懂的“磕磕絆絆”；因此不要氣餒，耐心坐下來讀完吧。本文努力介紹一些歷史背景，為以下問題提供思路：

堆存儲 HashMap 的問題是怎么產生的?
</li>
在解決這個問題上面，有過哪些經驗/教訓？
</li>
在堆存儲 HashMap 的應用情景中，有哪些仍未解決的問題？
</li>
新的 JEP 提供的功能（將 HashMap 非堆存儲）能帶來哪些好處？
</li>

未來的 JEP 在解決現在尚未解決的問題上面，有哪些值得期待之處？

</li> </ul>

那就讓我們一起開始這段旅程吧。值得記住的是，在 Java 出現之前，hash 表是實現在原生內存堆中的，如C 和 C++ 都是如此。某種意義上來說，重新引入非堆存儲是重新介紹一些古老的技巧，這些技巧當代的開發者往往不曾了解。各種意義上來說，這都是一次“回到未來”的旅程。旅途愉快！

OpenJDK的非堆存儲（Off-Heap）的強化提案（JEP）

已經有一些非堆存儲（Off-Heap）的強化提案（JEP）被提出來。下面描繪了一個提供非堆存儲（Off-Heap）內存的最低要求。方案試圖替代現在sun.misc.Unsafe所提供的內容，不僅如此，這些方案還提供了另外一些有用的功能。
提案總結：總的來說就是為sun.misc.Unsafe創建了一個替代的部分，這樣就可以不用直接使用那個庫。
直接目標：移除需要直接訪問的內部類。
間接目標：不提供那些不推薦的方法，也不實現那些不安全（Unsafe）的方法。
成功標準：提供一種方式去實現那些重要的功能，并且達到與那些不安全（Unsafe）和 FileDispatcherImpl的方式一樣的性能。
提案動機：當前不安全（Unsafe）的方式就意味著就需要構建更大的，線程上更安全的非堆存儲（Off-Heap）結構。這對于最小化垃圾處理器（GC）的開銷有益。這對于在進程和內嵌數據庫之間的內存共享可以不用C語言和JNI，這也就有可能提供更快更多的移動計算性能。當前的FileDispatcherImpl方式用于實現任意大小內存的映射。（標準API被限制在2GB以內。）

描述：為非堆存儲（off-heap）提供一個包裝類(類似于 ByteBuffer) ，還需要下面的增強。

64位的大小和偏移量
</li>
對于易失（volatile）的和有序的訪問以及比較和交換的操作上有線程安全的結構。
</li>
JVM優化邊界檢查，開發者控制邊界檢查。（允許提供安全性設置）
</li>
有能力在同一緩沖區的不同記錄復用一份緩沖。
</li>

有能力去映射一個非堆存儲（off-heap）數據結構，讓緩沖區在優化過的方式下進行邊界檢查。

</li> </ul>

保留關鍵功能

支持內存映射文件
</li>
支持NIO
</li>

支持把寫操作提交到磁盤

</li> </ul>

候選方案：直接使用sun.misc.Unsafe
測試：sun.misc.Unsafe和內存映射文件有同樣的測試需求。附加的測試應該工作在同樣的方式下，要求展示的線程安全的操作為AtomicXxxx類。AtomicXxxx類應該被重寫并且單獨使用公共的API。

風險: 當一群開發者使用了Unsafe之后，他們可能一致認為沒有更適合的替代品。這意味著JEP的范圍很廣，或者創建了新的JEP覆蓋了Unsafe中的其他功能。

其他JDK : NIO

兼容性: 提供了向后兼容的庫。它兼容java7，如果你有足夠的興趣去研究的話，也有可能兼容java6。（截止到這篇文章，Java 7是當前的版本）。

安全性: 在理想情況下，安全的風險性不能超過ByteBuffer太多。

性能和可擴展性: 優化邊界檢查是困難的。為了添加更多的普通操作，則需要把功能添加到新的緩沖區，以減少開銷，例如讀寫UTF。

HashMap簡史

“Hash Code”這個概念第一次出現是在1953年1月的《Computing literature》中，H. P. Luhn (1896-1964) 在一篇 IBM 的內部備忘錄中提出了這個術語。當時 Luhn 是要解決這個問題：“給出組成一本教科書的一系列單詞，要得出 100% 完整的（單詞，出現頁碼集）對應關系，最好的算法和數據結構是什么？”

OpenJDK 和 HashMap,大量數據處理時，避免垃圾回收延遲的技巧（off-heap)

H.P. Luhn (1896-1964)

</td>

Luhn 寫道， “hashcode” 是基本的運算符。

Luhn 寫道， “Associative Array” 是基本的運算數。

由此， ‘HashMap’ (也稱為 HashTable) 就這樣產生了。

注: HashMap 是由 1896 年出生的計算機科學家提出來的。HashMap 可是個老家伙啦!

</td> </tr> </tbody> </table>

從 HashMap 的誕生講到它的早期應用場景，我們從1950年代跳到1970年代

Niklaus Wirth 在他1976年編寫的經典著作《算法 + 數據結構 = 程序》中，談到對于所有的程序，都可以將“算法”視為基本的運算符，將“數據結構”視為基本的運算“數”。

從那時起，數據結構(HashMap，Heap等)發展緩慢。1987年有一個重大突破， Tarjan 提出了非常著名的 F-Heap ；但除此之外，乏善可陳。要知道，HashMap 是1953年第一次提出的，已經過去60余年啦！

與此同時，算法方面 (Karmakar 1984, NegaMax 1989, AKS Primality 2002, Map-Reduce 2006, Grover’s Quantum search - 2011) 則進展迅速，為計算的基礎建設帶來了嶄新的、強大的運算符。

然而，現在到了2014，也許又輪到數據結構來取得重大進展了。從 OpenJDK 平臺來看，非堆 HashMap 就是一個正在發展的數據結構。

HashMap 的歷史就介紹到這。下面我們來探索今天的 HashMap 吧。具體來說，我們先來看一看這個老家伙在 Java 中現存的 3 種實現。

</td>

OpenJDK 和 HashMap,大量數據處理時，避免垃圾回收延遲的技巧（off-heap)

N. Wirth 1934-

</td> </tr> </tbody> </table>

java.util.HashMap (非線程安全)

對于任何真正的多線程并發用例，它會立即失敗，而且是每次都會失敗。所有用到它的代碼必須使用 Java 內存模型(JMM)的內存屏障(memory barrier)策略(如 synchronized 或 volatile) 來保證順序執行。

</td>

一個簡單的失敗樣例如下：

- synchronized 的寫入

- 沒加 synchronized 的讀取

- 真正并發 (2 個 CPU/L1)

我們來看看為什么會失敗...

</td> </tr> </tbody> </table>

假設線程1寫入 HashMap，那么它做出的改動只會保存在 CPU 1的1級緩存中。然后線程2，在幾秒鐘后開始在 CPU 2上運行；它讀取 HashMap，是從 CPU 2的1級緩存中讀出來的——它看不到線程1做出的改動，因為在讀和寫的線程中都沒有讀、寫間的內存屏障，雖然 Java 內存模型要求線程共享 HashMap 的情形下必須要有。即使線程1的寫操作加了 synchronize 也會失敗，這樣雖然能把它做出的改動寫入到主內存中，但線程2仍然看不到這些改動，因為線程2只會從 CPU 2的1級緩存中讀取。所以在寫操作上加 synchronized 只能避免寫操作的沖突。要對于所有的線程都添加必要的內存屏障，你必須也要 synchronize 讀操作。

thrSafeHM = Collections.synchronizedMap(hm) ; （粗粒度鎖定）

使用“同步”時實現高性能要求低競爭率。這是很常見的，而且在很多情況下這并不像聽起來那么壞。然而，一旦你引入任何競爭（多個線程試圖同時操作同一集合），性能就會受到影響。在最壞的情況下，如具有很高的鎖爭用，你可能會得到多個線程比單個線程（操作沒有鎖定或任何種類的爭奪）的性能表現更差的結論。

Collections.synchronizedMap() 返回一個 MT-Safe HashMap.

這是一個通過粗粒度的鎖來實現所有關鍵部分的mutate()和access()操作，這樣可以讓多個線程操作整個Map。這個結果在Zero MT-concurrency中，意味著一個時刻僅有一個線程可以訪問。另一個后果就是作為高鎖爭用（High Lock Contention）的粗粒度鎖，鎖住的途徑是一種非常不受歡迎的已知條件。關于高鎖爭用（High Lock Contention）（請看在左邊的圖片，N個線程爭用一個鎖，但是迫于阻塞只好等待著，鎖已經給了正在運行的線程）。

幸好這是完全同步的，不會真正的同步，隔離（isolation）=序列化（SERIALIZABLE）（總體上這是令人失望的）HashMap陷阱，我們期待的OpenJDK非堆存儲（off-heap）JEP已經有一個值得推薦的期待：硬件事務性內存（Hardware Transactional Memory (HTM)）。關于HTM，粗粒度的同步寫操作在Java中將會再一次變得很酷！就讓HTM通過代碼上的零并發和在硬件的零并發來幫助我們，實現真正的并發并且100%的多線程安全。這很酷，對吧？

java.util.concurrent.ConcurrentHashMap (線程安全、智能鎖，但并非完美)

在jdk1.5的核心API中，終于發布了java程序員夢寐以求的java.util.concurrent.ConcurrentHashMap。雖然ConcurrentHashMap不能廣泛替代HashMap（ConcurrentHashMap消耗更多的資源，在低競爭條件下可能不太適合。），但是它解決了其它類型的HashMap解決不了的問題：提供既有真正的多線程安全，又有真正的多線程并發的能力。讓我們畫一幅畫來準確地描述ConcurrentHashMap為什么（原文是how）這么有用的（有效，有作用，不知道怎么翻譯好了。原文：helpful）。

1.分離鎖

2.每個獨立的HashMap子集對應一個鎖：N個hash桶（子集）對應N段(Segments)鎖。（在圖片右邊，段(Segments) = 3

3.在設計出將一個高競爭的鎖分解成多個不影響數據完整性的鎖時，分離鎖是非常有用的。

4.更好的并發，在處理"先檢查判斷狀態，再操作"（"check-then-act"）的競態條件問題時，concurrentHashMap是一個不需要同步的解決方案。

5.問題：你如何同時保護整個集合(collections)? 獲取所有的鎖(遞歸地)?

現在你可能要問了：隨著ConcurrentHashMap和java.util.concurrent包的發布，java是一個高性能計算社區（High Performance Computing community）能夠在上面創建解決方案來解決他們問題的終極編程平臺嗎？

不幸的是，很現實的一個回答還是“還沒呢”。真的，那么還存在著什么問題呢？

ConcurrentHashMap存在著規模問題和保存中間態對象（medium-lived objects）問題。如果你有一小部分使用concurrentHashMap的關鍵的集合對象，很可能有些會很大。在某些情況下，在這些集合中存在著大量的中間態對象(medium-lived objects)。這些中間態對象(medium-lived objects)貢獻了大部分的GC次數（時間,GC pause times），他們的消耗有可能是短暫對象（short-lived objects）的20倍。長時間存活對象(Long-lived objects)往往停留在終身區(tenured space)，短暫對象(short-lived objects)在young區死亡，但是中間態對象(medium-lived objects)會復制到所有的存活空間，并在終身區(trenured space)死亡，中間態對象(medium-lived objects)到處拷貝并在最后被清理產生的消耗十分巨大。最理想的是你能有一個沒有GC影響的儲存數據的集合。

/******注****/

翻譯中的medium-lived objects, short-lived objects,Long-lived objects,tenured space,young space

這類詞，對應的是java GC中的詞語，對應的中文翻譯是啥我記不住了，請編輯或其他朋友修正。

/**********/

ConcurrentHashMap元素在運行時存在Java VM堆里。因為CHM是堆存儲，它對于 Stop-the-World (STW) 有著顯著的貢獻，即使不是最顯著的。當STW的GC事件發生，所有應用程序的處理都要忍受著臭名昭著的“緊急暫停”的延時。這種延時，是由CHM（以及它的所有元素）放在堆存儲中引起的，是一個慘痛的經歷。這是一個經驗也是一個高性能計算所不能忍受的問題。

在高性能計算組織完全接受Java之前，必須要有個解決方案來馴服這個堆存儲的GC怪獸。

解決方案從精神層面上講非常簡單：就是把CHM放到非堆存儲中。

而這個解決方案，OpenJDK的非堆存儲JEP當然是支持的。

在我們深入展示非堆存儲如何跟HashMap相似之前，我們先完整地了解堆存儲的不友好的細節。

堆簡史

Java的堆存儲是由操作系統分配給JVM的。所有的Java對象都通過堆存儲JVM位置/標識來引用。你在堆存儲上運行一個對象必定會引用兩個堆區域其中之一。這些區域更確切來說為一代。明確來分為：(1)年輕代 (由EDEN和兩個SURVIVOR子空間組成) 和 (2) 年老代。 （注：Oracle日前宣布，持久代在JDK7中開始逐步淘汰，而在JDK8將會完全被淘汰）。所有的代都遭受了可怕的“全部停止(Stop-the-World)”完全垃圾回收事件，除非你使用“少量暫停”回收機制例如Azul的Zing.

在垃圾回收的世界里，操作是由“回收機制”執行的，這些回收器的操作對象是堆的“代”（以及子空間）的目標。回收器在堆棧/空間目標中進行操作。完整的垃圾回收是如何工作的內部細節是它自己本身一個（非常大的）主題，有專門的文章會提到。

現在知道一點：如果任何回收器(任何類型的)操作任何一代的堆空間都會造成“停止一切(Stop The World)”的事件——這是一個非常嚴重的問題。

這是一個問題必須得有個解決方案。

這是一個問題只有非堆存儲JEP可以解決。

讓我們仔細看看。

Java堆布局: 查看它的歷代

OpenJDK 和 HashMap,大量數據處理時，避免垃圾回收延遲的技巧（off-heap)

垃圾回收使得編程變得更加容易，但是在SLA目標的世界里，無論是書面的還是暗示的（我的Java Applet暫停30秒不是一種選擇），停止一切(Stop-The-World)時間暫停對于許多Java開發人員來說是一個很頭疼的問題，擺在他們面前的只有性能問題。順便提一下，還有許多其他性能問題需要處理，只有在STW不再是問題的時候。

使用off-heap存儲的好處，就是中等壽命對象的數量可以大幅度下降。它甚至也可以降低短壽命對象的數量。對于高頻交易系統，它一天可以創建的垃圾比你的Eden空間大小還要小，這意味著你可以運行一整天而不需要一個簡單的回收。一旦你有非常低的內存壓力，以及部分對象已經到達年老代(tenured)空間，調整你的GC就會變得很瑣碎。通常你甚至不需要設置GC的參數（除非希望增加eden區的大小）。

通過移動對象到非堆存儲，Java應用程序往往能夠收回監管控制自己的命運，滿足SLA性能的期望和義務。

等一下，剛剛最后一句說啥來著？

注意：所有乘客，請收起你的托盤并坐直來。OpenJDK非堆存儲JEP的中央租戶是一個非常值得重復的事情。

移動回收(如HashMap)到非堆存儲，Java應用程序經常能夠請求他們的回收（不再依賴于STW的GC機制中的“緊急暫停”事件）去控制他們自身的命運，滿足SLA性能的期望和義務。

這是一個很實用的選擇，在Java的高頻率交易系統中已經在使用。

這個選擇也徹底需要Java保持著對高性能計算越來越多的吸引力。

堆存儲的優勢

常見的，寫普通的Java代碼。所有有經驗的Java開發人員都可以做到。
</li>
訪問內存的安全性問題。
</li>
自動的GC服務——無需自身管理的malloc()/free()操作。
</li>
完整的 Java Lock API和JMM相結合。
</li>
添加無序列化/復制數據到一個結構中去。
</li> </ol>

非堆存儲的優勢
1. 控制"停止一切(Stop the World)"的GC事件到你比較滿意的層次。
  </li>
2. 可以超越在規模上的堆存儲結構（當使用堆存儲的時候會變得很高）
  </li>
3. 可以作為一個本地的IPC傳輸（無需java.net.Socket的IP回送）
  </li>
4. 分配器的注意事項：
  </li> </ol>