MongoDB數據文件內部結構
有人在 Quora 上提問:MongoDB數據文件內部的組織結構是什么樣的。隨后 10gen 的工程師 Jared Rosoff 出來做了簡短的回答。
每一個數據庫都有自己獨立的文件。如果你開啟了 directoryperdb 選項,那你每個庫的文件會單獨放在一個文件夾里。
數據庫文件在內部會被切分成單個的塊,每個塊只保存一個名字空間的數據。在 MongoDB 中,名字空間用于區分不同的存儲類別。比如每個 collection 有一個獨立的名字空間,每個索引也有自己的名字空間。
在一個塊中,會保存多條記錄,每條記錄是 BSON 格式的,記錄與記錄之間通過雙向鏈表進行連接。
索引數據也存在數據文件中,不過索引是被組織成B-Tree 結構,而不是雙向鏈表。
對每個數據庫,有一個命名空間文件,用于保存每個名字空間對應的元數據。我們通過查詢這些元數據來找到對應的名字空間的存儲塊位置。
如果你開啟了 jorunaling 日志,那么還會有一些文件存儲著你所有的操作記錄。
下面圖片摘自 10gen 工程師 Mathias Stearn 在 MongoSV2011 大會上的發言稿,手繪的數據文件結構。
1. 每個數據庫有相應的數據文件和命名空間文件
2. 數據文件從 16MB 開始,新的數據文件比上一個文件大一倍,最大為 2GB
3. 文件使用 MMAP 進行內存映射,會將所有數據文件映射到內存中,但是只是虛擬內存,只有訪問到這塊數據時才會交換到物理內存。
4. MongoDB 的數據文件映射到內存表中的位置
5. 使用 32 位機器的話,內存地址最大可以標識 4GB 內存
6. 但是在 32 位機器上,4GB 內存會有 1GB 被內核戰勝,大約0.5GB 會用于 mongod 進程的 stack 空間,只剩下大約2.5GB 可用于映射數據文件。
7. 在 64 位機器上則最多可以表示 128TB 的空間
8. 每個數據文件會被分成一個一個的數據塊,塊與塊之間用雙向鏈表連接
9. 在名字空間文件中,保存了每個名字空間的存儲信息元數據,包括其大小,塊數,第一塊位置,最后一塊位置,被刪除的塊的鏈表以及索引信息
10. 這些位置通過 DiskLoc 數據結構進行存儲,存儲了數據文件編號和塊在文件中的位置
11. 對每一個塊來說,其頭部包含了一些塊的元數據,比如自己的位置,上一個和下一個塊的位置以及塊中第一條和最后一條記錄的位置指針。剩下的部分用于存儲具體的數據,具體數據之間也是通過雙向鏈接來進行連接。
12. 下面是B-Tree 的存儲結構和工作原理