Redis 集群規范

jopen 12年前發布 | 15K 次閱讀 Redis NoSQL數據庫

本文檔翻譯自 http://redis.io/topics/cluster-spec 。

引言

這個文檔是正在開發中的 Redis 集群功能的規范（specification）文檔，文檔分為兩個部分：

第一部分介紹目前已經在 unstable 分支中實現了的那些功能。

第二部分介紹目前仍未實現的那些功能。

文檔各個部分的內容可能會隨著集群功能的設計修改而發生改變，其中，未實現功能發生修改的幾率比已實現功能發生修改的幾率要高。

這個規范包含了編寫客戶端庫（client library）所需的全部知識，不過請注意，這里列出的一部分細節可能會在未來發生變化。

什么是 Redis 集群？

Redis 集群是一個分布式（distributed）、容錯（fault-tolerant）的 Redis 實現，集群可以使用的功能是普通單機 Redis 所能使用的功能的一個子集（subset）。

Redis 集群中不存在中心（central）節點或者代理（proxy）節點，集群的其中一個主要設計目標是達到線性可擴展性（linear scalability）。

Redis 集群為了保證一致性（consistency）而犧牲了一部分容錯性：系統會在保證對網絡斷線（net split）和節點失效（node failure）具有有限（limited）抵抗力的前提下，盡可能地保持數據的一致性。

集群將節點失效視為網絡斷線的其中一種特殊情況。

</div>

集群的容錯功能是通過使用主節點（master）和從節點（slave）兩種角色（role）的節點（node）來實現的：

主節點和從節點使用完全相同的服務器實現，它們的功能（functionally）也完全一樣，但從節點通常僅用于替換失效的主節點。

不過，如果不需要保證“先寫入，后讀取”操作的一致性（read-after-write consistency），那么可以使用從節點來執行只讀查詢。

Redis 集群實現的功能子集

Redis 集群實現了單機 Redis 中，所有處理單個數據庫鍵的命令。

針對多個數據庫鍵的復雜計算操作，比如集合的并集操作、合集操作沒有被實現，那些理論上需要使用多個節點的多個數據庫鍵才能完成的命令也沒有被實現。

在將來，用戶也許可以通過 MIGRATE COPY 命令，在集群的計算節點（computation node）中執行針對多個數據庫鍵的只讀操作，但集群本身不會去實現那些需要將多個數據庫鍵在多個節點中移來移去的復雜多鍵命令。

Redis 集群不像單機 Redis 那樣支持多數據庫功能，集群只使用默認的 0 號數據庫，并且不能使用 SELECT 命令。

</div>

Redis 集群協議中的客戶端和服務器

Redis 集群中的節點有以下責任：

持有鍵值對數據。

記錄集群的狀態，包括鍵到正確節點的映射（mapping keys to right nodes）。

自動發現其他節點，識別工作不正常的節點，并在有需要時，在從節點中選舉出新的主節點。

為了執行以上列出的任務，集群中的每個節點都與其他節點建立起了“集群連接（cluster bus）”，該連接是一個 TCP 連接，使用二進制協議進行通訊。

節點之間使用 Gossip 協議來進行以下工作：

傳播（propagate）關于集群的信息，以此來發現新的節點。

向其他節點發送 PING 數據包，以此來檢查目標節點是否正常運作。

在特定事件發生時，發送集群信息。

除此之外，集群連接還用于在集群中發布或訂閱信息。

因為集群節點不能代理（proxy）命令請求，所以客戶端應該在節點返回 -MOVED 或者 -ASK 轉向（redirection）錯誤時，自行將命令請求轉發至其他節點。

因為客戶端可以自由地向集群中的任何一個節點發送命令請求，并可以在有需要時，根據轉向錯誤所提供的信息，將命令轉發至正確的節點，所以在理論上來說，客戶端是無須保存集群狀態信息的。

不過，如果客戶端可以將鍵和節點之間的映射信息保存起來，可以有效地減少可能出現的轉向次數，籍此提升命令執行的效率。

鍵分布模型

Redis 集群的鍵空間被分割為 16384 個槽（slot），集群的最大節點數量也是 16384 個。

推薦的最大節點數量為 1000 個左右。

</div>

每個主節點都負責處理 16384 個哈希槽的其中一部分。

當我們說一個集群處于“穩定”（stable）狀態時，指的是集群沒有在執行重配置（reconfiguration）操作，每個哈希槽都只由一個節點進行處理。

重配置指的是將某個/某些槽從一個節點移動到另一個節點。

</div>

一個主節點可以有任意多個從節點，這些從節點用于在主節點發生網絡斷線或者節點失效時，對主節點進行替換。

</div>

以下是負責將鍵映射到槽的算法：

HASH_SLOT = CRC16(key) mod 16384

以下是該算法所使用的參數：

算法的名稱: XMODEM (又稱 ZMODEM 或者 CRC-16/ACORN)

結果的長度: 16 位

多項數（poly）: 1021 (也即是 x16 + x12 + x5 + 1)

初始化值: 0000

反射輸入字節（Reflect Input byte）: False

發射輸出 CRC （Reflect Output CRC）: False

用于 CRC 輸出值的異或常量（Xor constant to output CRC）: 0000

該算法對于輸入 "123456789" 的輸出: 31C3

附錄 A 中給出了集群所使用的 CRC16 算法的實現。

CRC16 算法所產生的 16 位輸出中的 14 位會被用到。

在我們的測試中， CRC16 算法可以很好地將各種不同類型的鍵平穩地分布到 16384 個槽里面。

集群節點屬性

每個節點在集群中都有一個獨一無二的 ID ，該 ID 是一個十六進制表示的 160 位隨機數，在節點第一次啟動時由 /dev/urandom 生成。

節點會將它的 ID 保存到配置文件，只要這個配置文件不被刪除，節點就會一直沿用這個 ID 。

節點 ID 用于標識集群中的每個節點。一個節點可以改變它的 IP 和端口號，而不改變節點 ID 。集群可以自動識別出 IP/端口號的變化，并將這一信息通過 Gossip 協議廣播給其他節點知道。

以下是每個節點都有的關聯信息，并且節點會將這些信息發送給其他節點：

節點所使用的 IP 地址和 TCP 端口號。

節點的標志（flags）。

節點負責處理的哈希槽。

節點最近一次使用集群連接發送 PING 數據包（packet）的時間。

節點最近一次在回復中接收到 PONG 數據包的時間。

集群將該節點標記為下線的時間。

該節點的從節點數量。

如果該節點是從節點的話，那么它會記錄主節點的節點 ID 。如果這是一個主節點的話，那么主節點 ID 這一欄的值為 0000000 。

以上信息的其中一部分可以通過向集群中的任意節點（主節點或者從節點都可以）發送 CLUSTER NODES 命令來獲得。

以下是一個向集群中的主節點發送 CLUSTER NODES 命令的例子，該集群由三個節點組成：

$ redis-cli cluster nodes
d1861060fe6a534d42d8a19aeb36600e18785e04 :0 myself - 0 1318428930 connected 0-1364
3886e65cc906bfd9b1f7e7bde468726a052d1dae 127.0.0.1:6380 master - 1318428930 1318428931 connected 1365-2729
d289c575dcbc4bdd2931585fd4339089e461a27d 127.0.0.1:6381 master - 1318428931 1318428931 connected 2730-4095

在上面列出的三行信息中，從左到右的各個域分別是：節點 ID ， IP 地址和端口號，標志（flag），最后發送 PING 的時間，最后接收 PONG 的時間，連接狀態，節點負責處理的槽。

節點握手（已實現）

節點總是應答（accept）來自集群連接端口的連接請求，并對接收到的 PING 數據包進行回復，即使這個 PING 數據包來自不可信的節點。

然而，除了 PING 之外，節點會拒絕其他所有并非來自集群節點的數據包。

要讓一個節點承認另一個節點同屬于一個集群，只有以下兩種方法：

一個節點可以通過向另一個節點發送 MEET 信息，來強制讓接收信息的節點承認發送信息的節點為集群中的一份子。一個節點僅在管理員顯式地向它發送 CLUSTER MEET ip port 命令時，才會向另一個節點發送 MEET 信息。

另外，如果一個可信節點向另一個節點傳播第三者節點的信息，那么接收信息的那個節點也會將第三者節點識別為集群中的一份子。也即是說，如果 A 認識 B ， B 認識 C ，并且 B 向 A 傳播關于 C 的信息，那么 A 也會將 C 識別為集群中的一份子，并嘗試連接 C 。

這意味著如果我們將一個/一些新節點添加到一個集群中，那么這個/這些新節點最終會和集群中已有的其他所有節點連接起來。

這說明只要管理員使用 CLUSTER MEET 命令顯式地指定了可信關系，集群就可以自動發現其他節點。

這種節點識別機制通過防止不同的 Redis 集群因為 IP 地址變更或者其他網絡事件的發生而產生意料之外的聯合（mix），從而使得集群更具健壯性。

當節點的網絡連接斷開時，它會主動連接其他已知的節點。

MOVED 轉向

一個 Redis 客戶端可以向集群中的任意節點（包括從節點）發送命令請求。節點會對命令請求進行分析，如果該命令是集群可以執行的命令，那么節點會查找這個命令所要處理的鍵所在的槽。

如果要查找的哈希槽正好就由接收到命令的節點負責處理，那么節點就直接執行這個命令。

另一方面，如果所查找的槽不是由該節點處理的話，節點將查看自身內部所保存的哈希槽到節點 ID 的映射記錄，并向客戶端回復一個 MOVED 錯誤。

以下是一個 MOVED 錯誤的例子：

GET x

-MOVED 3999 127.0.0.1:6381</pre> </div>

錯誤信息包含鍵 x 所屬的哈希槽 3999 ，以及負責處理這個槽的節點的 IP 和端口號 127.0.0.1:6381 。客戶端需要根據這個 IP 和端口號，向所屬的節點重新發送一次 GET 命令請求。

注意，即使客戶端在重新發送 GET 命令之前，等待了非常久的時間，以至于集群又再次更改了配置，使得節點 127.0.0.1:6381 已經不再處理槽 3999 ，那么當客戶端向節點 127.0.0.1:6381 發送 GET 命令的時候，節點將再次向客戶端返回 MOVED 錯誤，指示現在負責處理槽 3999 的節點。

雖然我們用 ID 來標識集群中的節點，但是為了讓客戶端的轉向操作盡可能地簡單，節點在 MOVED 錯誤中直接返回目標節點的 IP 和端口號，而不是目標節點的 ID 。

雖然不是必須的，但一個客戶端應該記錄（memorize）下“槽 3999 由節點 127.0.0.1:6381 負責處理“這一信息，這樣當再次有命令需要對槽 3999 執行時，客戶端就可以加快尋找正確節點的速度。

注意，當集群處于穩定狀態時，所有客戶端最終都會保存有一個哈希槽至節點的映射記錄（map of hash slots to nodes），使得集群非常高效：客戶端可以直接向正確的節點發送命令請求，無須轉向、代理或者其他任何可能發生單點故障（single point failure）的實體（entiy）。

除了 MOVED 轉向錯誤之外，一個客戶端還應該可以處理稍后介紹的 ASK 轉向錯誤。

</div>

集群在線重配置（live reconfiguration）

Redis 集群支持在集群運行的過程中添加或者移除節點。

實際上，節點的添加操作和節點的刪除操作可以抽象成同一個操作，那就是，將哈希槽從一個節點移動到另一個節點：

添加一個新節點到集群，等于將其他已存在節點的槽移動到一個空白的新節點里面。

從集群中移除一個節點，等于將被移除節點的所有槽移動到集群的其他節點上面去。

因此，實現 Redis 集群在線重配置的核心就是將槽從一個節點移動到另一個節點的能力。因為一個哈希槽實際上就是一些鍵的集合，所以 Redis 集群在重哈希（rehash）時真正要做的，就是將一些鍵從一個節點移動到另一個節點。

要理解 Redis 集群如何將槽從一個節點移動到另一個節點，我們需要對 CLUSTER 命令的各個子命令進行介紹，這些命理負責管理集群節點的槽轉換表（slots translation table）。

以下是 CLUSTER 命令可用的子命令：

CLUSTER ADDSLOTS slot1 [slot2] ... [slotN]

CLUSTER DELSLOTS slot1 [slot2] ... [slotN]

CLUSTER SETSLOT slot NODE node

CLUSTER SETSLOT slot MIGRATING node

CLUSTER SETSLOT slot IMPORTING node

最開頭的兩條命令 ADDSLOTS 和 DELSLOTS 分別用于向節點指派（assign）或者移除節點，當槽被指派或者移除之后，節點會將這一信息通過 Gossip 協議傳播到整個集群。ADDSLOTS 命令通常在新創建集群時，作為一種快速地將各個槽指派給各個節點的手段來使用。

CLUSTER SETSLOT slot NODE node 子命令可以將指定的槽 slot 指派給節點 node 。

至于 CLUSTER SETSLOT slot MIGRATING node 命令和 CLUSTER SETSLOT slot IMPORTING node 命令，前者用于將給定節點 node 中的槽 slot 遷移出節點，而后者用于將給定槽 slot 導入到節點 node ：

當一個槽被設置為 MIGRATING 狀態時，原來持有這個槽的節點仍然會繼續接受關于這個槽的命令請求，但只有命令所處理的鍵仍然存在于節點時，節點才會處理這個命令請求。

如果命令所使用的鍵不存在與該節點，那么節點將向客戶端返回一個 -ASK 轉向（redirection）錯誤，告知客戶端，要將命令請求發送到槽的遷移目標節點。
</li>
當一個槽被設置為 IMPORTING 狀態時，節點僅在接收到 ASKING 命令之后，才會接受關于這個槽的命令請求。

如果客戶端沒有向節點發送 ASKING 命令，那么節點會使用 -MOVED 轉向錯誤將命令請求轉向至真正負責處理這個槽的節點。
</li> </ul>

上面關于 MIGRATING 和 IMPORTING 的說明有些難懂，讓我們用一個實際的實例來說明一下。

假設現在，我們有 A 和 B 兩個節點，并且我們想將槽 8 從節點 A 移動到節點 B ，于是我們：
- 向節點 B 發送命令 CLUSTER SETSLOT 8 IMPORTING A
- 向節點 A 發送命令 CLUSTER SETSLOT 8 MIGRATING B

Redis 集群規范

引言

什么是 Redis 集群？

Redis 集群實現的功能子集

Redis 集群協議中的客戶端和服務器

鍵分布模型

集群節點屬性

節點握手（已實現）

MOVED 轉向

集群在線重配置（live reconfiguration）

ASK 轉向

容錯

節點失效檢測

集群狀態檢測（已部分實現）

從節點選舉

發布/訂閱（已實現，但仍然需要改善）

附錄 A： CRC16 算法的 ANSI 實現參考

相關經驗

相關資訊

相關文檔

目錄