解密Redis持久化

openkk 13年前發布 | 23K 次閱讀 Redis NoSQL數據庫

  本文內容來源于 Redis 作者博文,Redis 作者說,他看到的所有針對 Redis 的討論中,對 Redis持久化的誤解是最大的,于是他寫了一篇長文來對 Redis 的持久化進行了系統性的論述。文章非常長,也很值得一看,NoSQLFan 將主要內容簡述成本文。

  什么是持久化,簡單來講就是將數據放到斷電后數據不會丟失的設備中。也就是我們通常理解的硬盤上。

  寫操作的流程

  首先我們來看一下數據庫在進行寫操作時到底做了哪些事,主要有下面五個過程。

  1. 客戶端向服務端發送寫操作(數據在客戶端的內存中)
  2. 數據庫服務端接收到寫請求的數據(數據在服務端的內存中)
  3. 服務端調用 write (2) 這個系統調用,將數據往磁盤上寫(數據在系統內存的緩沖區中)
  4. 操作系統將緩沖區中的數據轉移到磁盤控制器上(數據在磁盤緩存中)
  5. 磁盤控制器將數據寫到磁盤的物理介質中(數據真正落到磁盤上)

  故障分析

  寫操作大致有上面 5 個流程,下面我們結合上面的 5 個流程看一下各種級別的故障。

  • 當數據庫系統故障時,這時候系統內核還是 OK 的,那么此時只要我們執行完了第 3 步,那么數據就是安全的,因為后續操作系統會來完成后面幾步,保證數據最終會落到磁盤上。
  • 當系統斷電,這時候上面 5 項中提到的所有緩存都會失效,并且數據庫和操作系統都會停止工作。所以只有當數據在完成第 5 步后,機器斷電才能保證數據不丟失,在上述四步中的數據都會丟失。

  通過上面 5 步的了解,可能我們會希望搞清下面一些問題:

  • 數據庫多長時間調用一次 write (2),將數據寫到內核緩沖區
  • 內核多長時間會將系統緩沖區中的數據寫到磁盤控制器
  • 磁盤控制器又在什么時候把緩存中的數據寫到物理介質上

  對于第一個問題,通常數據庫層面會進行全面控制。而對第二個問題,操作系統有其默認的策略,但是我們也可以通過 POSIX API 提供的 fsync 系列命令強制操作系統將數據從內核區寫到磁盤控制器上。對于第三個問題,好像數據庫已經無法觸及,但實際上,大多數情況下磁盤緩存是被設置關閉的。或者是只開啟為讀緩存,也就是寫操作不會進行緩存,直接寫到磁盤。建議的做法是僅僅當你的磁盤設備有備用電池時才開啟寫緩存。

  數據損壞

  所謂數據損壞,就是數據無法恢復,上面我們講的都是如何保證數據是確實寫到磁盤上去,但是寫到磁盤上可能并不意味著數據不會損壞。比如我們可能一次寫請求會進行兩次不同的寫操作,當意外發生時,可能會導致一次寫操作安全完成,但是另一次還沒有進行。如果數據庫的數據文件結構組織不合理,可能就會導致數據完全不能恢復的狀況出現。

  這里通常也有三種策略來組織數據,以防止數據文件損壞到無法恢復的情況:

  • 第一種是最粗糙的處理,就是不通過數據的組織形式保證數據的可恢復性。而是通過配置數據同步備份的方式,在數據文件損壞后通過數據備份來進行恢復。實際上 MongoDB 在不開啟 journaling 日志,通過配置 Replica Sets 時就是這種情況。
  • 另一種是在上面基礎上添加一個操作日志,每次操作時記一下操作的行為,這樣我們可以通過操作日志來進行數據恢復。因為操作日志是順序追加的方式寫的,所以不會出現操作日志也無法恢復的情況。這也類似于 MongoDB 開啟了 journaling 日志的情況。
  • 更保險的做法是數據庫不進行老數據的修改,只是以追加方式去完成寫操作,這樣數據本身就是一份日志,這樣就永遠不會出現數據無法恢復的情況了。實際上 CouchDB 就是此做法的優秀范例。

  RDB 快照

  下面我們說一下 Redis 的第一個持久化策略,RDB 快照。Redis 支持將當前數據的快照存成一個數據文件的持久化機制。而一個持續寫入的數據庫如何生成快照呢。Redis 借助了 fork 命令的 copy on write 機制。在生成快照時,將當前進程 fork 出一個子進程,然后在子進程中循環所有的數據,將數據寫成為 RDB 文件。

  我們可以通過 Redis 的 save 指令來配置 RDB 快照生成的時機,比如你可以配置當 10 分鐘以內有 100 次寫入就生成快照,也可以配置當 1 小時內有 1000 次寫入就生成快照,也可以多個規則一起實施。這些規則的定義就在 Redis 的配置文件中,你也可以通過 Redis 的 CONFIG SET 命令在 Redis 運行時設置規則,不需要重啟 Redis。

  Redis 的 RDB 文件不會壞掉,因為其寫操作是在一個新進程中進行的,當生成一個新的 RDB 文件時,Redis 生成的子進程會先將數據寫到一個臨時文件中,然后通過原子性 rename 系統調用將臨時文件重命名為 RDB 文件,這樣在任何時候出現故障,Redis 的 RDB 文件都總是可用的。

  同時,Redis 的 RDB 文件也是 Redis 主從同步內部實現中的一環。

  但是,我們可以很明顯的看到,RDB 有他的不足,就是一旦數據庫出現問題,那么我們的 RDB 文件中保存的數據并不是全新的,從上次 RDB 文件生成到 Redis 停機這段時間的數據全部丟掉了。在某些業務下,這是可以忍受的,我們也推薦這些業務使用 RDB 的方式進行持久化,因為開啟 RDB 的代價并不高。但是對于另外一些對數據安全性要求極高的應用,無法容忍數據丟失的應用,RDB 就無能為力了,所以 Redis 引入了另一個重要的持久化機制:AOF 日志。

  AOF 日志

  aof 日志的全稱是 append only file,從名字上我們就能看出來,它是一個追加寫入的日志文件。與一般數據庫的 binlog 不同的是,AOF 文件是可識別的純文本,它的內容就是一個個的 Redis 標準命令。比如我們進行如下實驗,使用 Redis2.6 版本,在啟動命令參數中設置開啟 aof 功能:

./redis-server --appendonly yes

  然后我們執行如下的命令:

redis 127.0.0.1:6379> set key1 HelloOKredis 127.0.0.1:6379> append key1 " World!"(integer) 12redis 127.0.0.1:6379> del key1(integer) 1redis 127.0.0.1:6379> del non_existing_key (integer) 0

  這時我們查看 AOF 日志文件,就會得到如下內容:

$ cat appendonly.aof*2$6SELECT$10*3$3set$4key1$5Hello*3$6append$4key1$7 World!*2$3del$4key1

  可以看到,寫操作都生成了一條相應的命令作為日志。其中值得注意的是最后一個 del 命令,它并沒有被記錄在 AOF 日志中,這是因為 Redis 判斷出這個命令不會對當前數據集做出修改。所以不需要記錄這個無用的寫命令。另外 AOF 日志也不是完全按客戶端的請求來生成日志的,比如命令 INCRBYFLOAT 在記 AOF 日志時就被記成一條 SET 記錄,因為浮點數操作可能在不同的系統上會不同,所以為了避免同一份日志在不同的系統上生成不同的數據集,所以這里只將操作后的結果通過 SET 來記錄。

  AOF 重寫

  你可以會想,每一條寫命令都生成一條日志,那么 AOF 文件是不是會很大?答案是肯定的,AOF 文件會越來越大,所以 Redis 又提供了一個功能,叫做 AOF rewrite。其功能就是重新生成一份 AOF 文件,新的 AOF 文件中一條記錄的操作只會有一次,而不像一份老文件那樣,可能記錄了對同一個值的多次操作。其生成過程和 RDB 類似,也是 fork 一個進程,直接遍歷數據,寫入新的 AOF 臨時文件。在寫入新文件的過程中,所有的寫操作日志還是會寫到原來老的 AOF 文件中,同時還會記錄在內存緩沖區中。當重完操作完成后,會將所有緩沖區中的日志一次性寫入到臨時文件中。然后調用原子性的 rename 命令用新的 AOF 文件取代老的 AOF 文件。

  從上面的流程我們能夠看到,RDB 和 AOF 操作都是順序 IO 操作,性能都很高。而同時在通過 RDB 文件或者 AOF 日志進行數據庫恢復的時候,也是順序的讀取數據加載到內存中。所以也不會造成磁盤的隨機讀。

  AOF 可靠性設置

  AOF 是一個寫文件操作,其目的是將操作日志寫到磁盤上,所以它也同樣會遇到我們上面說的寫操作的 5 個流程。那么寫 AOF 的操作安全性又有多高呢。實際上這是可以設置的,在 Redis 中對 AOF 調用 write (2)寫入后,何時再調用 fsync 將其寫到磁盤上,通過 appendfsync 選項來控制,下面 appendfsync 的三個設置項,安全強度逐漸變強。

  appendfsync no

  當設置 appendfsync 為 no 的時候,Redis 不會主動調用 fsync 去將 AOF 日志內容同步到磁盤,所以這一切就完全依賴于操作系統的調試了。對大多數 Linux 操作系統,是每 30 秒進行一次 fsync,將緩沖區中的數據寫到磁盤上。

  appendfsync everysec

  當設置 appendfsync 為 everysec 的時候,Redis 會默認每隔一秒進行一次 fsync 調用,將緩沖區中的數據寫到磁盤。但是當這一次的 fsync 調用時長超過 1 秒時。Redis 會采取延遲 fsync 的策略,再等一秒鐘。也就是在兩秒后再進行 fsync,這一次的 fsync 就不管會執行多長時間都會進行。這時候由于在 fsync 時文件描述符會被阻塞,所以當前的寫操作就會阻塞。

  所以,結論就是,在絕大多數情況下,Redis 會每隔一秒進行一次 fsync。在最壞的情況下,兩秒鐘會進行一次 fsync 操作。

  這一操作在大多數數據庫系統中被稱為 group commit,就是組合多次寫操作的數據,一次性將日志寫到磁盤。

  appednfsync always

  當設置 appendfsync 為 always 時,每一次寫操作都會調用一次 fsync,這時數據是最安全的,當然,由于每次都會執行 fsync,所以其性能也會受到影響。

  對于 pipelining 有什么不同

  對于 pipelining 的操作,其具體過程是客戶端一次性發送N個命令,然后等待這N個命令的返回結果被一起返回。通過采用 pipilining 就意味著放棄了對每一個命令的返回值確認。由于在這種情況下,N個命令是在同一個執行過程中執行的。所以當設置 appendfsync 為 everysec 時,可能會有一些偏差,因為這N個命令可能執行時間超過 1 秒甚至 2 秒。但是可以保證的是,最長時間不會超過這N個命令的執行時間和。

  與 postgreSQL 和 MySQL 的比較

  這一塊就不多說了,由于上面操作系統層面的數據安全已經講了很多,所以其實不同的數據庫在實現上都大同小異。總之最后的結論就是,在 Redis 開啟 AOF 的情況下,其單機數據安全性并不比這些成熟的 SQL 數據庫弱。

  數據導入

  這些持久化的數據有什么用,當然是用于重啟后的數據恢復。Redis 是一個內存數據庫,無論是 RDB 還是 AOF,都只是其保證數據恢復的措施。所以 Redis 在利用 RDB 和 AOF 進行恢復的時候,都會讀取 RDB 或 AOF 文件,重新加載到內存中。相對于 MySQL 等數據庫的啟動時間來說,會長很多,因為 MySQL 本來是不需要將數據加載到內存中的。

  但是相對來說,MySQL 啟動后提供服務時,其被訪問的熱數據也會慢慢加載到內存中,通常我們稱之為預熱,而在預熱完成前,其性能都不會太高。而 Redis 的好處是一次性將數據加載到內存中,一次性預熱。這樣只要 Redis 啟動完成,那么其提供服務的速度都是非常快的。

  而在利用 RDB 和利用 AOF 啟動上,其啟動時間有一些差別。RDB 的啟動時間會更短,原因有兩個,一是 RDB 文件中每一條數據只有一條記錄,不會像 AOF 日志那樣可能有一條數據的多次操作記錄。所以每條數據只需要寫一次就行了。另一個原因是 RDB 文件的存儲格式和 Redis 數據在內存中的編碼格式是一致的,不需要再進行數據編碼工作。在 CPU 消耗上要遠小于 AOF 日志的加載。

  好了,大概內容就說到這里。更詳細完整的版本請看 Redis 作者的博文:Redis persistence demystified。本文如有描述不周之處,就大家指正。

 本文由用戶 openkk 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!