分布式文件系統FastDFS原理介紹

jopen 9年前發布 | 22K 次閱讀 FastDFS 分布式/云計算/大數據

在生產中我們一般希望文件系統能幫我們解決以下問題,如:1.超大數據存儲;2.數據高可用(冗余備份);3.讀/寫高性能;4.海量數據計算。最好還得支持多平臺多語言,支持高并發。

由于單臺服務器無法滿足以上要求,這就迫使開發者不得不考慮使用其他方式解決此類問題。分布式文件系統就在這樣迫切的需求下孕育而生。

今 天為什么把標題定為“分布式文件系統”呢?是因為我想通過此次分享(FastDFS原理介紹),和大家去做更多關于分布式文件系統的研究和分享。我想這項 研究應該會是一個“系列”性的專題。在本文之后還計劃分享“FastDFS源碼分析”,“FastDFS擴容及資源優化”。

——————————————————>我是分隔線<——————————————————————-

什么是FastDFS?

FastDFS 是一個開源的輕量級分布式文件系統。它解決了大數據量存儲和負載均衡等問題。特別適合以中小文件(建議范圍:4KB < file_size <500MB)為載體的在線服務,如相冊網站、視頻網站等等。在UC基于FastDFS開發向用戶提供了:網盤,社區,廣告和應用下載等業務的存儲 服務。


FastDFS架構:

FastDFS服務端有三個角色:跟蹤服務器(tracker server)、存儲服務器(storage server)和客戶端(client)。

  • tracker server:跟蹤服務器,主要做調度工作,起負載均衡的作用。在內存中記錄集群中所有存儲組和存儲服務器的狀態信息,是客戶端和數據服務器交互的樞紐。相比GFS中的master更為精簡,不記錄文件索引信息,占用的內存量很少。

    </li>

  • storage server:存儲服務器(又稱:存儲節點或數據服務器),文件和文件屬性(meta data)都保存到存儲服務器上。Storage server直接利用OS的文件系統調用管理文件。

    </li>

  • client:客戶端,作為業務請求的發起方,通過專有接口,使用TCP/IP協議與跟蹤器服務器或存儲節點進行數據交互。

    </li> </ul>

    分布式文件系統FastDFS原理介紹

    Tracker Server:跟蹤服務器,主要做調度工作,在訪問上起負載均衡的作用。
    Storage Server:存儲服務器(又稱數據服務器)。

    ps:這樣的架構具有以下特點:1.輕量級(相比GFS簡化了master角色,不再管理meta數據信息)。2.對等結構。3.分組方式。

    FastDFS協議:

    FastDFS角色間是基于TCP/IP協議進行通信,協議包格式為:header + body。具體結構如圖:

    分布式文件系統FastDFS原理介紹

    FastDFS各節點間都是通過tcp/ip的方式來進行通信的。
    協議包由兩部分組成:header和body

    上傳機制:

    分布式文件系統FastDFS原理介紹

    同步時間管理:

    當一個文件上傳成功后,客戶端馬上發起對該文件下載請求(或刪除請求)時,tracker是如何選定一個適用的存儲服務器呢?

    其實每個存儲服務器都需要定時將自身的信息上報給tracker,這些信息就包括了本地同步時間(即,同步到的最新文件的時間戳)。而tracker根據各個存儲服務器的上報情況,就能夠知道剛剛上傳的文件,在該存儲組中是否已完成了同步。同步信息上報如下圖:

    分布式文件系統FastDFS原理介紹

    下載機制:

    分布式文件系統FastDFS原理介紹

    精巧的FID:

    說到下載就不得不提文件索引(又稱:FID)的精巧設計了。文件索引結構如下圖,是客戶端上傳文件后存儲服務器返回給客戶端,用于以后訪問該文件的索引信息。文件索引信息包括:組名,虛擬磁盤路徑,數據兩級目錄,文件名

    分布式文件系統FastDFS原理介紹

    ps:

    • 組名:文件上傳后所在的存儲組名稱,在文件上傳成功后有存儲服務器返回,需要客戶端自行保存。一個組下可以有多個storage,我感覺組就是為管理storage的

      </li>

    • 虛擬磁盤路徑:存儲服務器配置的虛擬路徑,與磁盤選項store_path*對應。

      </li>

    • 數據兩級目錄:存儲服務器在每個虛擬磁盤路徑下創建的兩級目錄,用于存儲數據文件。

      </li>

    • 文件名:與文件上傳時不同。是由存儲服務器根據特定信息生成,文件名包含:源存儲服務器IP地址、文件創建時間戳、文件大小、隨機數和文件拓展名等信息。

      </li> </ul>

      快速定位文件:

      知道FastDFS FID的組成后,我們來看看FastDFS是如何通過這個精巧的FID定位到需要訪問的文件。

      1. 通過組名tracker能夠很快的定位到客戶端需要訪問的存儲服務器組,并將選擇合適的存儲服務器提供客戶端訪問;

        </li>

      2. 存儲服務器根據“文件存儲虛擬磁盤路徑”和“數據文件兩級目錄”可以很快定位到文件所在目錄,并根據文件名找到客戶端需要訪問的文件。

        </li> </ol>

        分布式文件系統FastDFS原理介紹

        本次分享的主要內容包含:FastDFS各角色的任務分工/協作,文件索引的原理設計以及文件上傳/下載操作的流程。通過此次學習我們對FastDFS有了初步的了解,如:

        • FastDFS只有三個角色;且跟蹤服務器和存儲服務器均不存在單點。

          </li>

        • 跟蹤服務器被動的接收存儲服務器匯報,對存儲服務器進行分組管理;并為客戶端選定適用的存儲服務器。同一存儲服務器可以同時向多臺跟蹤服務器匯報狀態信息。

          </li>

        • 存儲服務器組內所有存儲服務器是對等關系,存儲的數據一一對應且相同;所有的存儲服務器均是同時在線服務,極大的提高的服務器的使用率,分擔了數據訪問壓力。

          </li> </ul>

          原文地址:http://tech.uc.cn/?p=221
 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!