世界最大的PHP站點 非死book后臺技術探秘

jopen 10年前發布 | 27K 次閱讀 Facebook

今天我們一起來了解非死book背后的軟件,看看作為當今世界上訪問量最大的網站之一,非死book是如何保證5億用戶的系統一直穩定可靠的運行。

非死book的擴展性挑戰

在我們討論細節之前,這里有一些非死book已經做的軟件規模:

◆非死book有570000000000每月頁面瀏覽量 (據Google Ad Planner)

◆非死book的照片量比其他所有圖片網站加起來還多(包括Flickr等網站)

◆每個月超過30億張照片被上傳

◆非死book的系統服務每秒處理120萬張照片,這不包括CDN服務中處理的照片

◆每月超過25億條的內容 (狀態更新,評論等)被共享

◆非死book有超過30,000服務器(這個數字是去年的)

非死book擴展所依賴的軟件

非死book是在某些程度上說仍然是LAMP的站點,但它比普通的LAMP大得多,以納入其他元素和很多服務,并修改現行的做法。

例如:

◆非死book仍使用PHP,但它已經為它建立一個編譯器,以便它可以分為本地代碼打開了Web服務器,從而提高性能。

◆非死book使用Linux,但他特別為網絡吞吐量做了優化。

◆非死book使用MySQL,但主要是作為一個Key-value的持久性存儲,Jions和服務器邏輯操作在Web服務器上操作。因為在那里更容易執行。

還有是自編寫的系統,如Haystack,一個高度可擴展的對象存儲,用來存儲非死book的照片。還有Scribe,一個日志系統,可以運行在非死book的巨大規模上的日志系統。

現在我們介紹一下全球最大的社會網絡網站的所使用的軟件吧。

Memcached

memcached的是現在互聯網最有名的軟件之一了。 這是一個分布式內存緩存系統,用來作為Web服務器和MySQL服務器之間的緩存層(因為數據庫訪問比較慢)。 多年以來,非死book已經提出了一些優化Memcached和一些周邊軟件的辦法。如壓縮network stack。

非死book的每時每刻都有數10TB的數據緩存在Memcached的數千臺服務器上。 它可能是世界上最大的Memcached的集群了。

HipHop for PHP

PHP作為一種腳本語言,和本地程序相比是運行緩慢的。 HipHop可以將PHP轉換成C + +代碼,然后再進行編譯,可以獲得更好的性能。 因為非死book嚴重依賴PHP,這使得其可以讓Web服務器運行的更有效率。

一個工程師小團隊在非死book(一開始只有三人)花了18個月時間開發HipHop,現在已經是可用狀態。

Haystack

Haystack是非死book的高性能照片存儲/檢索系統(嚴格來說,是一個對象存儲,因此它并不一定要存儲照片)。 它有許多工作要做;有超過20億張上傳的照片,并且每一個被保存在四個不同的分辨率,因此有超過800億張照片。

它不僅是對能夠處理的上億的照片,運行表現也是至關重要的。 正如我們前面提到的,非死book的服務約120萬張照片每秒 ,這個數字不包括CDN上的。 這是一個驚人的數字。 

BigPipe

BigPipe是非死book開發的一個動態的網頁服務系統。 非死book使用它來按section(稱為“pagelets”)處理每個網頁,以獲取最佳性能。

例如,在聊天窗口是分開的,新聞Feed也是分開的,等等。 這些pagelets可以在一個頁面表現的時候同時使用,這是該頁面表現的時候獲取進來的。即使某些工程的一部分關閉或中端,用戶也可以獲得一部分網頁。

Cassandra

Cassandra是一個不會單點失敗的分布式存儲系統。 這是為NoSQL運動的一個重要組成部分,并已公開的源代碼(它甚至成為一個Apache項目)。非死book在搜索功能中使用它。

除了非死book,還有一些人也用它,例如Digg的。 不過最近推ter放棄了Cassandra。 

Scribe

Scribe是一個靈活的日志系統,非死book在他的內部大量使用。 它的能夠處理在非死book的大規模日志記錄,并自動處理新的日志記錄類別,非死book有數百個日志類別(categories)。



Hadoop and Hive

Hadoop的是一個開源的map-reduce實現,使得它可以在進行大數據上進行運算。 非死book的使用這個進行數據分析(而我們都知道,非死book已經大量的數據)。 Hive就是發源于非死book,使得對于Hadoop使用的SQL查詢成為可能,從而是其更容易對非程序員使用。

Hadoop和Hive是開源的(Apache項目),有為數眾多的追隨者,例如雅虎和推ter。

Thrift

非死book使用的幾種不同的語言和不同的services。 PHP是最終用于前端,Erlang是用于聊天,Java和C ++也使用于多種場所,也許還有其他語言。Thrift是一個內部開發的跨語言的框架,聯系語言,使他們可以在一起合作,從而使他們之間可以交互。 這使得非死book可以更容易為繼續保持其跨語言的發展。

非死book已經讓Thrift開源。更多的語言支持已被添加到Thrift。

Varnish

Varnish是一個HTTP加速器,可以作為一個負載平衡器,并緩存的內容,然后可以以閃電般的速度送達。

非死book使用的arnish來處理照片和個人資料圖片,處理每天數十億的要求。 和其他的東西一樣,Varnish是開源的。

保持非死book 順暢運行的其他東西

我們已經提到的軟件,組成了非死book的系統,并幫助運行在大規模上。 但是,處理這么大的系統是一個復雜的任務,因此我們將列出一些其他的東西,他們保持了非死book的平穩運行。

漸進發布和暗啟動

非死book有一個他們所謂的守門人制度(Gatekeeper),允許他們可以給不同的用戶運行兩套不同的系統。 這讓非死book漸進的發布新的功能,A / B測試,只為非死book雇員發布等的某些特性。

Gatekeeper也可以讓非死book實現“暗啟動”,這是在用戶使用一些功能之前,就激活某些功能(因為用戶沒有察覺,所以稱之為暗啟 動)。 這將作為一個現實世界的壓力測試,在正式啟動前,幫助揭露一些功能障礙和其他問題。 暗啟動通常是在正式啟動前兩個星期。

Profiling的直播系統

非死book的仔細監控其系統,有趣的是它也負責監察每一個PHP函數在生產環境的性能。 檢測各個PHP的環境的配置運行情況。使用開源工具,XHProf 。

漸進的利用關閉功能來提升性能

如果非死book運行時出現性能問題,有一個辦法,就是逐步禁用不太重要的功能,以增強非死book的大量核心功能表現。

我們沒有提及的事情

我們沒有提到硬件相關的事情,但這也是提高可伸縮性的重要一環。例如,就像其他大型站點,非死book利用CDN來處理靜態內容。非死book還有一個the huge data center,可以幫助他擴展更多的服務。

非死book的開源情節

不僅是非死book使用(和幫助),如Linux,Memcached的,MySQL和Hadoop的開源軟件,以及許多其他情況下,也貢獻許多了其內部開發的軟件。

非死book亦開源了Tornado,一個高性能的網絡服務器框架,由FriendFeed團隊開發。關于開放源碼軟件清單,可以在非死book’s Open Source page.找到。

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!