非死book的“大數據”到底有多大?

openkk 12年前發布 | 9K 次閱讀 Facebook

據說這是一個“大數據”的時代,到底有多大呢?

非死book 最近在總部的一次會議中披露的一組數據可以給大家一個初步的印象,來一起看看每天 非死book 上都得處理多少數據吧:

25億 非死book 上分享的內容條數

27億 “贊”的數量,

3億 上傳照片數

500+TB 新產生的數據

105TB 每半小時通過 Hive 掃描的數據

100+PB(1PB=1024TB) 單個 HDFS(分布式文件系統)集群中的磁盤容量

FB 的工程總監 Parikh 解釋了這些數據對于 非死book 的意義:“大數據的意義在于真正對你的生意有內在的洞見。如果你不能好好利用自己收集到的數據,那你只是空有一堆數據而已,不叫大數據。”

目前 非死book 有著世界最大的分布式文件系統,單個集群中的數據存儲量就超過 100PB。在 非死book 內部,從一開始就沒有在不同的部門之間(比如廣告部和用戶支持部)設立障礙或者分割數據。這樣一來產品開發者就可以跨部門獲得數據,實時知曉最近的改動是否增加了用戶瀏覽時間或者促成了更多的廣告點擊。

作為普通用戶,大家也許會對如此海量的數據心存不安,擔心自己的數據被隨意瀏覽。對此 非死book 表示有各種防范措施來防止此類事情的發生,比如所有的數據讀取記錄都會被存檔,哪些人看過哪些數據都是記錄在案的;如果有員工越線,會被直接開除。 Parikh 著重強調:“在這件事上我們的政策是零容忍。”

來自: 36氪

 本文由用戶 openkk 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!