• 0推薦
    16K 瀏覽

    HDFS NameNode內存全景

    NameNode在整個HDFS系統架構中占據舉足輕重的位置,內部數據和處理邏輯相對復雜,本文簡單梳理了NameNode的內存全景及對其中幾個關鍵數據結構,從NameNode內存核心數據視角對Na...
    0推薦
    32K 瀏覽

    Kafka實戰:從RDBMS到Hadoop,七步實現實時傳輸

    本文是關于Flume成功應用Kafka的研究案例,深入剖析它是如何將RDBMS實時數據流導入到HDFS的Hive表中。
    0推薦
    15K 瀏覽

    Hadoop大數據系統的七大危險信號

    大多數企業大數據應用案例尚處于實驗和試點階段,對于少數首次在生產環境部署Hadoop系統的用戶來說,最常遇到的就是擴展問題,此類問題往往導致企業因噎廢食,終止大數據應用項目。
    0推薦
    57K 瀏覽

    讓Spark如虎添翼的Zeppelin - 基礎篇

    Spark 是一個非常好的計算平臺,支持多種語言,同時基于內存的計算速度也非常快。整個開源社區也很活躍。
    0推薦
    48K 瀏覽

    餓了么分布式服務治理及優化經驗

    今天我想站在一個大的角度上,看一下餓了么最近一年多的時間,經歷的技術上一些痛苦的問題與改進的過程。
    0推薦
    13K 瀏覽

    公測與奧運同行,云服務總線CSB:“連”無邊界

    本文主要談及了服務互通開放典型問題,也介紹了企業業務能力API化,著重說明了云服務總線CSB的服務處理過程,最后概括了綜合場景。
    0推薦
    17K 瀏覽

    深入淺出Spark(二) 什么是RDD

    RDD的官方定義RDD是Spark中的數據抽象,意思是彈性分布式數據集。在邏輯上是一個數據集,在物理上則可以分塊分布在不同的機器上并發運行。
    0推薦
    20K 瀏覽

    使用Akka、Kafka和ElasticSearch等構建分析引擎

    在這篇文章里,我將和大家分享一下我用Scala、Akka、Play、Kafka和ElasticSearch等構建大型分布式、容錯、可擴展的分析引擎的經驗。
    0推薦
    65K 瀏覽

    Kudu:支持快速分析的新型Hadoop存儲系統

    Kudu 是 Cloudera 開源的新型列式存儲系統,是 Apache Hadoop 生態圈的新成員之一( incubating ),專門為了對快速變化的數據進行快速的分析,填補了以往 Had...
    0推薦
    12K 瀏覽

    四兩撥千斤:借助Spark GraphX將QQ千億關系鏈計算提速20倍

    騰訊QQ有著國內最大的關系鏈,而共同好友數,屬于社交網絡分析的基本指標之一,是其它復雜指標的基礎。借助Spark GraphX,我們用寥寥100行核心代碼,在高配置的TDW-Spark集群上,只...
    0推薦
    121K 瀏覽

    Mercury:唯品會全鏈路應用監控系統解決方案詳解(含 PPT)

    唯品會有三大特點,特賣 + 閃購 + 正品,在唯品會,峰值訪問量非常大,這樣的流量,使得唯品會平臺架構部承擔非常大的挑戰,包括我今天分享的全鏈路監控系統。
    0推薦
    22K 瀏覽

    英語流利說基礎數據平臺

    隨著大數據產品的日益成熟與穩定,如今不少互聯網公司在數據產品所投入的運維工作已經越來越少,另外,加上國內云服務的不斷普及,建立一套自己的大數據基礎平臺的成本也將變的更低。本文將向大家簡要介紹流利...
    0推薦
    31K 瀏覽

    關于分布式存儲,這是你應該知道的

    分布式存儲存在的風險,其實就是因為“共享”、“大數據量”、“高性能”和X86服務器+廉價的磁盤為載體之間的矛盾所產生的,不是有些讀者說的“數據架構”的問題。其實任何存儲都存在這個問題,只是分布式存儲更嚴重。
    0推薦
    17K 瀏覽

    分布式隊列編程優化篇

    “分布式隊列編程”是一個系列文,之前我們已經發布了《分布式隊列編程模型、實戰》,主要剖析了分布式隊列編程模型的需求來源、定義、結構以及其變化多樣性;根據作者在新美大實際工作經驗,給出了隊列式編程...
    0推薦
    21K 瀏覽

    分布式隊列編程模型、實戰

    作為一種基礎的抽象數據結構,隊列被廣泛應用在各類編程中。大數據時代對跨進程、跨機器的通訊提出了更高的要求,和以往相比,分布式隊列編程的運用幾乎已無處不在。
    0推薦
    25K 瀏覽

    作為大數據工程師,你必須熟練運用的性能優化技術

    最近幾年一直參與大數據產品的研發,同時大數據產品在海量數據場景下其處理性能又是其主要的賣點和突破,所以個人在這幾年經常忙于如何對大數據產品進行性能上面的優化,并且想通過本文和大家聊聊具體的幾種比...
    0推薦
    13K 瀏覽
    0推薦
    7K 瀏覽

    云端數據遷移的9條安全建議

    當遷移到新的云端環境時,公司需要謹慎地估量一下服務商的安全性,以及自己公司的內部政策。很多公司不會花時間考慮和其他組織共享云端資源的風險,以及那些數據中心的安全政策。
    0推薦
    12K 瀏覽

    Apache Geode —— 數據管理平臺

    Apache Geode (incubating) 是一個數據管理平臺,提供實時的、一致的、貫穿整個云架構地訪問數據關鍵型應用.
    0推薦
    16K 瀏覽

    Meson:支持Netflix的機器學習工作流

    Netflix的目標是能預測顧客之所想觀看的電影,也即推薦預測。為了做到這一點,每天會運行大量機器學習工作流,而為了支撐創建這么多機器學習工作流和有效利用資源,Netflix的工程師開發了Meson。
    1 2 3 4 5 6 7 8 9 10

    經驗分享,提升職場影響力

    投稿

    熱門問答

      熱門文檔

      • sesese色