• 0推薦
    46K 瀏覽

    Spark:比Hadoop更強大的分布式數據計算項目

    Spark是一個由加州大學伯克利分校(UC Berkeley AMP)開發的一個分布式數據快速分析項目。它的核心技術是彈性分布式數據集(Resilient distributed dataset...
    0推薦
    28K 瀏覽

    分布式流式處理框架:Storm

    Storm是一個免費開源、分布式、高容錯的實時計算系統。它與其他大數據解決方案的不同之處在于它的處理方式。Hadoop 在本質上是一個批處理系統,數據被引入 Hadoop 文件系統 (HDFS)...
    0推薦
    24K 瀏覽

    Hadoop:分布式計算平臺初探

    Hadoop是一個開發和運行處理大規模數據的軟件平臺,是Appach的一個用java語言實現開源軟件框架,實現在大量計算機組成的集群中對海 量數據進行分布式計算。Hadoop框架中最核心設計就是...
    0推薦
    44K 瀏覽

    Chukwa:開源分布式數據收集系統

    Chukwa 是一個開源的用于監控大型分布式系統的數據收集系統。它構建在 hadoop 的 hdfs 和 map/reduce 框架之上的,繼承了 hadoop 的可伸縮性和魯棒性。Chukwa...
    0推薦
    19K 瀏覽

    Hadoop數據傳輸工具:Sqoop

    Apache Sqoop(SQL-to-Hadoop) 項目旨在協助 RDBMS 與 Hadoop 之間進行高效的大數據交流。用戶可以在 Sqoop 的幫助下,輕松地把關系型數據庫的數據導入到 ...
    0推薦
    19K 瀏覽

    Spark SQL 代碼簡要閱讀(基于Spark 1.1.0)

    Spark SQL允許相關的查詢如SQL,HiveQL或Scala運行在spark上。其核心組件是一個新的RDD:SchemaRDD,SchemaRDDs由 行對象組成,并包含一個描述此行對象的...
    0推薦
    54K 瀏覽

    Spark在騰訊數據倉庫TDW的應用

    為了滿足挖掘分析與交互式實時查詢的計算需求,騰訊大數據使用了Spark平臺來支持挖掘分析類計算、交互式實時查詢計算以及允許誤差范圍的快速查 詢計算,目前騰訊大數據擁有超過200臺的Spark集群...
    0推薦
    14K 瀏覽

    OpenStack 云平臺架設工具:StackOps

    通常在linux下手工安裝openstack比較麻煩,StackOps是一個可以快速安裝的Openstack解決方案。安裝過程就相當于一個濃縮了的Ubuntu,只需要選擇鍵盤布局、分區設置IP地...
    0推薦
    24K 瀏覽

    Hive:基于hadoop的數據倉庫工具

    Hive是基于Hadoop的一個數據倉庫工具,可以將結構化的數據文件 映射為一張數據庫表,并提供完整的sql查詢功能,可以將sql語句轉換為MapReduce任務進行運行。其優點是學習成本低,可...
    0推薦
    17K 瀏覽

    Spark實戰:單節點本地模式搭建Spark運行環境

    Spark實戰:單節點本地模式搭建Spark運行環境
    0推薦
    18K 瀏覽

    動態YARN應用:Apache Slider

    Apache Slider 是一個 YARN 應用,用于發布已有的分布式應用到 YARN 上,并對這些應用進行監控以及根據需要調整規模,即使是正在運行。
    0推薦
    12K 瀏覽

    Hadoop的一個Job跟蹤器:Timberlake

    Timberlake是一個Go服務器搭配React.js作為前端。它改善現有的 Hadoop job 跟蹤器,通過提供正在運行和已經完成MapReduce jobs的一個輕量級實時視圖。Timb...
    0推薦
    15K 瀏覽

    HadoopDoctor:來自騰訊數據倉庫TDW的MR診斷系統

    TDW是基于Hadoop生態圈研發的大數據處理平臺,MapReduce計算 引擎在TDW平臺中承擔了所有的離線數據計算,是TDW最重要的底層支撐平臺之一。在TDW 平臺中,除了MR程序會生成Ma...
    0推薦
    27K 瀏覽

    ZooKeeper開發手冊中文翻譯

    本文假設你已經具有一定分布式計算的基礎知識。你將在第一部分看到以下內容: ZooKeeper數據模型 ZooKeeper Sessions ZooKeeper Watches
    0推薦
    191K 瀏覽

    大數據技術大合集:Hadoop家族、Cloudera系列、spark、storm

    大數據我們都知道hadoop,可是還會各種各樣的技術進入我們的視野:Spark,Storm,impala,讓我們都反映不過來。為了能夠更好 的架構大數據項目,這里整理一下,供技術人員,項目經理,...
    0推薦
    27K 瀏覽

    Hadoop2.5.0完全分布式配置(1主3從)

    Hadoop2.5.0完全分布式配置(1主3從)
    0推薦
    16K 瀏覽

    .NET的存儲引擎(虛擬文件系統):TmStorage

    TmStorage 是一個用 .NET 開發的虛擬文件系統,用來存儲流數據。使用扁平結構進行數據存儲,通過類型為 GUID 的流 id 來引用數據。
    0推薦
    32K 瀏覽

    “Ceph淺析”系列之(六)——關于Ceph的若干想法

    本篇文章的內容,主要是筆者在調研分析Ceph過程中產生的一些思考。因為其中的內容比較自由發散,且大多是筆者的個人見解,故此另啟一文進行討論。
    0推薦
    32K 瀏覽

    “Ceph淺析”系列之(五)——Ceph與OpenStack

    在 《“Ceph淺析”系列之二——Ceph概況》中即已提到,關注Ceph的原因之一,就是OpenStack社區對于Ceph的重視。因此,本文將對Ceph在OpenStack中的價值...
    0推薦
    62K 瀏覽

    “Ceph淺析”系列之(四)——Ceph的工作原理及流程

    本文將對Ceph的工作原理和若干關鍵工作流程進行扼要介紹。如前所述,由于Ceph的功能實現本質上依托于RADOS,因而,此處的介紹事實上也是針對 RADOS進行。對于上層的部分,特別是RADO...
    1 2 3 4 5 6 7 8 9 10

    經驗分享,提升職場影響力

    投稿

    熱門問答

      熱門文檔

      • sesese色