• 0推薦
    62K 瀏覽

    Apache Spark入門攻略

    本文聚焦Apache Spark入門,了解其在大數據領域的地位,覆蓋Apache Spark的安裝及應用程序的建立,并解釋一些常見的行為和操作。
    0推薦
    27K 瀏覽

    使用Apache Spark分析豆瓣電影數據

    上周在看豆瓣的時候,看到有豆列推薦類似豆瓣250的電影,剛好最近在學Berkeley 的Scalable Machine Learning這門課程,接觸了下Spark的基本的操作,然后就想要不然...
    0推薦
    50K 瀏覽

    分布式系統一致性問題和Raft一致性算法

    一致性算法是用來解決一致性問題的,那么什么是一致性問題呢? 在分布式系統中,一致性問題(consensus problem)是指對于一組服務器,給定一組操作,我們需要一個協議使得最后它們的結果達...
    0推薦
    18K 瀏覽

    分布式服務框架 Zookeeper -- 管理分布式環境中的數據

    Zookeeper 分布式服務框架是 Apache Hadoop 的一個子項目,它主要是用來解決分布式應用中經常遇到的一些數據管理問題,如:統一命名服務、狀態同步服務、集群管理、分布式應用配置項...
    0推薦
    25K 瀏覽

    分布式系統(Distributed System)資料

    介紹:這是一篇介紹在動態網絡里面實現分布式系統重構的paper.論文的作者(導師)是MIT讀博的時候是做分布式系統的研究的,現在在NUS帶學生,不僅僅是分布式系統,還有無線網絡.如果感興趣可以去...
    0推薦
    27K 瀏覽

    分布式存儲必讀論文

    分布式存儲泛指存儲存儲和管理數據的系統, 與無狀態的應用服務器不同, 如何處理各種故障以保證數據一致,數據不丟, 數據持續可用, 是分布式存儲系統的核心問題,也是極具挑戰的問題。 本文總結了分布...
    0推薦
    45K 瀏覽

    Spark性能調優

    通常我們對一個系統進行性能優化無怪乎兩個步驟——性能監控和參數調整,本文主要分享的也是這兩方面內容。
    0推薦
    33K 瀏覽

    基于Zookeeper的分布式共享鎖

    首先,說說我們的場景,訂單服務是做成集群的,當兩個以上結點同時收到一個相同訂單的創建指令,這時并發就產生了,系統就會重復創建訂單。等等......場景。這時,分布式共享鎖就閃亮登場了。
    0推薦
    18K 瀏覽

    常見分布式計算框架特點

    Hadoop在使用原理上基本上遵照了Map、Reduce這樣的一種模式進行項目的實際開發與交互,將一個個任務分解成映射與合并兩種方式,然而通過映射進行分類與簡化,從而產生部分歸并結果,然后對同類...
    0推薦
    20K 瀏覽

    分布式文件系統HDFS簡要介紹

    HDFS 是Hadoop 項目中的文件系統。是Hadoop 框架的底層實現部分, 具有高傳輸率、高容錯率等特點, 并且以流的形式訪問文件系統中的數據,從而解決訪問速度和安全性等問題,實現海量數據的存儲管理。
    0推薦
    32K 瀏覽

    Ceph在高IO下的死鎖故障

    在一臺高性能PC服務器上,使用ceph做虛擬機鏡像的存儲。在做壓力測試的情況下,出現了該服務器所有虛擬機不能訪問的故障。
    0推薦
    57K 瀏覽

    使用OpenStack管理Docker容器(一)

    本文將講述如何使用OpenStack創建并管理Docker,有3種流行的使用方法,使用的分別是Nova Docker驅動,Heat Docker插件,以及Magnum。這篇文章分成2部分,第一部...
    0推薦
    414K 瀏覽

    CentOS7安裝Hadoop2.7完整流程

    總體思路,準備主從服務器,配置主服務器可以無密碼SSH登錄從服務器,解壓安裝JDK,解壓安裝Hadoop,配置hdfs、mapreduce等主從關系。
    0推薦
    52K 瀏覽

    Ceph論文譯文 Ceph:一個可擴展,高性能分布式文件系統

    我們開發Ceph,一個分布式文件系統,它提供了優秀的性能、可靠性和可伸縮性。Ceph通過用一個偽隨機數據分布函數(CRUSH)替代分布 表來最大化的分離數據與元數據管理,這個算法用于異構和動態不...
    0推薦
    236K 瀏覽

    分布式存儲 CentOS6.5虛擬機環境搭建FastDFS-5.0.5集群

    由于公司項目需要,最近開始學習一下分布式存儲相關知識,確定使用FastDFS這個開源工具。利用周末的時間在虛擬機上搭建了分布式存儲系統,在搭建過 程中,發現網上的資料說的并不是很全,...
    0推薦
    28K 瀏覽

    開源云計算平臺CloudStack介紹

    CloudStack是一個開源的具有高可用性及擴展性的云計算平臺。目前Cloudstack支持管理大部分主流的hypervisors,如 KVM,XenServer,VMware,Oracle ...
    0推薦
    208K 瀏覽

    Spark運行環境的安裝

    Spark功能還是蠻強的,安裝的東西可是不少,好在搞完一次就可以一直用(除非用不上)。這里介紹安裝需要的軟件和步驟。不同機器可能還有些設置不一樣的,需要自己去摸索,畢竟這個是開源軟件,好事是有問...
    0推薦
    53K 瀏覽

    關于Spark的基本概念和特性簡介

    Spark是近年來發展較快的分布式并行數據處理框架,可以與Hadoop聯合使用,增強Hadoop的性能。同時,Spark還增加了內存緩存、流數據處理、圖數據處理等更為高級的數據處理能力。這里簡單...
    0推薦
    24K 瀏覽

    Zookeeper 在Hadoop中的應用

    Zookeeper 分布式服務框架是 Apache Hadoop 的一個子項目,它主要是用來解決分布式應用中經常遇到的一些數據管理問題,如:統一命名服務、狀態同步服務、集群管理、分布式應用配置項...
    0推薦
    22K 瀏覽

    怎樣利用Spark Streaming和Hadoop實現近實時的會話連接

    這個 Spark Streaming 樣例是一個可持久化到Hadoop近實時會話的很好的例子。 Spark Streaming 是Apache Spark 中最有趣的組件之一。你用Spa...
    1 2 3 4 5 6 7 8 9 10

    經驗分享,提升職場影響力

    投稿

    熱門問答

      熱門文檔

      • sesese色