• 0推薦
    10K 瀏覽

    Hadoop和Spark的處理模型比較

    Apache Spark的高性能一定程度上取決于它采用的異步并發模型(這里指server/driver端采用的模型),這與Hadoop 2.0(包括YARN和MapReduce)是一致的。Had...
    0推薦
    19K 瀏覽

    使用Docker在本地搭建hadoop,spark集群

    本環境使用的單個宿主主機,而不是跨主機集群,本spark集群環境存在的意義可能在于便于本地開發測試使用,非常輕量級和便捷。這個部署過程,最好在之前有過一定的hadoop,spark集群部署經驗的...
    0推薦
    21K 瀏覽

    Spark的性能調優

    下面這些關于Spark的性能調優項,有的是來自官方的,有的是來自別的的工程師,有的則是我自己總結的。
    0推薦
    49K 瀏覽

    基于Spark的機器學習經驗

    這篇內容基于我去年的一些感悟寫的,但是今年才在Stuq 的微信群做的分享。從技術角度而言,對Spark的掌握和使用還是顯得很手生的。但是今天一位做數據分析相關的朋友說,受這篇內容影響,他接受了 ...
    0推薦
    17K 瀏覽

    Spark Streaming 源碼解析系列

    作為跑在商業硬件上的大數據處理框架,Apache Hadoop 在誕生后的幾年內(2005~今)火的一塌糊涂,幾乎成為了業界處理大數據的事實上的標準工具
    0推薦
    7K 瀏覽

    Spark如何解決常見的Top N問題

    假設我們有一張各個產品線URL的訪問記錄表,該表僅僅有兩個字段:product、url,我們需要統計各個產品線下訪問次數前10的URL是哪些?
    0推薦
    10K 瀏覽

    Spark 集群概述

    本篇博客簡述 Spark 集群相關的概念。 Spark 的"集群"不是提供運算服務的,而是一種資源分配的調度器。 執行任務的 Spark 進程作為客戶端向"集群"申請資源(運算節...
    0推薦
    13K 瀏覽

    基于Spark和Flask的一個可伸縮的電影推薦系統

    這份Apache Spark教程可以指導你逐步了解如何使用 MovieLens 數據集,基于 協同過濾 建立一個電影推薦系統。協同過濾使用 Spark的交替最小方差(ALS) 算法。
    jopen 9年前   
    0推薦
    41K 瀏覽

    Spark處理Json格式數據(Python)

    Spark能夠自動推斷出Json數據集的“數據模式”(Schema),并將它加載為一個SchemaRDD實例。這種“自動”的行為是通過下述兩種方法實現的:
    0推薦
    73K 瀏覽

    如何使用Spark ALS實現協同過濾

    本文主要記錄最近一段時間學習和實現Spark MLlib中的協同過濾的一些總結,希望對大家熟悉Spark ALS算法有所幫助。 更新:
    0推薦
    45K 瀏覽

    Spark性能調優

    通常我們對一個系統進行性能優化無怪乎兩個步驟——性能監控和參數調整,本文主要分享的也是這兩方面內容。
    0推薦
    208K 瀏覽

    Spark運行環境的安裝

    Spark功能還是蠻強的,安裝的東西可是不少,好在搞完一次就可以一直用(除非用不上)。這里介紹安裝需要的軟件和步驟。不同機器可能還有些設置不一樣的,需要自己去摸索,畢竟這個是開源軟件,好事是有問...
    0推薦
    53K 瀏覽

    關于Spark的基本概念和特性簡介

    Spark是近年來發展較快的分布式并行數據處理框架,可以與Hadoop聯合使用,增強Hadoop的性能。同時,Spark還增加了內存緩存、流數據處理、圖數據處理等更為高級的數據處理能力。這里簡單...
    0推薦
    22K 瀏覽

    怎樣利用Spark Streaming和Hadoop實現近實時的會話連接

    這個 Spark Streaming 樣例是一個可持久化到Hadoop近實時會話的很好的例子。 Spark Streaming 是Apache Spark 中最有趣的組件之一。你用Spa...
    0推薦
    13K 瀏覽

    Spark學習筆記之淺釋

    Spark是一個基于內存計算的開源集群計算系統,目的是讓數據分析更加快速。 Spark非常小巧玲瓏,由加州伯克利大學AMP實驗室的小團隊開發。使用的語言 是Scala,項目...
    0推薦
    31K 瀏覽

    Spark的編譯

    由于Spark的運行環境的多樣性,如可以運行在hadoop的yarn上,這樣就必須要對Spark的源碼進行編譯。
    0推薦
    150K 瀏覽

    Spark + ansj 對大數據量中文進行分詞

    目前的分詞器大部分都是單機服務器進行分詞,或者使用hadoop mapreduce對存儲在hdfs中大量的數據文本進行分詞。由于mapreduce的速度較慢,相對spark來說代碼書寫較繁瑣。本...
    x286 9年前   
    0推薦
    254K 瀏覽

    Ubuntu下Spark開發環境搭建

    配置Ubuntu下使用Python開發Spark應用
    0推薦
    211K 瀏覽

    Spark 入門(Python、Scala 版)

    本文中,我們將首先討論如何在本地機器上利用Spark進行簡單分析。然后,將在入門級水平探索Spark,了解Spark是什么以及它如何工作(希望可以激發更多探索)。最后兩節將開始通過命令行與Spa...
    0推薦
    18K 瀏覽

    顛覆大數據分析之Spark彈性數據集

    Spark中迭代式機器學習算法的數據流可以通過圖2.3來進行理解。將它和圖2.1中Hadoop MR的迭代式機器學習的數據流比較一下。你會發現在Hadoop
    1 2 3 4 5 6 7

    經驗分享,提升職場影響力

    投稿

    熱門問答

      熱門文檔

      • sesese色