• 0推薦
    19K 瀏覽

    BABY夜談大數據 : 計算文本相似度

    上一章有提到過[基于關鍵詞的空間向量模型]的算法,將用戶的喜好以文檔描述并轉換成向量模型,對商品也是這么處理,然后再通過計算商品文檔和用戶偏好文檔的余弦相似度。
    0推薦
    11K 瀏覽

    Spark Application的調度算法

    要想明白spark application調度機制,需要回答一下幾個問題: 1.誰來調度? 2.為誰調度? 3.調度什么? 3.何時調度? 4.調度算法
    0推薦
    17K 瀏覽

    使用mapreduce計算環比的實例

    最近做了一個小的mapreduce程序,主要目的是計算環比值最高的前5名,本來打算使用spark計算,可是本人目前spark還只是簡單看了下,因此就先改用mapreduce計算了,今天和大家分享...
    0推薦
    37K 瀏覽

    大數據存儲技術方案介紹

    大數據存儲技術方案介紹:大數據存儲方案 Cap思想 ??分布式領域CAP理論, Consistency(一致性),?數據一致更新,所有數據變動都...
    0推薦
    12K 瀏覽

    ceph基于pglog的一致性協議

    分布式存儲系統通常采用多副本的方式來保證系統的可靠性,而多副本之間如何保證數據的一致性就是系統的核心。ceph號稱統一存儲,其核心RADOS既支持多副本,也支持糾刪碼。本文主要分析ceph的多副本一致性協議。
    0推薦
    8K 瀏覽

    Spark核心概念RDD(Resilient Distributed Datasets)

    Spark核心概念RDD(Resilient Distributed Datasets):本文介紹Spark的RDD。作為一個概念,RDD本身是與編程語言無關的,你即可以用Scala實現,也可以...
    0推薦
    19K 瀏覽

    hadoop環境搭建總結

    hadoop環境搭建總結:最近一段時間在看Hadoop The Definitive Guide, 3rd Edition.pdf,學習hadoop,個人想不能總看書,不實踐...
    0推薦
    6K 瀏覽

    Hive任務優化

    Hive任務優化--控制hive任務中的map數和reduce數:一、? ? 控制hive任務中的map數: 1.? ? 通常情況下,作業會通過input的目錄產生一個或者多個map任務...
    0推薦
    8K 瀏覽

    spark快速大數據分析之讀書筆記

    spark快速大數據分析之讀書筆記:RDD編程 1、Spark中的RDD就是一個不可變的分布式對象集合。每個RDD都被分為多個分區,這些分區運行在集群...
    0推薦
    19K 瀏覽

    0x10 SQL與NoSQL,數據橋梁Sqoop

    SQL處理二維表格數據,是一種最樸素的工具,NoSQL是NotOnlySQL,即不僅僅是SQL。從MySQL導入數據到HDFS文件系統中,最簡單的一種方式就是使用Sqoop,然后將HDFS中的數...
    0推薦
    14K 瀏覽

    centos 6.6最小化版本 安裝分布式存儲FastDFS

    centos 6.6最小化版本 安裝分布式存儲FastDFS:最小化安裝centos6.6,配置網絡 1、編譯和安裝所需的依賴包: #?yum?install?make?cmake?gcc?gcc-c...
    0推薦
    56K 瀏覽

    flume-ng+Kafka+Storm+HDFS 實時系統搭建

    flume-ng+Kafka+Storm+HDFS 實時系統搭建:一直以來都想接觸Storm實時計算這塊的東西,最近在群里看到上海一哥們羅寶寫的Flume+Kafka+Storm的實時日...
    0推薦
    34K 瀏覽

    把本地文件夾下的所有文件上傳到hdfs上并合并成一個文件

    把本地文件夾下的所有文件上傳到hdfs上并合并成一個文件
    0推薦
    18K 瀏覽

    Windows安裝和使用zookeeper

    來獲取,Zookeeper 的安裝非常簡單,下面將從單機模式和集群模式兩個方面介紹 Zookeeper 的Windows安裝和配置. 首先需要安裝JdK,從Oracle的Java網站下載,...
    0推薦
    18K 瀏覽

    流式大數據處理的三種框架:Storm,Spark和Samza

    許多分布式計算系統都可以實時或接近實時地處理大數據流。本文將對三種Apache框架分別進行簡單介紹,然后嘗試快速、高度概述其異同。
    0推薦
    25K 瀏覽

    大數據分析需要把hbase、mysql等數據導入hive嗎?

    看做什么,如果不需要對數據進行實時處理,那么大部分情況下都需要把數據從hbase/mysql(數據庫)“導入”到hive(數據倉庫)中進行分析。 “導入”的過程中會做一些元數據轉換等操作。
    0推薦
    30K 瀏覽

    Spark使用CombineTextInputFormat緩解小文件過多導致Task數目過多的問題

    目前平臺使用Kafka + Flume的方式進行實時數據接入,Kafka中的數據由業務方負責寫入,這些數據一部分由Spark Streaming進行流式計算;另一部分數據則經由Flume存儲至H...
    0推薦
    65K 瀏覽

    基于ELK的簡單數據分析

    我們的數據量沒有新浪那么大,一天正常水平在6千萬條左右,多的時候有一個億條記錄,受到新浪案例的啟發我們基于ELK搭建自己的簡單數據分析系統,剛開始選擇這個的原因:(1)就我一個人折騰東西, (2...
    0推薦
    26K 瀏覽

    一個母嬰電子商務網站的大數據平臺及機器學習實踐

    關鍵字:大數據平臺、機器學習 母嬰相對一般的電子商務網站有一些特點:第一個特點是商品周期短,在母嬰網站上的商品,在線的時間不會超過5-7天,第二個是用戶需求的變化快,在母嬰行業,可能是用戶的需...
    0推薦
    34K 瀏覽

    大數據不只是數據大 全面解析大數據

    在寫這篇文章之前,我發現身邊很多IT人對于這些熱門的新技術、新趨勢往往趨之若鶩卻又很難說的透徹,如果你問他大數據和你有什么關系?估計很少能說出一二三來。究其原因,一是因為大家對新技術有著相同的原...
    1 2 3 4 5 6 7 8 9 10

    經驗分享,提升職場影響力

    投稿

    熱門問答

      熱門文檔

      • sesese色