• 0推薦
    7K 瀏覽

    提高hadoop的mapreduce job效率筆記—–修改mapper和reducer數量

    hadoop 的mapreduce 的作業在運行過程中常常碰到一些這樣的情況: ?
    0推薦
    11K 瀏覽

    Pig + Ansj 統計中文文本詞頻

    最近特別喜歡用Pig,有能滿足大部分需求的內置函數(Built In Functions),支持自定義函數(user defined functions, UDF ),能load 純文本、avr...
    jopen 9年前   
    0推薦
    16K 瀏覽

    大數據技術hadoop入門理論系列之二—HDFS架構簡介

    HDFS全稱是Hadoop Distribute File System,是一個能運行在普通商用硬件上的分布式文件系統。與其他分布式文件系統顯著不同的特點是:
    0推薦
    10K 瀏覽

    Hadoop和Spark的處理模型比較

    Apache Spark的高性能一定程度上取決于它采用的異步并發模型(這里指server/driver端采用的模型),這與Hadoop 2.0(包括YARN和MapReduce)是一致的。Had...
    0推薦
    22K 瀏覽

    elasticsearch-hadoop使用示例

    在elasticsearch-hadoop的具體使用中碰到了幾個問題,有必要記錄一下,避免下次遇到時又要重新研究。
    0推薦
    8K 瀏覽

    Dpark源碼剖析

    Spark是一個當下很火的集群計算平臺,來自于加州大學伯克利分校的AMPLab,目前從Apache孵化器畢業,成為了Apache基金會下的頂級項目。現在的spark類似于hadoop,逐漸成長為...
    0推薦
    19K 瀏覽

    使用Docker在本地搭建hadoop,spark集群

    本環境使用的單個宿主主機,而不是跨主機集群,本spark集群環境存在的意義可能在于便于本地開發測試使用,非常輕量級和便捷。這個部署過程,最好在之前有過一定的hadoop,spark集群部署經驗的...
    0推薦
    31K 瀏覽

    Apache Eagle:eBay開源分布式實時Hadoop數據安全引擎

    Apache Eagle Committer 和 PMC 成員,eBay 分析平臺基礎架構部門高級軟件工程師,負責Eagle的產品設計、技術架構、核心實現以及開源社區推廣等。
    0推薦
    10K 瀏覽

    hadoop調度算法

    1 hadoop目前支持以下三種調度器: FifoScheduler:最簡單的調度器,按照先進先出的方式處理應用。只有一個隊列可提交應用,所有用戶提交到這個隊列。沒有應用優先級可以配置。
    0推薦
    33K 瀏覽

    新一代大數據處理引擎 Apache Flink

    這幾年大數據的飛速發展,出現了很多熱門的開源社區,其中著名的有 Hadoop、Storm,以及后來的 Spark,他們都有著各自專注的應用場景。Spark 掀開了內存計算的先河,也以內存為賭注,...
    0推薦
    257K 瀏覽

    Hadoop - Ambari集群管理剖析

    Ambari是Apache推出的一個集中管理Hadoop的集群的一個平臺,可以快速幫助搭建Hadoop及相關以來組件的平臺,管理集群方便。這篇博客記錄Ambari的相關問題和注意事項。方便為初學...
    0推薦
    20K 瀏覽

    Hadoop簡單應用案例,包括MapReduce、單詞統計、HDFS基本操作等

    Hadoop簡單應用案例,包括MapReduce、單詞統計、HDFS基本操作、web日志分析、Zookeeper基本使用等
    0推薦
    34K 瀏覽

    hadoop2.x 完全分布式詳細集群搭建(圖文:4臺機器)

    hadoop2.x 完全分布式詳細集群搭建(圖文:4臺機器)
    0推薦
    53K 瀏覽

    量化派基于Hadoop、Spark、Storm的大數據風控架構

    量化派是一家金融大數據公司,為金融機構提供數據服務和技術支持,也通過旗下產品“信用錢包”幫助個人用戶展示經濟財務等狀況,撮合金融機構為用 戶提供最優質的貸款服務。金融的本質是風險和流動性,但是目...
    0推薦
    33K 瀏覽

    脫離JVM?Hadoop生態圈的掙扎與演化

    新世紀以來,互聯網及個人終端的普及,傳統行業的信息化及物聯網的發展等 產業變化產生了大量的數據,遠遠超出了單臺機器能夠處理的范圍,分布式存儲與處理成為唯一的選項。從2005年開始,Hadoop從...
    0推薦
    12K 瀏覽

    Hadoop分布式文件系統HDFS的工作原理詳述

    Hadoop分布式文件系統(HDFS)是一種被設計成適合運行在通用硬件上的分布式文件系統。HDFS是一個高度容錯性的系統,適合部署在廉價的 機器上。它能提供高吞吐量的數據訪問,非常適合大規模數據...
    0推薦
    7K 瀏覽

    Hadoop 排重優化

    如果覺得有幫助的話就頂下吧 在統計的時候經常會用到排重,比如想統計每日登陸用戶,但是一個用戶一次多次登陸情況,或者一個產品被多少個用戶下載。。
    0推薦
    15K 瀏覽

    細細品味大數據--初識hadoop

    之前在學校的時候一直就想學習大數據方面的技術,包括hadoop和機器學習啊什么的,但是歸根結底就是因為自己太懶了,導致沒有堅持多長時間, 加上一直為offer做準備,所以當時重心放在C++上面了...
    0推薦
    14K 瀏覽

    hadoop集群數據節點gmond安裝

    hadoop集群數據節點gmond安裝
    0推薦
    32K 瀏覽

    大數據與Hadoop之間是什么關系?

    大數據在近些年來越來越火熱,人們在提到大數據遇到了很多相關概念上的問題,比如云計算、 Hadoop等等。那么,大數據是什么、Hadoop是什么,大數據和Hadoop有什么關系呢?
    1 2 3 4 5 6 7 8 9 10

    經驗分享,提升職場影響力

    投稿

    熱門問答

      熱門文檔

      • sesese色