• 0推薦
    11K 瀏覽

    容器和微服務在Hadoop生態系統中找到一席之地

    云計算是將Hadoop、Spark和其他大數據技術推向虛擬化、容器和微服務的動力之一。還有許多基礎設施需要構建,但目前已經有公司開始用技術簡化這個過程。
    jsho1213 8年前   
    0推薦
    13K 瀏覽

    大數據領域開源技術 除了Hadoop你還知道哪些

    眾所周知,大數據正在以驚人的速度增長,幾乎觸及各行各業,許多組織都被迫尋找新的創造性方法來管理和控制如此龐大的數據,當然這么做的目的不只是管理和控制數據,而是要分析和挖掘其中的價值,來促進業務的發展。
    0推薦
    14K 瀏覽

    Hadoop和Spark框架的異同

    談到大數據,相信大家對Hadoop和Apache Spark這兩個名字并不陌生。但我們往往對它們的理解只是停留在字面上,并沒有對它們進行深入的思考,下面不妨跟我一塊看下它們究竟有什么異同。
    0推薦
    16K 瀏覽

    一文讀懂Hadoop、HBase、Hive、Spark分布式系統架構

    機器學習、數據挖掘等各種大數據處理都離不開各種開源分布式系統,hadoop用戶分布式存儲和map-reduce計算,spark用于分布式機器學習,hive是分布式數據庫,hbase是分布式kv系...
    0推薦
    32K 瀏覽

    Kafka實戰:從RDBMS到Hadoop,七步實現實時傳輸

    本文是關于Flume成功應用Kafka的研究案例,深入剖析它是如何將RDBMS實時數據流導入到HDFS的Hive表中。
    0推薦
    65K 瀏覽

    Kudu:支持快速分析的新型Hadoop存儲系統

    Kudu 是 Cloudera 開源的新型列式存儲系統,是 Apache Hadoop 生態圈的新成員之一( incubating ),專門為了對快速變化的數據進行快速的分析,填補了以往 Had...
    0推薦
    28K 瀏覽

    你應該知道的大數據領域12大動向

    最近這幾周大數據領域可謂動作頻頻,初創公司和老牌企業都紛紛發布新品,更新或改進現有的產品系列,以及達成戰略性關系。
    0推薦
    12K 瀏覽

    如何讓Hadoop支持優先級且性能可預測

    Apache Hadoop近十年的成長證明,用開源技術處理與訪問海量數據并不是什么炒作。然而,Hadoop的一個缺點是不可預測性。Hadoop不能確保企業的關鍵任務按時完成,也不能完全發揮集群的性能。
    0推薦
    27K 瀏覽

    呼之欲出!比Spark快10倍的Hadoop3.0有哪些實用新特性?

    Apache ?hadoop 項目組最新消息,hadoop3.x以后將會調整方案架構,將Mapreduce 基于內存+io+磁盤,共同處理數據。
    0推薦
    14K 瀏覽

    Hadoop運維經驗雜談

    分為Administrator和Development兩門課程 運維事故
    0推薦
    21K 瀏覽

    自定義Spark Partitioner提升es-hadoop Bulk效率

    之前寫過一篇文章, 如何提高ElasticSearch 索引速度 。除了對ES本身的優化以外,我現在大體思路是盡量將邏輯外移到Spark上,Spark的分布式計算能力強,cpu密集型的很適合。這...
    0推薦
    22K 瀏覽

    Hadoop 入門實踐

    Hadoop 包括如下幾個模塊:
    0推薦
    35K 瀏覽

    搭建docker hadoop環境

    因為很難真正的有一個集群環境。在一般的條件下想要模擬hadoop集群的話,我只好選擇docker 關于docker的簡介我就不在這里寫了。
    OJHVal 9年前   
    0推薦
    23K 瀏覽

    從零自學Hadoop(18):Hive的CLI和JDBC

    文章是哥(mephisto)寫的,SourceLink 上一篇,我們對hive的數據導出,以及集群Hive數據的遷移進行描述。了解到了基本的hive導出操作。這里,我們將對hive的CL...
    0推薦
    13K 瀏覽

    Hadoop2.6.2的Eclipse插件的使用

    插件下載后,放在eclipse安裝目錄下的plugins文件夾下,然后重啟eclipse,就會發現Project Explorer窗口里多出DFS Locations這一項,對應的是HDFS里存...
    0推薦
    15K 瀏覽

    hadoop與mysql數據庫的那點事

    轉眼間已經接觸了hadoop兩周了,從之前的極力排斥到如今的有點喜歡,剛開始被搭建hadoop開發環境搞得幾乎要放棄,如今學會了編寫小程序,每天都在成長一點挺好的,好好努力,為自己的裝備庫再填一...
    0推薦
    26K 瀏覽

    [Apache Kafka]Kafka集成

    少量數據的實時處理可以使用JMS(Java Messaging Service)這類技術,但是數據量很大時便會出現性能瓶頸。而且這些方案不適合橫向擴展。
    0推薦
    17K 瀏覽

    讓python在hadoop上跑起來

    duang~好久沒有更新博客啦,原因很簡單,實習啦~好吧,我過來這邊上班表示覺得自己簡直弱爆了。第一周,配置環境;第二周,將數據可視化,包括學習了excel2013的一些高大上的技能,例如數據透...
    0推薦
    21K 瀏覽

    Hadoop 壓縮實現分析

    Hadoop 作為一個較通用的海量數據處理平臺,每次運算都會需要處理大量數據,我們會在 Hadoop 系統中對數據進行壓縮處理來優化磁盤使用率,提高數據在磁盤和網絡中的傳輸速度,從而提高系統處理...
    0推薦
    33K 瀏覽

    Hadoop - Zeppelin 使用心得

    在編寫 Flink,Spark,Hive 等相關作業時,要是能快速的將我們所編寫的作業能可視化在我們面前,是件讓人興奮的時,如果能帶上趨勢功能就更好了。今天,給大家介紹這么一款工具。它就能滿足上...
    1 2 3 4 5 6 7 8 9 10

    經驗分享,提升職場影響力

    投稿

    熱門問答

      熱門文檔

      • sesese色