• P60

      開源的SaaS解決方案_0.9 文檔

    1560.04 25. Sql 數據擴展問題 26. Case 2 –hadoop HBase& Hive2003年Google三篇論文:GFS,MapReduce,Bigtable Hbase是一個分

    xrogzu 2015-11-13   731   0
    方案   Apache   HTTP   Java   Go  

    RHadoop環境搭建 經驗

    HADOOP環境(這里只需要hadoop) hadoop-1.0.3??hbase-0.94.2??hive-0.9.0??pig-0.10.0??sqoop-1.4.2??thrift-0.8.0??zookeeper-3

    jopen 2014-10-31   21736   0

    GitHub上整理的一些工具 經驗

    Hadoop:分布式的文件系統,結合其MapReduce編程模型可以用來做海量數據的批處理(Hive,Pig,HBase啥的就不說了),值得介紹的是Cloudera的Hadoop分支CDH5,基于YARN

    jopen 2015-11-18   110476   0
    Github  

    基于Solr的淘寶商家交易數據實時查詢方法 經驗

    些固有特性已經很難滿足大數據時代對數據處理的需求。 ` 所以,在大數據時代使用hadoop,hive,spark,作為處理離線大數據的補充手段已經大行其道。以上提到的這些數據處理手段,只能離線數據

    JasminUDKU 2016-02-02   41954   0

    使用Spark Streaming + Kudu + Impala構建一個預測引擎 經驗

    {"urlkey":"hbase","topic_name":"HBase"}, {"urlkey":"hive","topic_name":"Hive"}],"group_lon":-121.93},"venue": {"lon":-121

    使用 Azure、Hadoop 和 Mahout 構建一個推薦系統 經驗

    Id,QuestionId--所有被一個用戶回答的問題。如果你愿意,你可以把數據從HDFS加載到Hive,并用帶有ODBC的Microsoft Excel觀察到同樣的結果。可以參看我之前寫的文章。 第

    jopen 2013-07-17   33383   0
    Hadoop   Mahout  

    Facebook崛起背后的數據天才 資訊

    方法——能夠比甲骨文的數據倉庫,處理更大量的信息。 而 Facebook 還研究了一個叫作 Hive(蜂巢)的產品——分析師可以應用這一工具,使用一種與結構化查詢語言(SQL)相似的語言,處理 Hadoop

    jopen 2013-02-05   22043   0

    GitHub上整理的一些工具 資訊

    Hadoop:分布式的文件系統,結合其MapReduce編程模型可以用來做海量數據的批處理(Hive,Pig,HBase啥的就不說了),值 得介紹的是Cloudera的Hadoop分支CDH5,基于YARN

    jopen 2015-02-16   97295   1
    Github  

    GitHub上整理的一些資料 經驗

    大數據處理/數據分析/分布式工具 Hadoop:分布式的文件系統,結合其MapReduce編程模型可以用來做海量數據的批處理(Hive,Pig,HBase啥的就不說了),值得介紹的是Cloudera的Hadoop分支CDH5,基于YARN

    jopen 2014-11-25   115612   0
    Github  

    讓數據告訴你未來:Spark Streaming+Kudu+Impala構建預測引擎 經驗

    {"urlkey":"hbase","topic_name":"HBase"}, {"urlkey":"hive","topic_name":"Hive"}],"group_lon":-121.93},"venue": {"lon":-121

    ususking 2016-05-18   35287   0

    高度敏感應用程序的遷移 經驗

    作業以便從Cassandra和Oracle中拉取數據,并將其以可查詢格式寫入Hive,這樣就可以將這兩套數據集匯總至Hive,實現更快速的排錯。 為了讓DVD服務器能夠連接云環境,我們為DVD設置

    dpcg2771 2016-09-19   4921   0

    分布式日志收集收集系統:Flume 經驗

    3 、Storage storage是存儲系統,可以是一個普通file,也可以是HDFS,HIVE,HBase,分布式存儲等。 4 、Master Master是管理協調Agent和Co

    jopen 2014-12-04   67408   0
    Flume  
    P6

      大數據下的數據分析平臺架構 文檔

    acebook針對Hive開發的RCFile數據格式,就是采用了上述的一些優化技術,從而達到了較好的數據分析性能。如圖2所示。 然而,對于Hadoop平臺來說,單單通過使用Hive模仿出SQL,對于數

    shuixian0626 2012-07-06   4913   0

    關于CarbonData+Spark SQL的一些應用實踐和調優經驗分享 經驗

    ,也降低了編程難度。 2011年,Spark團隊將Hive的底層物理執行模塊從Hadoop切換成Shark,啟動了Shark項目。 然而,由于Hive自身的代碼復雜性以及和Hadoop MapRedu

    AAFDell 2017-09-11   32989   0

    10個很棒的學習Android 開發的網站 資訊

    ,也表現出了博主的專業與敬業,博主寫的東西也是跟隨新技術,可實用性特別強。 Android Hive Android SDK - Tuts+ Code Tuts+ 是一個技術教程,課程和電子書

    jopen 2015-02-27   38069   0
    Android  

    分布式內存文件系統:Tachyon 經驗

    比較好的策略是每次當前一個checkpoint完成之后,就會checkpoint一個最新生成的文件。當然想Hadoop,Hive這樣的中間文件,需要刪除的,是不需要checkpoint的。 下圖來自Tachyon的作者 Haoyuan

    jopen 2014-09-03   188748   0

    5 個開源 Python 庫,讓機器學習更簡單 經驗

    創建,用于“解決與長期運行成批處理作業有關的管道問題”。開發者可以通過 Luigi 采用多個不同且不相關的數據處理任務,如,Hive 查詢,Java 中的 Hadoop 任務,Scala 中的 Spark 任務,從數據庫轉儲 table

    m645218h88 2017-03-09   13504   0

    MapReduce模式、算法和用例 資訊

    模式,Katsov 討論了包括多關系形 MapReduce 模式,通常用于數據倉庫應用程序。這些模式在 Hive 和 Pig 實現中廣泛使用,并包括基于推斷/函數的數據選擇,數據預測、數據聯合、差分、交集和分

    openkk 2012-02-15   17978   0

    Spark 1.4 新特性概述 資訊

    支持老牌的ORCFile了,雖然比Parquet年輕,但是人家bug少啊 : ) 1.4提供了類似于Hive中的window function,還是比較實用的。本次對于join的優化還是比較給力的,特別是

    gf67 2015-06-12   22439   0
    Spark  

    Spark 1.4最大的看點:支持R語言(SparkR) 資訊

    本文地址:http://www.iteblog.com/archives/1315 * 過往記憶博客,專注于hadoop、hive、spark、shark、flume的技術博客,大量的干貨 * 過往記憶博客微信公共帳號:iteblog_hadoop

    jopen 2015-04-13   23899   0
    Spark  
    1 2 3 4 5 6 7 8 9 10
  • sesese色