• 0推薦
    28K 瀏覽

    數據倉庫中的 SQL 性能優化(Hive篇)

    一個Hive查詢生成多個map reduce job,一個map reduce job又有map,reduce,spill,shuffle,sort等多個階段,所以針對hive查詢的優化可以大致...
    jopen 10年前   
    0推薦
    85K 瀏覽

    開源的BI工具:re:dash

    re:dash 是一款開源的BI工具,提供了基于web的數據庫查詢和數據可視化功能。
    jopen 10年前   
    0推薦
    67K 瀏覽

    開源的MySQL數據倉庫解決方案:Infobright

    Infobright是一款基于獨特的專利知識網格技術的列式數據庫。Infobright簡單易用,快速安裝部署,使用中無需復雜操作,能大幅度減少管理工作;在應對50TB甚至更多數據量進行多并發...
    jopen 10年前   
    0推薦
    64K 瀏覽

    Hive深入淺出

    Hive 是建立在 Hadoop 上的數據倉庫基礎構架。它提供了一系列的工具,可以用來進行數據提取轉化加載(ETL),這是一種可以存儲、查詢和分析存儲在 Hadoop 中的大規模數據的機制。Hi...
    jopen 10年前   
    0推薦
    18K 瀏覽

    數據挖掘

    什么是數據挖掘? 數據挖掘是在大型數據存儲庫中,自動地發現有用信息的過程。數據挖掘技術用來探查大型數據庫,發現前所未知的有用模式。數據挖掘還可以預測未來的觀測結果。并非所有的信息發現任務都...
    jopen 10年前   
    0推薦
    23K 瀏覽

    圖數據挖掘淺析

    互聯網發展至今,數據規模越來越大,數據結構越來越復雜,而且對系統的需求越來越高。如果學習 過數據結構,那么都知道圖是放在最后一個結構,當你學習了圖,那么應該感知到前面的鏈表,隊列,樹都是在圖上面...
    jopen 10年前   
    0推薦
    24K 瀏覽

    web數據挖掘工具:Pattern

    Pattern由比利時安特衛普大學CLiPS實驗室出品,客觀的說,Pattern不僅僅是一套文本處理工具,它更是一套web數據挖掘工具,囊括了數據抓取模塊(包括Google, Twitter, ...
    jopen 10年前   
    0推薦
    56K 瀏覽

    通過騰訊shuffle部署對shuffle過程進行詳解

    摘要:騰訊分布式數據倉庫基于開源軟件Hadoop和Hive進行構建,TDW計算引擎包括兩部分:MapReduce和Spark,兩者內部都包含了一個重要的過程—Shuffle。本文對Shuffle...
    jopen 10年前   
    0推薦
    176K 瀏覽

    Hive SQL 編譯過程詳解

    Hive是基于Hadoop的一個數據倉庫系統,在各大公司都有廣泛的應用。美團數據倉庫也是基于Hive搭建,每天執行近萬次的Hive ETL計算流程,負責每天數百GB的數據存儲和分析。Hive的穩...
    jopen 10年前   
    0推薦
    34K 瀏覽

    騰訊分布式數據倉庫:TDW

    TDW,騰訊分布式數據倉庫項目,在Hadoop的基礎上開發的騰訊內部最大的離線數據處理平臺。TDW支持Oracle功能兼容的SQL語法,支持PB及的存儲和TB及的計算等。
    jopen 10年前   
    0推薦
    34K 瀏覽

    一張圖看懂Kettle

    Pentaho Kettle , 強大的PDI (ETL)工具。
    jopen 10年前   
    0推薦
    79K 瀏覽

    數據清洗工具OpenRefine

    數據經常被稱為一座金礦,尤其是在當今數據驅動的經濟環境下更是如此。 怎樣把數據集在OpenRefine中進行轉換,優化數據的質量以便于在真實場景下重用它們。
    jopen 10年前   
    0推薦
    23K 瀏覽

    Hive查詢

    通過Hive提供的order by子句可以讓最終的輸出結果整體有序。但是因為Hive是基于Hadoop之上的,要生成這種整體有序的結果,就必須強迫Hadoop只利用一個Reduce來完成處理。這...
    jopen 10年前   
    0推薦
    43K 瀏覽

    Hive配置運行及表的操作

    Hive的配置文件名為hive-site.xml,你可以在Hive安裝目錄下的conf目錄下找到這個文件。如果你發現該目錄下沒有這個文件,你可以通過復制hive-default.xml.temp...
    jopen 10年前   
    0推薦
    20K 瀏覽

    Hive安裝簡介

    Hive是基于Hadoop的數據倉庫平臺。 Hive提供了類SQL查詢語言。Hive的數據存儲于HDFS中。一般情況下,用戶提交的查詢將被Hive轉換為MapReduce作業并提交給Had...
    jopen 10年前   
    0推薦
    20K 瀏覽

    Hive自定義函數

    當Hive提供的內置函數無法滿足你的業務處理需要時,此時就可以考慮使用用戶自定義函數(UDF:user-defined function)。
    jopen 10年前   
    0推薦
    110K 瀏覽

    開源的數據挖掘工具

    本文的主要內容編譯自Blaz Zupan和Janez Demsar的一篇論文(Open-Source Tools for Data Mining)。我僅僅選擇其中的要點和大家共享,同時加入一些個...
    jopen 11年前   
    0推薦
    83K 瀏覽

    pig的各種運行模式與運行方式詳解

    Pig 有兩種運行模式: Local 模式和 MapReduce 模式。當 Pig 在 Local 模式運行的時候, Pig 將只訪問本地一臺主機;當 Pig 在 MapReduce 模式運行的...
    jopen 11年前   
    0推薦
    58K 瀏覽

    pig中各種sql語句的實現

    Pig是一個基于Hadoop的大規模數據分析平臺,它提供的SQL-LIKE語言叫Pig Latin,該語言的編譯器會把類SQL的數據分析請求轉換為一系列經過優化處理的MapReduce運算。使用...
    jopen 11年前   
    0推薦
    49K 瀏覽

    分布式數據倉庫系統:Apache Tajo

    Tajo 是一個基于 Hadoop 實現的分布式數據倉庫系統,特點是低延遲、高可伸縮,提供專用查詢和針對存儲在HDFS上的大數據集和其他數據源的ETL 工具。
    jopen 11年前   
    1 2 3 4 5 6 7 8 9

    經驗分享,提升職場影響力

    投稿

    熱門問答

      熱門文檔

      • sesese色