數據挖掘

0推薦

28K 瀏覽

一個Hive查詢生成多個map reduce job，一個map reduce job又有map，reduce，spill，shuffle，sort等多個階段，所以針對hive查詢的優化可以大致...

jopen 11年前

Hive 數據挖掘

0推薦

85K 瀏覽

re:dash 是一款開源的BI工具，提供了基于web的數據庫查詢和數據可視化功能。

jopen 11年前

數據挖掘 BI

0推薦

67K 瀏覽

Infobright是一款基于獨特的專利知識網格技術的列式數據庫。Infobright簡單易用，快速安裝部署，使用中無需復雜操作，能大幅度減少管理工作；在應對50TB甚至更多數據量進行多并發...

jopen 11年前

數據挖掘 Infobright

0推薦

64K 瀏覽

Hive 是建立在 Hadoop 上的數據倉庫基礎構架。它提供了一系列的工具，可以用來進行數據提取轉化加載（ETL），這是一種可以存儲、查詢和分析存儲在 Hadoop 中的大規模數據的機制。Hi...

jopen 11年前

Hive 數據挖掘

0推薦

18K 瀏覽

什么是數據挖掘？數據挖掘是在大型數據存儲庫中，自動地發現有用信息的過程。數據挖掘技術用來探查大型數據庫，發現前所未知的有用模式。數據挖掘還可以預測未來的觀測結果。并非所有的信息發現任務都...

jopen 11年前

數據挖掘

0推薦

23K 瀏覽

互聯網發展至今，數據規模越來越大，數據結構越來越復雜，而且對系統的需求越來越高。如果學習過數據結構，那么都知道圖是放在最后一個結構，當你學習了圖，那么應該感知到前面的鏈表，隊列，樹都是在圖上面...

jopen 11年前

數據挖掘

0推薦

24K 瀏覽

Pattern由比利時安特衛普大學CLiPS實驗室出品，客觀的說，Pattern不僅僅是一套文本處理工具，它更是一套web數據挖掘工具，囊括了數據抓取模塊（包括Google, Twitter, ...

jopen 11年前

數據挖掘 pattern

0推薦

56K 瀏覽

摘要：騰訊分布式數據倉庫基于開源軟件Hadoop和Hive進行構建,TDW計算引擎包括兩部分：MapReduce和Spark，兩者內部都包含了一個重要的過程—Shuffle。本文對Shuffle...

jopen 11年前

數據挖掘 shuffle

0推薦

176K 瀏覽

Hive是基于Hadoop的一個數據倉庫系統，在各大公司都有廣泛的應用。美團數據倉庫也是基于Hive搭建，每天執行近萬次的Hive ETL計算流程，負責每天數百GB的數據存儲和分析。Hive的穩...

jopen 11年前

Hive 數據挖掘

0推薦

34K 瀏覽

TDW，騰訊分布式數據倉庫項目，在Hadoop的基礎上開發的騰訊內部最大的離線數據處理平臺。TDW支持Oracle功能兼容的SQL語法，支持PB及的存儲和TB及的計算等。

jopen 11年前

數據挖掘 TDW

0推薦

34K 瀏覽

Pentaho Kettle ，強大的PDI （ETL）工具。

jopen 11年前

數據挖掘 Kettle

0推薦

79K 瀏覽

數據經常被稱為一座金礦，尤其是在當今數據驅動的經濟環境下更是如此。怎樣把數據集在OpenRefine中進行轉換，優化數據的質量以便于在真實場景下重用它們。

jopen 11年前

數據挖掘 OpenRefine

0推薦

23K 瀏覽

通過Hive提供的order by子句可以讓最終的輸出結果整體有序。但是因為Hive是基于Hadoop之上的，要生成這種整體有序的結果，就必須強迫Hadoop只利用一個Reduce來完成處理。這...

jopen 12年前

Hive 數據挖掘

0推薦

43K 瀏覽

Hive的配置文件名為hive-site.xml，你可以在Hive安裝目錄下的conf目錄下找到這個文件。如果你發現該目錄下沒有這個文件，你可以通過復制hive-default.xml.temp...

jopen 12年前

Hive 數據挖掘

0推薦

20K 瀏覽

Hive是基于Hadoop的數據倉庫平臺。 Hive提供了類SQL查詢語言。Hive的數據存儲于HDFS中。一般情況下，用戶提交的查詢將被Hive轉換為MapReduce作業并提交給Had...

jopen 12年前

Hive 數據挖掘

0推薦

20K 瀏覽

當Hive提供的內置函數無法滿足你的業務處理需要時，此時就可以考慮使用用戶自定義函數（UDF：user-defined function）。

jopen 12年前

Hive 數據挖掘

0推薦

110K 瀏覽

本文的主要內容編譯自Blaz Zupan和Janez Demsar的一篇論文（Open-Source Tools for Data Mining）。我僅僅選擇其中的要點和大家共享，同時加入一些個...

jopen 12年前

數據挖掘

0推薦

83K 瀏覽

Pig 有兩種運行模式： Local 模式和 MapReduce 模式。當 Pig 在 Local 模式運行的時候， Pig 將只訪問本地一臺主機；當 Pig 在 MapReduce 模式運行的...

jopen 12年前

數據挖掘 Pig

0推薦

58K 瀏覽

Pig是一個基于Hadoop的大規模數據分析平臺，它提供的SQL-LIKE語言叫Pig Latin，該語言的編譯器會把類SQL的數據分析請求轉換為一系列經過優化處理的MapReduce運算。使用...

jopen 12年前

數據挖掘 Pig

0推薦

49K 瀏覽

Tajo 是一個基于 Hadoop 實現的分布式數據倉庫系統，特點是低延遲、高可伸縮，提供專用查詢和針對存儲在HDFS上的大數據集和其他數據源的ETL 工具。

jopen 12年前

數據挖掘 Apache Tajo

數據倉庫中的 SQL 性能優化（Hive篇）

開源的BI工具：re:dash

開源的MySQL數據倉庫解決方案：Infobright

Hive深入淺出

圖數據挖掘淺析

web數據挖掘工具：Pattern

通過騰訊shuffle部署對shuffle過程進行詳解

Hive SQL 編譯過程詳解

騰訊分布式數據倉庫：TDW

一張圖看懂Kettle

數據清洗工具OpenRefine

Hive查詢

Hive配置運行及表的操作

Hive安裝簡介

Hive自定義函數

開源的數據挖掘工具

pig的各種運行模式與運行方式詳解

pig中各種sql語句的實現

分布式數據倉庫系統：Apache Tajo

熱門問答

熱門文檔