登錄
注冊
首頁
項目
經驗
代碼
文庫
問答
博客
資訊
數據挖掘
(共
173
篇經驗)
0
推薦
28K
瀏覽
數據倉庫中的 SQL 性能優化(Hive篇)
一個Hive查詢生成多個map reduce job,一個map reduce job又有map,reduce,spill,shuffle,sort等多個階段,所以針對hive查詢的優化可以大致...
jopen
10年前
Hive
數據挖掘
0
推薦
85K
瀏覽
開源的BI工具:re:dash
re:dash 是一款開源的BI工具,提供了基于web的數據庫查詢和數據可視化功能。
jopen
10年前
數據挖掘
BI
0
推薦
67K
瀏覽
開源的MySQL數據倉庫解決方案:Infobright
Infobright是一款基于獨特的專利知識網格技術的列式數據庫。Infobright簡單易用,快速安裝部署,使用中無需復雜操作,能大幅度減少管理工作;在應對50TB甚至更多數據量進行多并發...
jopen
10年前
數據挖掘
Infobright
0
推薦
64K
瀏覽
Hive深入淺出
Hive 是建立在 Hadoop 上的數據倉庫基礎構架。它提供了一系列的工具,可以用來進行數據提取轉化加載(ETL),這是一種可以存儲、查詢和分析存儲在 Hadoop 中的大規模數據的機制。Hi...
jopen
10年前
Hive
數據挖掘
0
推薦
18K
瀏覽
數據挖掘
什么是數據挖掘? 數據挖掘是在大型數據存儲庫中,自動地發現有用信息的過程。數據挖掘技術用來探查大型數據庫,發現前所未知的有用模式。數據挖掘還可以預測未來的觀測結果。并非所有的信息發現任務都...
jopen
10年前
數據挖掘
0
推薦
23K
瀏覽
圖數據挖掘淺析
互聯網發展至今,數據規模越來越大,數據結構越來越復雜,而且對系統的需求越來越高。如果學習 過數據結構,那么都知道圖是放在最后一個結構,當你學習了圖,那么應該感知到前面的鏈表,隊列,樹都是在圖上面...
jopen
10年前
數據挖掘
0
推薦
24K
瀏覽
web數據挖掘工具:Pattern
Pattern由比利時安特衛普大學CLiPS實驗室出品,客觀的說,Pattern不僅僅是一套文本處理工具,它更是一套web數據挖掘工具,囊括了數據抓取模塊(包括Google, Twitter, ...
jopen
10年前
數據挖掘
pattern
0
推薦
56K
瀏覽
通過騰訊shuffle部署對shuffle過程進行詳解
摘要:騰訊分布式數據倉庫基于開源軟件Hadoop和Hive進行構建,TDW計算引擎包括兩部分:MapReduce和Spark,兩者內部都包含了一個重要的過程—Shuffle。本文對Shuffle...
jopen
10年前
數據挖掘
shuffle
0
推薦
176K
瀏覽
Hive SQL 編譯過程詳解
Hive是基于Hadoop的一個數據倉庫系統,在各大公司都有廣泛的應用。美團數據倉庫也是基于Hive搭建,每天執行近萬次的Hive ETL計算流程,負責每天數百GB的數據存儲和分析。Hive的穩...
jopen
10年前
Hive
數據挖掘
0
推薦
34K
瀏覽
騰訊分布式數據倉庫:TDW
TDW,騰訊分布式數據倉庫項目,在Hadoop的基礎上開發的騰訊內部最大的離線數據處理平臺。TDW支持Oracle功能兼容的SQL語法,支持PB及的存儲和TB及的計算等。
jopen
10年前
數據挖掘
TDW
0
推薦
34K
瀏覽
一張圖看懂Kettle
Pentaho Kettle , 強大的PDI (ETL)工具。
jopen
10年前
數據挖掘
Kettle
0
推薦
79K
瀏覽
數據清洗工具OpenRefine
數據經常被稱為一座金礦,尤其是在當今數據驅動的經濟環境下更是如此。 怎樣把數據集在OpenRefine中進行轉換,優化數據的質量以便于在真實場景下重用它們。
jopen
10年前
數據挖掘
OpenRefine
0
推薦
23K
瀏覽
Hive查詢
通過Hive提供的order by子句可以讓最終的輸出結果整體有序。但是因為Hive是基于Hadoop之上的,要生成這種整體有序的結果,就必須強迫Hadoop只利用一個Reduce來完成處理。這...
jopen
10年前
Hive
數據挖掘
0
推薦
43K
瀏覽
Hive配置運行及表的操作
Hive的配置文件名為hive-site.xml,你可以在Hive安裝目錄下的conf目錄下找到這個文件。如果你發現該目錄下沒有這個文件,你可以通過復制hive-default.xml.temp...
jopen
10年前
Hive
數據挖掘
0
推薦
20K
瀏覽
Hive安裝簡介
Hive是基于Hadoop的數據倉庫平臺。 Hive提供了類SQL查詢語言。Hive的數據存儲于HDFS中。一般情況下,用戶提交的查詢將被Hive轉換為MapReduce作業并提交給Had...
jopen
10年前
Hive
數據挖掘
0
推薦
20K
瀏覽
Hive自定義函數
當Hive提供的內置函數無法滿足你的業務處理需要時,此時就可以考慮使用用戶自定義函數(UDF:user-defined function)。
jopen
10年前
Hive
數據挖掘
0
推薦
110K
瀏覽
開源的數據挖掘工具
本文的主要內容編譯自Blaz Zupan和Janez Demsar的一篇論文(Open-Source Tools for Data Mining)。我僅僅選擇其中的要點和大家共享,同時加入一些個...
jopen
11年前
數據挖掘
0
推薦
83K
瀏覽
pig的各種運行模式與運行方式詳解
Pig 有兩種運行模式: Local 模式和 MapReduce 模式。當 Pig 在 Local 模式運行的時候, Pig 將只訪問本地一臺主機;當 Pig 在 MapReduce 模式運行的...
jopen
11年前
數據挖掘
Pig
0
推薦
58K
瀏覽
pig中各種sql語句的實現
Pig是一個基于Hadoop的大規模數據分析平臺,它提供的SQL-LIKE語言叫Pig Latin,該語言的編譯器會把類SQL的數據分析請求轉換為一系列經過優化處理的MapReduce運算。使用...
jopen
11年前
數據挖掘
Pig
0
推薦
49K
瀏覽
分布式數據倉庫系統:Apache Tajo
Tajo 是一個基于 Hadoop 實現的分布式數據倉庫系統,特點是低延遲、高可伸縮,提供專用查詢和針對存儲在HDFS上的大數據集和其他數據源的ETL 工具。
jopen
11年前
數據挖掘
Apache Tajo
1
2
3
4
5
6
7
8
9
經驗分享,提升職場影響力
投稿
熱門問答
熱門文檔
sesese色