開源項目,開源代碼,開源文檔,開源新聞,開源社區

P60

1560.04 25. Sql 數據擴展問題 26. Case 2 –hadoop HBase& Hive2003年Google三篇論文:GFS,MapReduce,Bigtable Hbase是一個分

xrogzu 2015-11-13 731 0

方案 Apache HTTP Java Go

HADOOP環境(這里只需要hadoop) hadoop-1.0.3??hbase-0.94.2??hive-0.9.0??pig-0.10.0??sqoop-1.4.2??thrift-0.8.0??zookeeper-3

jopen 2014-10-31 21736 0

RHadoop 分布式/云計算/大數據

Hadoop：分布式的文件系統，結合其MapReduce編程模型可以用來做海量數據的批處理（Hive，Pig，HBase啥的就不說了），值得介紹的是Cloudera的Hadoop分支CDH5，基于YARN

jopen 2015-11-18 110476 0

Github

些固有特性已經很難滿足大數據時代對數據處理的需求。 ` 所以，在大數據時代使用hadoop，hive，spark，作為處理離線大數據的補充手段已經大行其道。以上提到的這些數據處理手段，只能離線數據

JasminUDKU 2016-02-02 41954 0

Solr 搜索引擎

{"urlkey":"hbase","topic_name":"HBase"}, {"urlkey":"hive","topic_name":"Hive"}],"group_lon":-121.93},"venue": {"lon":-121

HerQuinlan 2016-06-01 37733 0

Impala 分布式/云計算/大數據 Spark Streaming

Id,QuestionId--所有被一個用戶回答的問題。如果你愿意，你可以把數據從HDFS加載到Hive,并用帶有ODBC的Microsoft Excel觀察到同樣的結果。可以參看我之前寫的文章。第

jopen 2013-07-17 33383 0

Hadoop Mahout

方法——能夠比甲骨文的數據倉庫，處理更大量的信息。而 Facebook 還研究了一個叫作 Hive（蜂巢）的產品——分析師可以應用這一工具，使用一種與結構化查詢語言（SQL）相似的語言，處理 Hadoop

jopen 2013-02-05 22043 0

Facebook

Hadoop：分布式的文件系統，結合其MapReduce編程模型可以用來做海量數據的批處理（Hive，Pig，HBase啥的就不說了），值得介紹的是Cloudera的Hadoop分支CDH5，基于YARN

jopen 2015-02-16 97295 1

Github

大數據處理/數據分析/分布式工具 Hadoop：分布式的文件系統，結合其MapReduce編程模型可以用來做海量數據的批處理（Hive，Pig，HBase啥的就不說了），值得介紹的是Cloudera的Hadoop分支CDH5，基于YARN

jopen 2014-11-25 115612 0

Github

{"urlkey":"hbase","topic_name":"HBase"}, {"urlkey":"hive","topic_name":"Hive"}],"group_lon":-121.93},"venue": {"lon":-121

ususking 2016-05-18 35287 0

Spark Impala 分布式/云計算/大數據

作業以便從Cassandra和Oracle中拉取數據，并將其以可查詢格式寫入Hive，這樣就可以將這兩套數據集匯總至Hive，實現更快速的排錯。為了讓DVD服務器能夠連接云環境，我們為DVD設置

dpcg2771 2016-09-19 4921 0

數據庫 Cassandra

3 、Storage storage是存儲系統，可以是一個普通file，也可以是HDFS，HIVE，HBase，分布式存儲等。 4 、Master Master是管理協調Agent和Co

jopen 2014-12-04 67408 0

Flume

P6

acebook針對Hive開發的RCFile數據格式，就是采用了上述的一些優化技術，從而達到了較好的數據分析性能。如圖2所示。然而，對于Hadoop平臺來說，單單通過使用Hive模仿出SQL，對于數

shuixian0626 2012-07-06 4913 0

分布式/云計算/大數據

，也降低了編程難度。 2011年，Spark團隊將Hive的底層物理執行模塊從Hadoop切換成Shark，啟動了Shark項目。然而，由于Hive自身的代碼復雜性以及和Hadoop MapRedu

AAFDell 2017-09-11 32989 0

Spark SQL 分布式/云計算/大數據

，也表現出了博主的專業與敬業，博主寫的東西也是跟隨新技術，可實用性特別強。 Android Hive Android SDK - Tuts+ Code Tuts+ 是一個技術教程，課程和電子書

jopen 2015-02-27 38069 0

Android

比較好的策略是每次當前一個checkpoint完成之后，就會checkpoint一個最新生成的文件。當然想Hadoop，Hive這樣的中間文件，需要刪除的，是不需要checkpoint的。下圖來自Tachyon的作者 Haoyuan

jopen 2014-09-03 188748 0

Tachyon 分布式/云計算/大數據

創建，用于“解決與長期運行成批處理作業有關的管道問題”。開發者可以通過 Luigi 采用多個不同且不相關的數據處理任務，如，Hive 查詢，Java 中的 Hadoop 任務，Scala 中的 Spark 任務，從數據庫轉儲 table

m645218h88 2017-03-09 13504 0

Python 數據挖掘開源 Python開發

模式，Katsov 討論了包括多關系形 MapReduce 模式，通常用于數據倉庫應用程序。這些模式在 Hive 和 Pig 實現中廣泛使用，并包括基于推斷/函數的數據選擇，數據預測、數據聯合、差分、交集和分

openkk 2012-02-15 17978 0

MapReduce

支持老牌的ORCFile了，雖然比Parquet年輕，但是人家bug少啊 : ) 1.4提供了類似于Hive中的window function，還是比較實用的。本次對于join的優化還是比較給力的，特別是

gf67 2015-06-12 22439 0

Spark

本文地址：http://www.iteblog.com/archives/1315 * 過往記憶博客，專注于hadoop、hive、spark、shark、flume的技術博客，大量的干貨 * 過往記憶博客微信公共帳號：iteblog_hadoop

jopen 2015-04-13 23899 0

Spark

開源的SaaS解決方案_0.9 文檔

RHadoop環境搭建經驗

GitHub上整理的一些工具經驗

基于Solr的淘寶商家交易數據實時查詢方法經驗

使用Spark Streaming + Kudu + Impala構建一個預測引擎經驗

使用 Azure、Hadoop 和 Mahout 構建一個推薦系統經驗

Facebook崛起背后的數據天才資訊

GitHub上整理的一些工具資訊

GitHub上整理的一些資料經驗

讓數據告訴你未來：Spark Streaming+Kudu+Impala構建預測引擎經驗

高度敏感應用程序的遷移經驗

分布式日志收集收集系統：Flume 經驗

大數據下的數據分析平臺架構文檔

關于CarbonData+Spark SQL的一些應用實踐和調優經驗分享經驗

10個很棒的學習Android 開發的網站資訊

分布式內存文件系統：Tachyon 經驗

5 個開源 Python 庫，讓機器學習更簡單經驗

MapReduce模式、算法和用例資訊

Spark 1.4 新特性概述資訊

Spark 1.4最大的看點：支持R語言(SparkR) 資訊

Hive學習筆記的相關搜索

關鍵詞

開源的SaaS解決方案_0.9 文檔

RHadoop環境搭建 經驗

GitHub上整理的一些工具 經驗

基于Solr的淘寶商家交易數據實時查詢方法 經驗

使用Spark Streaming + Kudu + Impala構建一個預測引擎 經驗

使用 Azure、Hadoop 和 Mahout 構建一個推薦系統 經驗

Facebook崛起背后的數據天才 資訊

GitHub上整理的一些工具 資訊

GitHub上整理的一些資料 經驗

讓數據告訴你未來：Spark Streaming+Kudu+Impala構建預測引擎 經驗

高度敏感應用程序的遷移 經驗

分布式日志收集收集系統：Flume 經驗

大數據下的數據分析平臺架構 文檔

關于CarbonData+Spark SQL的一些應用實踐和調優經驗分享 經驗

10個很棒的學習Android 開發的網站 資訊

分布式內存文件系統：Tachyon 經驗

5 個開源 Python 庫，讓機器學習更簡單 經驗

MapReduce模式、算法和用例 資訊

Spark 1.4 新特性概述 資訊

Spark 1.4最大的看點：支持R語言(SparkR) 資訊

Hive學習筆記 的相關搜索

關鍵詞

RHadoop環境搭建經驗

GitHub上整理的一些工具經驗

基于Solr的淘寶商家交易數據實時查詢方法經驗

使用Spark Streaming + Kudu + Impala構建一個預測引擎經驗

使用 Azure、Hadoop 和 Mahout 構建一個推薦系統經驗

Facebook崛起背后的數據天才資訊

GitHub上整理的一些工具資訊

GitHub上整理的一些資料經驗

讓數據告訴你未來：Spark Streaming+Kudu+Impala構建預測引擎經驗

高度敏感應用程序的遷移經驗

大數據下的數據分析平臺架構文檔

關于CarbonData+Spark SQL的一些應用實踐和調優經驗分享經驗

10個很棒的學習Android 開發的網站資訊

5 個開源 Python 庫，讓機器學習更簡單經驗

MapReduce模式、算法和用例資訊

Spark 1.4 新特性概述資訊

Hive學習筆記的相關搜索