開源項目,開源代碼,開源文檔,開源新聞,開源社區

94個節點，每天掃描數據量在500T左右。它快其實是針對于Hive相比，它是基于這種架構，它不會產生數據的堵塞和等待的過程，它的性能非常快。如果大家沒有用過Hive的話，它完全支持標準的規范。 PrestoD

jopen 2015-06-26 36048 0

PrestoDB

P24

?前言: 3 一、Hadoop生態圈： 3 Hadoop 4 HBase 5 Hive 6 Apache?Pig: 6 Impala： 7 Flume： 7 Sqoop: 8 Chukwa： 8 Mahout:

guet_lee 2017-01-12 2237 0

分布式/云計算/大數據

P24

?前言: 3 一、Hadoop生態圈： 3 Hadoop 4 HBase 5 Hive 6 Apache?Pig: 6 Impala： 7 Flume： 7 Sqoop: 8 Chukwa： 8 Mahout:

wzf1118 2016-11-04 2940 0

分布式/云計算/大數據

設置shard數目，為什么是適當，因為具體取決于集群規模等多種因素。字段名的大小寫問題在hive中，字段名是_大小寫不敏感_的, 但在ES中是大小寫敏感的你說，這又怎么樣。呵呵，這意

jopen 2016-01-07 22370 0

Hadoop ElasticSearch 搜索引擎 Elastic Search

P15

經驗分享：數據格式Conversion is easy if you already have a Pig/Hive loader for your old data 10. 10SPARKSQL 經驗分享：Load

cdop 2014-12-29 732 0

Spark 分布式/云計算/大數據 Scala SQL

Hadoop 查詢處理 ”，在這個呈現中他們討論了 Tez 的設計，它的一些突出亮點，同時還分享了通過讓 Hive 使用 Tez 而不是 MapReduce 而獲得的一些初始成果。呈現記錄由 Roopesh

jopen 2014-10-13 30952 0

分布式/云計算/大數據 Apache Tez

P7

大數據查詢和分析技術（ SQL on Hadoop） ? Hive：基本的Hadoop查詢和分析 ? Hive 2.0（ stinger、 presto）： Hive的優化和升級 ? 實時互動SQL(impala、

loveqiqi 2015-05-09 693 0

分布式/云計算/大數據

true，只需要修改這一個參數就可以配置是否開啟tungsten優化（默認是開啟的）。 DataFrame/SQL/Hive 在DataFrame API方面，實現了新的聚合函數接口AggregateFunction

jopen 2015-09-10 23843 0

Apache Spark

P17

2010-09-04 2. 主要內容淘寶的數據云梯介紹對Hadoop的主要功能擴展與改造 Hive實踐對Hive的改造分布式數據倉庫構思 3. 淘寶的數據Oracle 備庫MySQL 備庫日志系統云

qooxdoo 2010-11-28 5389 0

淘寶分布式/云計算/大數據淘寶分布式數據處理實踐方案 Java

PostgreSQL、Redshift、SQL Server、BigQuery、Vertica、Hive和Impala這八款數據庫進行了比較。 1.查詢錯誤是否容易解決首先，Benn Sta

lzyclement 2016-06-15 17165 0

MySQL Redshift Vertica PostgreSQL SQL Server

擴展到其他系統。其他改進則包括全新的性能輔助調整（tuning aids）、支持對Apache Hive及EMC的Greenplum數據庫的本地SQL代碼自動生成等。 In?nispan 是個開源

jopen 2011-11-02 18601 0

商業智能BI

PostgreSQL、Redshift、SQL Server、BigQuery、Vertica、Hive和Impala這八款數據庫進行了比較。首先，Benn Stancil認為查詢錯誤是否容易解

jopen 2015-12-30 6754 0

數據庫

交互式查詢能力。用戶能夠通過Kylin在秒級別的延遲狀況下同Hadoop進行交互，并且對于相同的數據。集效果優于Hive的查詢多維聯機分析處理數據倉庫（MOLAP Cube）。用戶能夠定義數據模型，并且通過Kyli

jopen 2014-12-02 33465 0

Kylin 數據挖掘

P113

最早我用C/C++語言慢慢寫抓網頁的用它來抓網頁真的是程式，一開始甚至打算自己寫抓取網頁的函式庫，想說當做練習，可是HTTP協定雖然不難，可是煩，要處理的細節太多了，後來受不了，轉而使用現成的Library :

f453 2015-10-25 4923 0

Python開發

P114

最早我用C/C++語言慢慢寫抓網頁的用它來抓網頁真的是程式，一開始甚至打算自己寫抓取網頁的函式庫，想說當做練習，可是HTTP協定雖然不難，可是煩，要處理的細節太多了，後來受不了，轉而使用現成的Library :

lx82319214 2013-11-13 1734 0

網絡爬蟲

40T 存儲評估我們的業務是IO密集型+CPU密集型都有的業務,一個系統中既有離線任務(mr,hive), 也有基于內存計算(hbase,impala,spark),流計算(storm,sparkstreaming)等多種類型

dongpo 2016-01-27 21195 0

分布式/云計算/大數據

op 也快速成為 Apache 軟件基金會的金牌項目之一。不僅如此，它還孕育了包括 HBase、Hive、ZooKeeper 等一系列知名 Apache 頂級項目，而這些項目一開始都是以 Apache

jopen 2018-07-11 15687 0

Hadoop 騰訊

P26

affected (0.00 sec) （6）Create a database for the Hive metastore. The database name, user name, and password

marvel1014 2016-12-26 2280 0

分布式/云計算/大數據手冊 Apache x86 Go

5 ）使用案例介紹第七講 Hive 及云數據倉庫 1) Hive 介紹 2) 云數據倉庫搭建 3) Hive 數據分析 4) Hive 實用案例第八講從關系數據庫到云數據

3173130229 2014-12-28 14984 0

數據庫 ci 云計算 C/C++

心的查詢引擎，是基于apache hive這個開源軟件。但是僅僅使用開源軟件，又不能完全滿足騰訊的業務需求，因此，我們需要再開源軟件基礎上，根據騰訊的業務特點，進行定制和優化。在 TDW的研發過程中，我們基于hive和hado

jopen 2014-03-31 34230 0

TDW 數據挖掘

呂信：PrestoDB在京東的應用實踐資訊

大數據分析系統架構之探討文檔

大數據分析系統架構文檔

elasticsearch-hadoop使用示例經驗

基于Spark/hbase的數據分析平臺及SparkSQl使用經驗分享文檔

針對Hadoop數據處理應用程序的新分布式執行框架： Apache Tez 經驗

大數據存儲和處理技術文檔

Apache Spark 1.5新特性介紹資訊

淘寶分布式數據處理實踐文檔

最適合數據分析師的數據庫為什么不是MySQL？！經驗

開源商業智能解決方案 Pentaho 4.1 發布資訊

什么數據庫最適合數據分析師資訊

Kylin：基于Hadoop的開源數據倉庫OLAP分析引擎經驗

python抓取頁面文檔

用python實現網絡爬蟲、蜘蛛文檔

Hadoop平臺架構經驗

Hadoop老矣，為什么騰訊還要花精力在其開源發布上？資訊

cdh集群部署手冊(for cdh5) 文檔

光環國際公開課—Hadoop大數據處理技術及其實踐問答

騰訊分布式數據倉庫：TDW 經驗

Hive學習筆記的相關搜索

關鍵詞

呂信：PrestoDB在京東的應用實踐 資訊

大數據分析系統架構之探討 文檔

大數據分析系統架構 文檔

elasticsearch-hadoop使用示例 經驗

基于Spark/hbase的數據分析平臺及SparkSQl使用經驗分享 文檔

針對Hadoop數據處理應用程序的新分布式執行框架： Apache Tez 經驗

大數據存儲和處理技術 文檔

Apache Spark 1.5新特性介紹 資訊

淘寶分布式數據處理實踐 文檔

最適合數據分析師的數據庫為什么不是MySQL？！ 經驗

開源商業智能解決方案 Pentaho 4.1 發布 資訊

什么數據庫最適合數據分析師 資訊

Kylin：基于Hadoop的開源數據倉庫OLAP分析引擎 經驗

python抓取頁面 文檔

用python實現網絡爬蟲、蜘蛛 文檔

Hadoop平臺架構 經驗

Hadoop老矣，為什么騰訊還要花精力在其開源發布上？ 資訊

cdh集群部署手冊(for cdh5) 文檔

光環國際公開課—Hadoop大數據處理技術及其實踐 問答

騰訊分布式數據倉庫：TDW 經驗

Hive學習筆記 的相關搜索

關鍵詞

呂信：PrestoDB在京東的應用實踐資訊

大數據分析系統架構之探討文檔

大數據分析系統架構文檔

elasticsearch-hadoop使用示例經驗

基于Spark/hbase的數據分析平臺及SparkSQl使用經驗分享文檔

大數據存儲和處理技術文檔

Apache Spark 1.5新特性介紹資訊

淘寶分布式數據處理實踐文檔

最適合數據分析師的數據庫為什么不是MySQL？！經驗

開源商業智能解決方案 Pentaho 4.1 發布資訊

什么數據庫最適合數據分析師資訊

Kylin：基于Hadoop的開源數據倉庫OLAP分析引擎經驗

python抓取頁面文檔

用python實現網絡爬蟲、蜘蛛文檔

Hadoop平臺架構經驗

Hadoop老矣，為什么騰訊還要花精力在其開源發布上？資訊

光環國際公開課—Hadoop大數據處理技術及其實踐問答

Hive學習筆記的相關搜索