開源項目,開源代碼,開源文檔,開源新聞,開源社區

P11

Chukwa：管理大型分布式系統的數據集合系統； HBase：可擴展的、分布式的數據庫，以大表實現對結構化數據的存儲； Hive：數據倉庫基礎設施，提供數據匯總（data summarization）和自主查詢（ad hoc

paradoxlee00 2012-04-11 5446 0

Hadoop 分布式/云計算/大數據 Apache

面環境”（其實是托管在亞馬遜AWS上的服務）來訪問各種Hadoop工具，例如MapReduce、Hive、Pig和Flume，以及數據科學工具如R。但是對于一個Hadoop菜鳥用戶來說，他們還

jopen 2013-06-13 9555 0

Hadoop

Parquet和JSON綁定。后續應該會有更多的對其他系統和數據格式的支持發布出來。此外，對于 Hive的支持也增加了定點數類型以及動態劃分的插入。 GraphX ：終于在這個版本里，Spar

jopen 2014-12-24 7849 0

Spark

Cassandra（一種 NoSQL 數據庫）、Thrift（為擴展性跨語言服務提供框架）、Apache Hive（建立在 Hadoop 頂端的數據倉庫基礎結構）及其他很多項目，都屬于 Facebook 自己的開源項目。而除此之外，Facebook

jopen 2014-12-21 5797 0

Facebook

ntroduction-to-hadoop-pig 3、構建數據倉庫的類 SQL 開發語言：hive create table textlines(text string); load data inpath

jopen 2012-10-15 39572 0

Hadoop 分布式/云計算/大數據

counterpart of Android Design in Action series. Android Hive Tutorials - Very good tutorials for beginners. Android

jopen 2014-10-12 60690 0

Android開發移動開發 Awesome Android

Shark for SQL，查詢hadoop數據的分布式SQL查詢引擎，類似于hadoop上的hive，但效率更高。 Streaming，利用spark來進行大規模流式數據處理。 MLlib，基于spark的機器學習庫。

jopen 2016-01-07 8190 0

Hadoop 分布式文件系統分布式/云計算/大數據

開，即大力拓展了機器學習算法的應用能力。五、Spark SQL數據檢索語言這個跟基于Hive的實現有些類似，但是基于RDD理論上能提供更好的性能，同時能更方便處理如join和關系檢索等操作

jopen 2016-01-05 18274 0

分布式/云計算/大數據

集群配置我選擇默認，感覺node1服務比較多，配置低的盆友可以適當均勻一下。然后是測試數據庫：集群需要使用數據庫進行工作，包括hive等進行存儲元數據完成安裝： Charles 于2015-12-17

jopen 2016-01-18 19279 0

分布式/云計算/大數據

P16

cdh4.1.2.p0.24.el6.noarch.rpm sudo yum install ./hive-0.9.0+155-1.cdh4.1.2.p0.21.el6.noarch.rpm sudo yum

lxj2008 2014-01-17 1737 0

分布式/云計算/大數據 x86 Java

是一個支持多平臺環境的直觀數據建模工具，并且本地集成了用于處理大數據平臺，例如-MongoDB和Hadoop Hive。它能夠進行正向和逆向工程，并且擁有“比較合并”功能，能夠輸出例如XML、PNG、JPEG等格式

jopen 2016-01-18 10166 0

大數據

中最活躍的項目，一個開源的集群計算框架。 Memcached —— 一個通用的分布式內存緩存系統。 Apache Hive ——提供了 Hadoop 之上類似于 SQL 的層。 Apache Kafka —— 一個

jopen 2016-01-28 21110 1

Java

y）才能交給R做分析，因此R不可能直接分析行為詳單，只能分析統計結果。Python=R+SQL/Hive R的優勢在于有包羅萬象的統計函數可以調用，特別是在時間序列分析方面（主要用在金融分析與趨勢預測

jopen 2015-01-09 354205 0

Python

。Pig為復雜的海量數據并行計算提供了一個簡易的操作和編程接口，這一點和FaceBook開源的Hive（一個以SQL方式，操作hadoop的一個開源框架）一樣簡潔，清晰，易上手！那么雅虎公司主要使用Pig來干什么呢？

jopen 2015-01-10 18860 0

分布式/云計算/大數據 Apache Pig

現局限在單機 JSON格式的查詢語言，缺乏編程能力，難以實現非常復雜的數據加工，自定義函數(類似Hive的UDF等) Spark 作為一個計算引擎，可以克服ES存在的這些缺點：良好的SQL支持

rdth7674 2016-03-03 21980 0

SQL 分布式/云計算/大數據 Spark Streaming

多使用的延伸產品。比如做查詢的 Pig, 做分布式命名服務的 ZooKeeper, 做數據庫的 Hive 等等。 Via gigaom

openkk 2012-06-06 13144 0

Hadoop

習、預測分析算法以及知道如何準備分析數據； 3、MapReduce/Spark/Storm/Hive/Pig 專業知識：安全分析師必須能夠編碼大量的大數據工具，來優化千兆字節的數據分析。盡管

fpcm 2015-04-30 4875 0

大數據

s的支持。 Spark SQL（DataFrame）添加ORCFile類型支持，另外還支持所有的Hive metastore。 Spark ML/MLlib的ML pipelines愈加成熟，提供了更多的算法和工具。

jopen 2015-07-16 34743 0

Spark

data frames, or from any Spark data source such as Hive, HDFS, Parquet or JSON. SparkR DataFrames support

jopen 2015-06-11 16817 0

Apache Spark

vSphere?平臺在幾分鐘內部署高度可用的Apache Hadoop集群，包括Apache Pig和Apache Hive等常見的Hadoop組件。通過使用Serengeti在VMware vSphere上運行Hado

openkk 2012-06-15 17172 1

Hadoop

Apache Hadoop入門第一步文檔

前雅虎 CTO 發布 Hadoop 云服務 Altiscale 資訊

Spark 1.2版本發布： MLlib支持工作流，SQL支持源數據篩選資訊

Facebook欲做最大開源公司：不會靠賣軟件賺錢資訊

hadoop 里執行 MapReduce 任務的幾種方式經驗

Android開源類庫和實用資源集合：Awesome Android 經驗

Dpark源碼剖析經驗

Spark大數據分析框架的核心部件經驗

hadoop再次集群搭建（5）-CDH Install 經驗

3、CDH4.1 介紹與環境搭建文檔

最流行的六大數據模型工具資訊

Java程序員使用的20幾個大數據工具資訊

Python、R 語言、SAS、SPSS 優缺點比較經驗

Apache Pig的前世今生經驗

SparkES 多維分析引擎設計經驗

IT企業利用云計算平臺Hadoop的10種方式資訊

一起來聊聊這個新職位：大數據安全分析師資訊

Spark與Flink：對比與分析資訊

Apache Spark 1.4 發布，開源集群計算系統資訊

VMware發布Serengeti項目，支持云中部署Hadoop 資訊

Hive學習筆記的相關搜索

關鍵詞

Apache Hadoop入門第一步 文檔

前雅虎 CTO 發布 Hadoop 云服務 Altiscale 資訊

Spark 1.2版本發布： MLlib支持工作流，SQL支持源數據篩選 資訊

Facebook欲做最大開源公司：不會靠賣軟件賺錢 資訊

hadoop 里執行 MapReduce 任務的幾種方式 經驗

Android開源類庫和實用資源集合：Awesome Android 經驗

Dpark源碼剖析 經驗

Spark大數據分析框架的核心部件 經驗

hadoop再次集群搭建（5）-CDH Install 經驗

3、CDH4.1 介紹與環境搭建 文檔

最流行的六大數據模型工具 資訊

Java程序員使用的20幾個大數據工具 資訊

Python、R 語言、SAS、SPSS 優缺點比較 經驗

Apache Pig的前世今生 經驗

SparkES 多維分析引擎設計 經驗

IT企業利用云計算平臺Hadoop的10種方式 資訊

一起來聊聊這個新職位：大數據安全分析師 資訊

Spark與Flink：對比與分析 資訊

Apache Spark 1.4 發布，開源集群計算系統 資訊

VMware發布Serengeti項目，支持云中部署Hadoop 資訊

Hive學習筆記 的相關搜索

關鍵詞

Apache Hadoop入門第一步文檔

Spark 1.2版本發布： MLlib支持工作流，SQL支持源數據篩選資訊

Facebook欲做最大開源公司：不會靠賣軟件賺錢資訊

hadoop 里執行 MapReduce 任務的幾種方式經驗

Dpark源碼剖析經驗

Spark大數據分析框架的核心部件經驗

3、CDH4.1 介紹與環境搭建文檔

最流行的六大數據模型工具資訊

Java程序員使用的20幾個大數據工具資訊

Python、R 語言、SAS、SPSS 優缺點比較經驗

Apache Pig的前世今生經驗

SparkES 多維分析引擎設計經驗

IT企業利用云計算平臺Hadoop的10種方式資訊

一起來聊聊這個新職位：大數據安全分析師資訊

Spark與Flink：對比與分析資訊

Apache Spark 1.4 發布，開源集群計算系統資訊

Hive學習筆記的相關搜索