開源項目,開源代碼,開源文檔,開源新聞,開源社區

之前寫過一篇文章，如何提高ElasticSearch 索引速度。除了對ES本身的優化以外，我現在大體思路是盡量將邏輯外移到Spark上,Spark的分布式計算能力強，cpu密集型的很適合。這篇文章涉及的調整也是對 SparkES 多維分析引擎設計中提及的一個重要概念“shard to partition ,partition to shard ” 的實現。不過目前只涉及到構建索引那塊。

ukon7587 2016-04-12 20807 0

Spark Hadoop 分布式/云計算/大數據 ElasticSearch

Kudu 是 Cloudera 開源的新型列式存儲系統，是 Apache Hadoop 生態圈的新成員之一（ incubating ），專門為了對快速變化的數據進行快速的分析，填補了以往 Hadoop 存儲層的空缺。本文主要對 Kudu 的動機、背景，以及架構進行簡單介紹。

MadFlemming 2016-08-11 65206 0

HBase Hadoop 數據存儲存儲系統分布式/云計算/大數據

機器學習、數據挖掘等各種大數據處理都離不開各種開源分布式系統，hadoop用戶分布式存儲和map-reduce計算，spark用于分布式機器學習，hive是分布式數據庫，hbase是分布式kv系統，看似互不相關的他們卻都是基于相同的hdfs存儲和yarn資源管理

flylong 2016-09-01 15746 0

Hadoop HBase 分布式系統分布式/云計算/大數據

Oozie是一個工作流引擎服務器,用于運行Hadoop Map/Reduce和Pig 任務工作流.同時Oozie還是一個Java Web程序,運行在Java Servlet容器中,如Tomcat.

jopen 2012-02-04 249329 0

Hadoop 工作流引擎

Nut是一個Lucene+Hadoop分布式并行計算搜索框架，能對千G以上索引提供7*24小時搜索服務。在服務器資源足夠的情況下能達到每秒處理100萬次的搜索請求。

fmms 2012-01-01 43838 0

搜索引擎 Hadoop Lucene

Cascading是一個應用程序框架，能夠幫助開發人員快速開發基于Apache Hadoop 的健壯數據分析和數據管理應用程序。

openkk 2012-06-09 26819 0

Hadoop 分布式/云計算/大數據

Hadoop的創始源頭在于當年Google發布的3篇文章，被稱為Google的分布式計算三駕馬車（Google還有很多很牛的文章，但是在分布式計算方面，應該這三篇的影響力最大了）。

fmms 2012-02-19 111837 0

Hadoop 分布式/云計算/大數據

hadoop2.0集群搭建詳解

jopen 2014-04-01 16479 0

分布式/云計算/大數據 Hadoop2

“用 Hadoop 進行分布式并行編程第一部分基本概念與安裝部署”中，介紹了 MapReduce 計算模型，分布式文件系統 HDFS，分布式并行計算等的基本原理, 并且詳細介紹了如何安裝 Hadoop，如何運行基于 Hadoop 的并行程序。在本文中，將針對一個具體的計算任務，介紹如何基于 Hadoop 編寫并行程序，如何使用 IBM 開發的 Hadoop Eclipse plugin 在 Eclipse 環境中編譯并運行程序。

jopen 2014-01-23 13905 0

Hadoop 分布式/云計算/大數據

Bigtop 是一個工程的系統開發包，對Apache Hadoop生態系統的測試。 Bigtop的主要目標就是構建一個Apache Hadoop生態系統的包和交互式測試的社區。這個包括對各類不同級別工程進行測試(包，平臺，運行時間，升級等...)，它由社區以關注系統作為一個整體開發而來。

jopen 2014-05-13 35312 0

分布式/云計算/大數據 Apache Bigtop

Hadoop是 apache 的開源項目，開發的主要目的是為了構建可靠，可拓展 scalable ，分布式的系統， hadoop 是一系列的子工程的總和

jopen 2014-03-26 36055 0

Hadoop 分布式/云計算/大數據

這是一本小書而不是一篇文章，因為它詳實細致的讓你從一個完全不了解大數據技術及相關應用的門外漢，變成一個熟知其概念和意義的“內行人”，

jopen 2014-05-04 117963 0

Hadoop 分布式/云計算/大數據

Hadoop 統計文件中某個單詞出現的次數

jopen 2013-07-11 38600 0

Hadoop 分布式/云計算/大數據

Rhino項目是由Cloudera、Intel和Hadoop社區合力打造的一個項目。這個項目旨在為數據保護提供一個全面的安全框架。

jopen 2014-08-24 12421 0

Rhino 分布式/云計算/大數據

有人問我，“你在大數據和Hadoop方面有多少經驗？”我告訴他們，我一直在使用Hadoop，但是很少處理幾TB以上數據的任務。我基本上只是一個大數據新手——知道概念，寫過代碼，但是沒有大規模經驗。

jopen 2014-08-31 32528 0

Hadoop 分布式/云計算/大數據

Hadoop偽分布配置與基于Eclipse開發環境搭建

jopen 2014-09-02 31951 0

Hadoop 分布式/云計算/大數據

當map task開始運算，并產生中間數據時，其產生的中間結果并非直接就簡單的寫入磁盤。這中間的過程比較復雜，并且利用到了內存buffer來進行已經產生的部分結果的緩存，并在內存buffer中進行一些預排序來優化整個map的性能。如上圖所示，每一個map都會對應存在一個內存 buffer（MapOutputBuffer，即上圖的buffer in memory），

jopen 2014-08-27 12298 0

分布式/云計算/大數據 Hadoop

快速開發，快速運行，基于Go工具包。實現基于 Hadoop 的 ETL 和特性抽取工具。

jopen 2014-11-20 35244 0

Crunch 數據挖掘

大數據技術Hadoop面試題,看看你能答對多少？答案在后面

jopen 2014-12-12 31918 0

Hadoop 分布式/云計算/大數據

Kylin是一個開源、分布式的OLAP分析引擎，它由eBay公司開發，并且基于Hadoop提供了SQL接口和OLAP接口，能夠支持TB到 PB級別的數據量。OLAP即聯機分析處理，它能夠幫助分析人員、管理人員或執行人員從多角度快速、一致、交互地存取信息和更加深入的了解信息。

jopen 2014-12-02 33465 0

Kylin 數據挖掘

自定義Spark Partitioner提升es-hadoop Bulk效率經驗

Kudu:支持快速分析的新型Hadoop存儲系統經驗

一文讀懂Hadoop、HBase、Hive、Spark分布式系統架構經驗

工作流引擎服務器 Hadoop Oozie 介紹經驗

lucene + hadoop 分布式搜索運行框架 Nut 介紹經驗

Cascading - 基于Hadoop的數據管理和分析框架經驗

為什么Hadoop將一定會是分布式計算的未來？經驗

hadoop2.0集群搭建詳解經驗

用 Hadoop 進行分布式并行編程, 第 2 部分經驗

對Hadoop進行打包,分發和測試的工具：Apache Bigtop 介紹經驗

Hadoop 2.0集群配置詳細教程經驗

一文讀懂大數據：Hadoop，大數據技術及相關應用經驗

Hadoop 統計文件中某個單詞出現的次數經驗

一個全面的、用于Apache Hadoop數據保護的安全框架：Rhino 經驗

你的數據根本不夠大，別老扯什么Hadoop了經驗

Hadoop偽分布配置與基于Eclipse開發環境搭建經驗

hadoop作業調優參數整理及原理（主要為shuffle過程）經驗

Go開發的基于Hadoop的ETL抽取工具：Crunch 經驗

Hadoop面試題,看看你能答對多少？答案在后面經驗

Kylin：基于Hadoop的開源數據倉庫OLAP分析引擎經驗

Ubuntu安裝hadoop 的相關搜索

關鍵詞

自定義Spark Partitioner提升es-hadoop Bulk效率 經驗

Kudu:支持快速分析的新型Hadoop存儲系統 經驗

一文讀懂Hadoop、HBase、Hive、Spark分布式系統架構 經驗

工作流引擎服務器 Hadoop Oozie 介紹 經驗

lucene + hadoop 分布式搜索運行框架 Nut 介紹 經驗

Cascading - 基于Hadoop的數據管理和分析框架 經驗

為什么Hadoop將一定會是分布式計算的未來？ 經驗

hadoop2.0集群搭建詳解 經驗

用 Hadoop 進行分布式并行編程, 第 2 部分 經驗

對Hadoop進行打包,分發和測試的工具：Apache Bigtop 介紹 經驗

Hadoop 2.0集群配置詳細教程 經驗

一文讀懂大數據：Hadoop，大數據技術及相關應用 經驗

Hadoop 統計文件中某個單詞出現的次數 經驗

一個全面的、用于Apache Hadoop數據保護的安全框架：Rhino 經驗

你的數據根本不夠大，別老扯什么Hadoop了 經驗

Hadoop偽分布配置與基于Eclipse開發環境搭建 經驗

hadoop作業調優參數整理及原理（主要為shuffle過程） 經驗

Go開發的基于Hadoop的ETL抽取工具：Crunch 經驗

Hadoop面試題,看看你能答對多少？答案在后面 經驗

Kylin：基于Hadoop的開源數據倉庫OLAP分析引擎 經驗

Ubuntu安裝hadoop 的相關搜索

關鍵詞

自定義Spark Partitioner提升es-hadoop Bulk效率經驗

Kudu:支持快速分析的新型Hadoop存儲系統經驗

一文讀懂Hadoop、HBase、Hive、Spark分布式系統架構經驗

工作流引擎服務器 Hadoop Oozie 介紹經驗

lucene + hadoop 分布式搜索運行框架 Nut 介紹經驗

Cascading - 基于Hadoop的數據管理和分析框架經驗

為什么Hadoop將一定會是分布式計算的未來？經驗

hadoop2.0集群搭建詳解經驗

用 Hadoop 進行分布式并行編程, 第 2 部分經驗

對Hadoop進行打包,分發和測試的工具：Apache Bigtop 介紹經驗

Hadoop 2.0集群配置詳細教程經驗

一文讀懂大數據：Hadoop，大數據技術及相關應用經驗

Hadoop 統計文件中某個單詞出現的次數經驗

你的數據根本不夠大，別老扯什么Hadoop了經驗

Hadoop偽分布配置與基于Eclipse開發環境搭建經驗

hadoop作業調優參數整理及原理（主要為shuffle過程）經驗

Hadoop面試題,看看你能答對多少？答案在后面經驗

Kylin：基于Hadoop的開源數據倉庫OLAP分析引擎經驗