之前寫過一篇文章, 如何提高ElasticSearch 索引速度 。除了對ES本身的優化以外,我現在大體思路是盡量將邏輯外移到Spark上,Spark的分布式計算能力強,cpu密集型的很適合。這篇文章涉及的調整也是對 SparkES 多維分析引擎設計 中提及的一個重要概念“shard to partition ,partition to shard ” 的實現。不過目前只涉及到構建索引那塊。
Kudu 是 Cloudera 開源的新型列式存儲系統,是 Apache Hadoop 生態圈的新成員之一( incubating ),專門為了對快速變化的數據進行快速的分析,填補了以往 Hadoop 存儲層的空缺。本文主要對 Kudu 的動機、背景,以及架構進行簡單介紹。
機器學習、數據挖掘等各種大數據處理都離不開各種開源分布式系統,hadoop用戶分布式存儲和map-reduce計算,spark用于分布式機器學習,hive是分布式數據庫,hbase是分布式kv系統,看似互不相關的他們卻都是基于相同的hdfs存儲和yarn資源管理
Oozie是一個工作流引擎服務器,用于運行Hadoop Map/Reduce和Pig 任務工作流.同時Oozie還是一個Java Web程序,運行在Java Servlet容器中,如Tomcat.
Nut是一個Lucene+Hadoop分布式并行計算搜索框架,能對千G以上索引提供7*24小時搜索服務。在服務器資源足夠的情況下能達到每秒處理100萬次的搜索請求。
Cascading是一個應用程序框架,能夠幫助開發人員快速開發基于Apache Hadoop 的 健壯數據分析和數據管理應用程序。
Hadoop的創始源頭在于當年Google發布的3篇文章,被稱為Google的分布式計算三駕馬車(Google還有很多很牛的文章,但是在分布式計算方面,應該這三篇的影響力最大了)。
hadoop2.0集群搭建詳解
“用 Hadoop 進行分布式并行編程 第一部分 基本概念與安裝部署”中,介紹了 MapReduce 計算模型,分布式文件系統 HDFS,分布式并行計算等的基本原理, 并且詳細介紹了如何安裝 Hadoop,如何運行基于 Hadoop 的并行程序。在本文中,將針對一個具體的計算任務,介紹如何基于 Hadoop 編寫并行程序,如何使用 IBM 開發的 Hadoop Eclipse plugin 在 Eclipse 環境中編譯并運行程序。
Bigtop 是一個工程的系統開發包,對Apache Hadoop生態系統的測試。 Bigtop的主要目標就是構建一個Apache Hadoop生態系統的包和交互式測試的社區。這個包括對各類不同級別工程進行測試(包,平臺,運行時間,升級等...),它由社區以關注系統作為一個整體開發而來。
Hadoop是 apache 的開源 項目,開發的主要目的是為了構建可靠,可拓展 scalable ,分布式的系 統, hadoop 是一系列的子工程的 總和
這是一本小書而不是一篇文章,因為它詳實細致的讓你從一個完全不了解大數據技術及相關應用的門外漢,變成一個熟知其概念和意義的“內行人”,
Hadoop 統計文件中某個單詞出現的次數
Rhino項目是由Cloudera、Intel和Hadoop社區合力打造的一個項目。這個項目旨在為數據保護提供一個全面的安全框架。
有人問我,“你在大數據和Hadoop方面有多少經驗?”我告訴他們,我一直在使用Hadoop,但是很少處理幾TB以上數據的任務 。我基本上只是一個大數據新手——知道概念,寫過代碼,但是沒有大規模經驗。
Hadoop偽分布配置與基于Eclipse開發環境搭建
當map task開始運算,并產生中間數據時,其產生的中間結果并非直接就簡單的寫入磁盤。這中間的過程比較復雜,并且利用到了內存buffer來進行已經產生的 部分結果的緩存,并在內存buffer中進行一些預排序來優化整個map的性能。如上圖所示,每一個map都會對應存在一個內存 buffer(MapOutputBuffer,即上圖的buffer in memory),
快速開發,快速運行,基于Go工具包。實現基于 Hadoop 的 ETL 和特性抽取工具。
大數據技術Hadoop面試題,看看你能答對多少?答案在后面
Kylin是一個開源、分布式的OLAP分析引擎,它由eBay公司開發,并且基于Hadoop提供了SQL接口和OLAP接口,能夠支持TB到 PB級別的數據量。OLAP即聯機分析處理,它能夠幫助分析人員、管理人員或執行人員從多角度快速、一致、交互地存取信息和更加深入的了解信息。