登錄
注冊
首頁
項目
經驗
代碼
文庫
問答
博客
資訊
分布式/云計算/大數據
(共
1277
篇經驗)
0
推薦
8K
瀏覽
大數據(十一) - Mahout
Apache Mahout是什么 基于MapReduce開發的數據挖掘/機器學習庫 良好的擴展性和容錯性 充分利用了MapRe...
jopen
9年前
分布式/云計算/大數據
0
推薦
8K
瀏覽
大數據(十) - Pig
Pig是什么 Hadoop上的 數據流執行引擎(由Yahoo!開源) 利用HDFS存儲數據 利用Map...
jopen
9年前
分布式/云計算/大數據
0
推薦
14K
瀏覽
大數據(九) - Hive
構建在Hadoop之上的 數據倉庫,數據計算使用MR,數據存儲使用HDFS 因為數據計算使用mapreduce,因此通常用于進行離線數據處理 Hive 定義了一種類 SQ...
jopen
9年前
分布式/云計算/大數據
0
推薦
14K
瀏覽
大數據(八) - Sqoop
Sqoop是什么 Sqoop:SQL-to-Hadoop 連接 傳統關系型數據庫 和 Hadoop 的橋梁 把關系型...
jopen
9年前
分布式/云計算/大數據
0
推薦
14K
瀏覽
大數據(七) - Flume
flume[flu:m]:日志采集、聚合和傳輸的系統, java語言實現
jopen
9年前
分布式/云計算/大數據
0
推薦
13K
瀏覽
大數據(六) - ZooKeeper
Zookeeper是什么 是一個針對大型分布式系統的可靠協調系統; 提供的功能包括:配置維護、名字服務、分布式同步、組服務等; 目標就...
jopen
9年前
分布式/云計算/大數據
0
推薦
24K
瀏覽
大數據(五) - HBase
HBase是一個構建在HDFS上的分布式列存儲系統, 主要用于海量結構化數據存儲, 從邏輯上講,HBase將數據按照表、行和列進行存儲。 HDFS適合批處理場景 不支持數...
jopen
9年前
分布式/云計算/大數據
0
推薦
14K
瀏覽
大數據(四) - MapReduce
MapReduce適合PB級以上海量數據的離線處理 MapReduce不擅長什么 實時計算 像MySQL一樣,在毫秒級或者秒級內返回結...
jopen
9年前
分布式/云計算/大數據
0
推薦
12K
瀏覽
大數據(三) - YARN
YARN是資源管理系統,理論上支持多種資源,目前支持CPU和內存兩種資源 YARN產生背景 直接源于MRv1在幾個方面的缺陷 擴展性受限 ...
jopen
9年前
分布式/云計算/大數據
0
推薦
25K
瀏覽
大數據(二) - HDFS
HDFS優點 高容錯性 數據自動保存多個副本 副本丟失后,自動恢復 適合批處理 移動計...
jopen
9年前
分布式/云計算/大數據
0
推薦
23K
瀏覽
大數據(一) - hadoop生態系統及版本演化
HDFS:分布式存儲系統(Hadoop Distributed File System):提供了高可靠性、高擴展性和高吞吐率的數據存儲服務 HDFS源自于Google...
jopen
9年前
分布式/云計算/大數據
0
推薦
15K
瀏覽
Gearpump:基于 Akka 的大數據實時處理引擎
Gearpump:基于 Akka 的大數據實時處理引擎
jopen
9年前
大數據
AKKA
分布式/云計算/大數據
0
推薦
27K
瀏覽
kafka+spark streaming+redis學習
針對這段時間所學的做了一個簡單的綜合應用,應用的場景為統計一段時間內各個小區的網絡信號覆蓋率,計算公式如下所示:
jopen
9年前
Redis
Kafka
Spark
分布式/云計算/大數據
0
推薦
78K
瀏覽
Spark的性能調優
首先,要搞清楚Spark的幾個基本概念和原則,否則系統的性能調優無從談起:
jopen
9年前
Spark
分布式/云計算/大數據
0
推薦
26K
瀏覽
大數據平臺CDH集群離線搭建
標簽: Cloudera-Manager CDH Hadoop 部署 集群 摘要:管理、部署Hadoop集群需要工具,Cloudera Manager便是其一。本文先是簡要對比了當前的類似工具...
jopen
9年前
MySQL
大數據
Cloudera
分布式/云計算/大數據
0
推薦
13K
瀏覽
Zookeeper注冊中心的搭建
之所以把本文歸類為Dubbo是因為,博主關于Dubbo的學習筆記都是以Zookeeper作為注冊中心的。
jopen
9年前
分布式/云計算/大數據
0
推薦
9K
瀏覽
yarn的初步理解
下一代的MapReduce系統框架,也稱為MRv2(MapReduce version 2), 它是一個通用資源管理系統,可為上層應用提供統一的資源管理和調度。 YARN的基本思想是將Jo...
jopen
9年前
YARN
分布式/云計算/大數據
0
推薦
22K
瀏覽
淺談Spark應用程序的性能調優
Spark是基于內存的分布式計算引擎,以處理的高效和穩定著稱。然而在實際的應用開發過程中,開發者還是會遇到種種問題,其中一大類就是和性能相關。在本文中,筆者將結合自身實踐,談談如何盡可能地提高應用程序性能。
jopen
9年前
Spark
分布式/云計算/大數據
0
推薦
29K
瀏覽
從零開始搭建Hadoop2.7.1的分布式集群
網上教程有很多關于Hadoop配置的,但是每一個教程都對應了一個版本信息,有一些教程也存在很大的問題,配置環境,系統環境都沒說清楚。在此我將記錄下來從零搭建Hadoop2.7.1的過程,以及搭建...
jopen
9年前
分布式/云計算/大數據
0
推薦
9K
瀏覽
spark 編程珠璣-RDD 篇
spark編程珠璣-RDD篇:RDD 有關RDD的基礎概念請閱讀spark官方文檔,或網上搜索其他內容。本文完全是實戰經驗的總結。 惰性求值...
jopen
9年前
分布式/云計算/大數據
1
2
3
4
5
6
7
8
9
10
經驗分享,提升職場影響力
投稿
熱門問答
熱門文檔
sesese色