分布式/云計算/大數據 - 開源經驗 - 第38頁

0推薦

46K 瀏覽

Spark是一個由加州大學伯克利分校（UC Berkeley AMP）開發的一個分布式數據快速分析項目。它的核心技術是彈性分布式數據集(Resilient distributed dataset...

jopen 10年前

Spark 分布式/云計算/大數據

0推薦

28K 瀏覽

Storm是一個免費開源、分布式、高容錯的實時計算系統。它與其他大數據解決方案的不同之處在于它的處理方式。Hadoop 在本質上是一個批處理系統，數據被引入 Hadoop 文件系統 (HDFS)...

jopen 10年前

Storm 分布式/云計算/大數據

0推薦

24K 瀏覽

Hadoop是一個開發和運行處理大規模數據的軟件平臺，是Appach的一個用java語言實現開源軟件框架，實現在大量計算機組成的集群中對海量數據進行分布式計算。Hadoop框架中最核心設計就是...

jopen 10年前

Hadoop 分布式/云計算/大數據

0推薦

44K 瀏覽

Chukwa 是一個開源的用于監控大型分布式系統的數據收集系統。它構建在 hadoop 的 hdfs 和 map/reduce 框架之上的，繼承了 hadoop 的可伸縮性和魯棒性。Chukwa...

jopen 10年前

分布式/云計算/大數據 Chukwa

0推薦

19K 瀏覽

Apache Sqoop（SQL-to-Hadoop）項目旨在協助 RDBMS 與 Hadoop 之間進行高效的大數據交流。用戶可以在 Sqoop 的幫助下，輕松地把關系型數據庫的數據導入到 ...

jopen 10年前

Sqoop 分布式/云計算/大數據

0推薦

19K 瀏覽

Spark SQL允許相關的查詢如SQL，HiveQL或Scala運行在spark上。其核心組件是一個新的RDD：SchemaRDD，SchemaRDDs由行對象組成，并包含一個描述此行對象的...

jopen 10年前

Spark SQL 分布式/云計算/大數據

0推薦

54K 瀏覽

為了滿足挖掘分析與交互式實時查詢的計算需求，騰訊大數據使用了Spark平臺來支持挖掘分析類計算、交互式實時查詢計算以及允許誤差范圍的快速查詢計算，目前騰訊大數據擁有超過200臺的Spark集群...

jopen 10年前

Spark 分布式/云計算/大數據

0推薦

14K 瀏覽

通常在linux下手工安裝openstack比較麻煩，StackOps是一個可以快速安裝的Openstack解決方案。安裝過程就相當于一個濃縮了的Ubuntu，只需要選擇鍵盤布局、分區設置IP地...

jopen 10年前

分布式/云計算/大數據 StackOps

0推薦

24K 瀏覽

Hive是基于Hadoop的一個數據倉庫工具，可以將結構化的數據文件映射為一張數據庫表，并提供完整的sql查詢功能，可以將sql語句轉換為MapReduce任務進行運行。其優點是學習成本低，可...

jopen 10年前

Hive 分布式/云計算/大數據

0推薦

17K 瀏覽

Spark實戰：單節點本地模式搭建Spark運行環境

jopen 10年前

Spark 分布式/云計算/大數據

0推薦

18K 瀏覽

Apache Slider 是一個 YARN 應用，用于發布已有的分布式應用到 YARN 上，并對這些應用進行監控以及根據需要調整規模，即使是正在運行。

jopen 10年前

分布式/云計算/大數據 Apache Slider

0推薦

12K 瀏覽

Timberlake是一個Go服務器搭配React.js作為前端。它改善現有的 Hadoop job 跟蹤器，通過提供正在運行和已經完成MapReduce jobs的一個輕量級實時視圖。Timb...

jopen 10年前

分布式/云計算/大數據 Timberlake

0推薦

15K 瀏覽

TDW是基于Hadoop生態圈研發的大數據處理平臺，MapReduce計算引擎在TDW平臺中承擔了所有的離線數據計算，是TDW最重要的底層支撐平臺之一。在TDW 平臺中，除了MR程序會生成Ma...

jopen 10年前

分布式/云計算/大數據 HadoopDoctor

0推薦

27K 瀏覽

本文假設你已經具有一定分布式計算的基礎知識。你將在第一部分看到以下內容： ZooKeeper數據模型 ZooKeeper Sessions ZooKeeper Watches

jopen 10年前

ZooKeeper 分布式/云計算/大數據

0推薦

191K 瀏覽

大數據我們都知道hadoop，可是還會各種各樣的技術進入我們的視野：Spark，Storm，impala，讓我們都反映不過來。為了能夠更好的架構大數據項目，這里整理一下，供技術人員，項目經理，...

jopen 10年前

Hadoop 分布式/云計算/大數據

0推薦

27K 瀏覽

Hadoop2.5.0完全分布式配置(1主3從)

jopen 10年前

Hadoop 分布式/云計算/大數據

0推薦

16K 瀏覽

TmStorage 是一個用 .NET 開發的虛擬文件系統，用來存儲流數據。使用扁平結構進行數據存儲，通過類型為 GUID 的流 id 來引用數據。

jopen 10年前

存儲系統分布式/云計算/大數據 TmStorage

0推薦

32K 瀏覽

本篇文章的內容，主要是筆者在調研分析Ceph過程中產生的一些思考。因為其中的內容比較自由發散，且大多是筆者的個人見解，故此另啟一文進行討論。

jopen 10年前

Ceph 存儲系統分布式/云計算/大數據

0推薦

32K 瀏覽

在《“Ceph淺析”系列之二——Ceph概況》中即已提到，關注Ceph的原因之一，就是OpenStack社區對于Ceph的重視。因此，本文將對Ceph在OpenStack中的價值...

jopen 10年前

Ceph 存儲系統分布式/云計算/大數據

0推薦

62K 瀏覽

本文將對Ceph的工作原理和若干關鍵工作流程進行扼要介紹。如前所述，由于Ceph的功能實現本質上依托于RADOS，因而，此處的介紹事實上也是針對 RADOS進行。對于上層的部分，特別是RADO...

jopen 10年前

Ceph 存儲系統分布式/云計算/大數據

Spark：比Hadoop更強大的分布式數據計算項目

分布式流式處理框架：Storm

Hadoop：分布式計算平臺初探

Chukwa:開源分布式數據收集系統

Hadoop數據傳輸工具：Sqoop

Spark SQL 代碼簡要閱讀（基于Spark 1.1.0）

Spark在騰訊數據倉庫TDW的應用

OpenStack 云平臺架設工具：StackOps

Hive：基于hadoop的數據倉庫工具

Spark實戰：單節點本地模式搭建Spark運行環境

動態YARN應用：Apache Slider

Hadoop的一個Job跟蹤器：Timberlake

HadoopDoctor：來自騰訊數據倉庫TDW的MR診斷系統

ZooKeeper開發手冊中文翻譯

大數據技術大合集：Hadoop家族、Cloudera系列、spark、storm

Hadoop2.5.0完全分布式配置(1主3從)

.NET的存儲引擎（虛擬文件系統）：TmStorage

“Ceph淺析”系列之(六)——關于Ceph的若干想法

“Ceph淺析”系列之(五)——Ceph與OpenStack

“Ceph淺析”系列之(四)——Ceph的工作原理及流程

熱門問答

熱門文檔