分布式/云計算/大數據 - 開源經驗 - 第12頁

0推薦

19K 瀏覽

上一章有提到過[基于關鍵詞的空間向量模型]的算法，將用戶的喜好以文檔描述并轉換成向量模型，對商品也是這么處理，然后再通過計算商品文檔和用戶偏好文檔的余弦相似度。

JonasAshcra 10年前

數據庫大數據向量分布式/云計算/大數據

0推薦

11K 瀏覽

要想明白spark application調度機制，需要回答一下幾個問題： 1.誰來調度？ 2.為誰調度？ 3.調度什么？ 3.何時調度？ 4.調度算法

NorineXGII 10年前

Spark 分布式/云計算/大數據

0推薦

17K 瀏覽

最近做了一個小的mapreduce程序，主要目的是計算環比值最高的前5名，本來打算使用spark計算，可是本人目前spark還只是簡單看了下，因此就先改用mapreduce計算了，今天和大家分享...

Smith 10年前

MapReduce 分布式/云計算/大數據

0推薦

37K 瀏覽

大數據存儲技術方案介紹：大數據存儲方案 Cap思想 ??分布式領域CAP理論， Consistency(一致性),?數據一致更新，所有數據變動都...

lvwg4417 10年前

存儲系統分布式/云計算/大數據

0推薦

12K 瀏覽

分布式存儲系統通常采用多副本的方式來保證系統的可靠性，而多副本之間如何保證數據的一致性就是系統的核心。ceph號稱統一存儲，其核心RADOS既支持多副本，也支持糾刪碼。本文主要分析ceph的多副本一致性協議。

MelanieStoc 10年前

Ceph 分布式/云計算/大數據

0推薦

8K 瀏覽

Spark核心概念RDD（Resilient Distributed Datasets）：本文介紹Spark的RDD。作為一個概念，RDD本身是與編程語言無關的，你即可以用Scala實現，也可以...

U4dbsfaasa 10年前

分布式/云計算/大數據

0推薦

19K 瀏覽

hadoop環境搭建總結：最近一段時間在看Hadoop The Definitive Guide, 3rd Edition.pdf，學習hadoop，個人想不能總看書，不實踐...

krco8100 10年前

分布式/云計算/大數據

0推薦

6K 瀏覽

Hive任務優化--控制hive任務中的map數和reduce數：一、? ? 控制hive任務中的map數: 1.? ? 通常情況下，作業會通過input的目錄產生一個或者多個map任務...

qq3466460 10年前

分布式/云計算/大數據

0推薦

8K 瀏覽

spark快速大數據分析之讀書筆記：RDD編程 1、Spark中的RDD就是一個不可變的分布式對象集合。每個RDD都被分為多個分區，這些分區運行在集群...

SophiaSpoff 10年前

分布式/云計算/大數據

0推薦

19K 瀏覽

SQL處理二維表格數據，是一種最樸素的工具，NoSQL是NotOnlySQL，即不僅僅是SQL。從MySQL導入數據到HDFS文件系統中，最簡單的一種方式就是使用Sqoop，然后將HDFS中的數...

AugGabel 10年前

分布式/云計算/大數據

0推薦

14K 瀏覽

centos 6.6最小化版本安裝分布式存儲FastDFS：最小化安裝centos6.6,配置網絡 1、編譯和安裝所需的依賴包: #?yum?install?make?cmake?gcc?gcc-c...

OllieMcneal 10年前

存儲系統分布式/云計算/大數據

0推薦

56K 瀏覽

flume-ng+Kafka+Storm+HDFS 實時系統搭建：一直以來都想接觸Storm實時計算這塊的東西，最近在群里看到上海一哥們羅寶寫的Flume+Kafka+Storm的實時日...

liu0627 10年前

分布式/云計算/大數據

0推薦

34K 瀏覽

把本地文件夾下的所有文件上傳到hdfs上并合并成一個文件

uttq1257 10年前

分布式/云計算/大數據

0推薦

18K 瀏覽

來獲取，Zookeeper 的安裝非常簡單，下面將從單機模式和集群模式兩個方面介紹 Zookeeper 的Windows安裝和配置. 首先需要安裝JdK，從Oracle的Java網站下載，...

yijindong 10年前

分布式/云計算/大數據

0推薦

18K 瀏覽

許多分布式計算系統都可以實時或接近實時地處理大數據流。本文將對三種Apache框架分別進行簡單介紹，然后嘗試快速、高度概述其異同。

sam2015 10年前

分布式/云計算/大數據

0推薦

25K 瀏覽

看做什么，如果不需要對數據進行實時處理，那么大部分情況下都需要把數據從hbase/mysql(數據庫)“導入”到hive(數據倉庫)中進行分析。 “導入”的過程中會做一些元數據轉換等操作。

jannyarj 10年前

MySQL HBase 數據倉庫分布式/云計算/大數據

0推薦

30K 瀏覽

目前平臺使用Kafka + Flume的方式進行實時數據接入，Kafka中的數據由業務方負責寫入，這些數據一部分由Spark Streaming進行流式計算；另一部分數據則經由Flume存儲至H...

FloridaStil 10年前

Spark 分布式/云計算/大數據

0推薦

65K 瀏覽

我們的數據量沒有新浪那么大，一天正常水平在6千萬條左右，多的時候有一個億條記錄，受到新浪案例的啟發我們基于ELK搭建自己的簡單數據分析系統，剛開始選擇這個的原因：(1)就我一個人折騰東西， (2...

neoly 10年前

分布式/云計算/大數據

0推薦

26K 瀏覽

關鍵字：大數據平臺、機器學習母嬰相對一般的電子商務網站有一些特點：第一個特點是商品周期短，在母嬰網站上的商品，在線的時間不會超過5-7天，第二個是用戶需求的變化快，在母嬰行業，可能是用戶的需...

GweMedlin 10年前

分布式/云計算/大數據

0推薦

34K 瀏覽

在寫這篇文章之前，我發現身邊很多IT人對于這些熱門的新技術、新趨勢往往趨之若鶩卻又很難說的透徹，如果你問他大數據和你有什么關系?估計很少能說出一二三來。究其原因，一是因為大家對新技術有著相同的原...

sisimv 10年前

大數據分布式/云計算/大數據

BABY夜談大數據：計算文本相似度

Spark Application的調度算法

使用mapreduce計算環比的實例

大數據存儲技術方案介紹

ceph基于pglog的一致性協議

Spark核心概念RDD（Resilient Distributed Datasets）

hadoop環境搭建總結

Hive任務優化

spark快速大數據分析之讀書筆記

0x10 SQL與NoSQL，數據橋梁Sqoop

centos 6.6最小化版本安裝分布式存儲FastDFS

flume-ng+Kafka+Storm+HDFS 實時系統搭建

把本地文件夾下的所有文件上傳到hdfs上并合并成一個文件

Windows安裝和使用zookeeper

流式大數據處理的三種框架：Storm，Spark和Samza

大數據分析需要把hbase、mysql等數據導入hive嗎？

Spark使用CombineTextInputFormat緩解小文件過多導致Task數目過多的問題

基于ELK的簡單數據分析

一個母嬰電子商務網站的大數據平臺及機器學習實踐

大數據不只是數據大全面解析大數據

熱門問答

熱門文檔