登錄
注冊
首頁
項目
經驗
代碼
文庫
問答
博客
資訊
分布式/云計算/大數據
(共
1277
篇經驗)
0
推薦
19K
瀏覽
BABY夜談大數據 : 計算文本相似度
上一章有提到過[基于關鍵詞的空間向量模型]的算法,將用戶的喜好以文檔描述并轉換成向量模型,對商品也是這么處理,然后再通過計算商品文檔和用戶偏好文檔的余弦相似度。
JonasAshcra
9年前
數據庫
大數據
向量
分布式/云計算/大數據
0
推薦
11K
瀏覽
Spark Application的調度算法
要想明白spark application調度機制,需要回答一下幾個問題: 1.誰來調度? 2.為誰調度? 3.調度什么? 3.何時調度? 4.調度算法
NorineXGII
9年前
Spark
分布式/云計算/大數據
0
推薦
17K
瀏覽
使用mapreduce計算環比的實例
最近做了一個小的mapreduce程序,主要目的是計算環比值最高的前5名,本來打算使用spark計算,可是本人目前spark還只是簡單看了下,因此就先改用mapreduce計算了,今天和大家分享...
Smith
9年前
MapReduce
分布式/云計算/大數據
0
推薦
37K
瀏覽
大數據存儲技術方案介紹
大數據存儲技術方案介紹:大數據存儲方案 Cap思想 ??分布式領域CAP理論, Consistency(一致性),?數據一致更新,所有數據變動都...
lvwg4417
9年前
存儲系統
分布式/云計算/大數據
0
推薦
12K
瀏覽
ceph基于pglog的一致性協議
分布式存儲系統通常采用多副本的方式來保證系統的可靠性,而多副本之間如何保證數據的一致性就是系統的核心。ceph號稱統一存儲,其核心RADOS既支持多副本,也支持糾刪碼。本文主要分析ceph的多副本一致性協議。
MelanieStoc
9年前
Ceph
分布式/云計算/大數據
0
推薦
8K
瀏覽
Spark核心概念RDD(Resilient Distributed Datasets)
Spark核心概念RDD(Resilient Distributed Datasets):本文介紹Spark的RDD。作為一個概念,RDD本身是與編程語言無關的,你即可以用Scala實現,也可以...
U4dbsfaasa
9年前
分布式/云計算/大數據
0
推薦
19K
瀏覽
hadoop環境搭建總結
hadoop環境搭建總結:最近一段時間在看Hadoop The Definitive Guide, 3rd Edition.pdf,學習hadoop,個人想不能總看書,不實踐...
krco8100
9年前
分布式/云計算/大數據
0
推薦
6K
瀏覽
Hive任務優化
Hive任務優化--控制hive任務中的map數和reduce數:一、? ? 控制hive任務中的map數: 1.? ? 通常情況下,作業會通過input的目錄產生一個或者多個map任務...
qq3466460
9年前
分布式/云計算/大數據
0
推薦
8K
瀏覽
spark快速大數據分析之讀書筆記
spark快速大數據分析之讀書筆記:RDD編程 1、Spark中的RDD就是一個不可變的分布式對象集合。每個RDD都被分為多個分區,這些分區運行在集群...
SophiaSpoff
9年前
分布式/云計算/大數據
0
推薦
19K
瀏覽
0x10 SQL與NoSQL,數據橋梁Sqoop
SQL處理二維表格數據,是一種最樸素的工具,NoSQL是NotOnlySQL,即不僅僅是SQL。從MySQL導入數據到HDFS文件系統中,最簡單的一種方式就是使用Sqoop,然后將HDFS中的數...
AugGabel
9年前
分布式/云計算/大數據
0
推薦
14K
瀏覽
centos 6.6最小化版本 安裝分布式存儲FastDFS
centos 6.6最小化版本 安裝分布式存儲FastDFS:最小化安裝centos6.6,配置網絡 1、編譯和安裝所需的依賴包: #?yum?install?make?cmake?gcc?gcc-c...
OllieMcneal
9年前
存儲系統
分布式/云計算/大數據
0
推薦
56K
瀏覽
flume-ng+Kafka+Storm+HDFS 實時系統搭建
flume-ng+Kafka+Storm+HDFS 實時系統搭建:一直以來都想接觸Storm實時計算這塊的東西,最近在群里看到上海一哥們羅寶寫的Flume+Kafka+Storm的實時日...
liu0627
9年前
分布式/云計算/大數據
0
推薦
34K
瀏覽
把本地文件夾下的所有文件上傳到hdfs上并合并成一個文件
把本地文件夾下的所有文件上傳到hdfs上并合并成一個文件
uttq1257
9年前
分布式/云計算/大數據
0
推薦
18K
瀏覽
Windows安裝和使用zookeeper
來獲取,Zookeeper 的安裝非常簡單,下面將從單機模式和集群模式兩個方面介紹 Zookeeper 的Windows安裝和配置. 首先需要安裝JdK,從Oracle的Java網站下載,...
yijindong
9年前
分布式/云計算/大數據
0
推薦
18K
瀏覽
流式大數據處理的三種框架:Storm,Spark和Samza
許多分布式計算系統都可以實時或接近實時地處理大數據流。本文將對三種Apache框架分別進行簡單介紹,然后嘗試快速、高度概述其異同。
sam2015
9年前
分布式/云計算/大數據
0
推薦
25K
瀏覽
大數據分析需要把hbase、mysql等數據導入hive嗎?
看做什么,如果不需要對數據進行實時處理,那么大部分情況下都需要把數據從hbase/mysql(數據庫)“導入”到hive(數據倉庫)中進行分析。 “導入”的過程中會做一些元數據轉換等操作。
jannyarj
9年前
MySQL
HBase
數據倉庫
分布式/云計算/大數據
0
推薦
30K
瀏覽
Spark使用CombineTextInputFormat緩解小文件過多導致Task數目過多的問題
目前平臺使用Kafka + Flume的方式進行實時數據接入,Kafka中的數據由業務方負責寫入,這些數據一部分由Spark Streaming進行流式計算;另一部分數據則經由Flume存儲至H...
FloridaStil
9年前
Spark
分布式/云計算/大數據
0
推薦
65K
瀏覽
基于ELK的簡單數據分析
我們的數據量沒有新浪那么大,一天正常水平在6千萬條左右,多的時候有一個億條記錄,受到新浪案例的啟發我們基于ELK搭建自己的簡單數據分析系統,剛開始選擇這個的原因:(1)就我一個人折騰東西, (2...
neoly
9年前
分布式/云計算/大數據
0
推薦
26K
瀏覽
一個母嬰電子商務網站的大數據平臺及機器學習實踐
關鍵字:大數據平臺、機器學習 母嬰相對一般的電子商務網站有一些特點:第一個特點是商品周期短,在母嬰網站上的商品,在線的時間不會超過5-7天,第二個是用戶需求的變化快,在母嬰行業,可能是用戶的需...
GweMedlin
9年前
分布式/云計算/大數據
0
推薦
34K
瀏覽
大數據不只是數據大 全面解析大數據
在寫這篇文章之前,我發現身邊很多IT人對于這些熱門的新技術、新趨勢往往趨之若鶩卻又很難說的透徹,如果你問他大數據和你有什么關系?估計很少能說出一二三來。究其原因,一是因為大家對新技術有著相同的原...
sisimv
9年前
大數據
分布式/云計算/大數據
1
2
3
4
5
6
7
8
9
10
經驗分享,提升職場影響力
投稿
熱門問答
熱門文檔
sesese色