分布式/云計算/大數據 - 開源文檔 - 第5頁

P103

互聯網公有云運營商公有云亞馬遜AWS

lyglyg1394 2016-04-11 2325 0

云分布式/云計算/大數據

P12

云計算的前世今生“云計算”、“大數據”、“物聯網”，作為當今互聯網行業最火的三個詞語，這三項技術已經廣泛應用在實際生活當中，并隨著科技的不斷發展，正在使我們的生活發生翻天覆地的變化。

vkukus 2016-04-10 1566 0

云計算分布式/云計算/大數據報告

P2

準備3臺機器假設有三臺機器，hostname和ip對應關系是：192.168.1.131zk01192.168.1.132zk02192.168.1.133zk03ZooKeeper不存在明顯的master/slave關系，各個節點都是服務器，leader掛了，會立馬從follower中選舉一個出來作為leader.由于沒有主從關系，也不用配置SSH無密碼登錄了，各個zk服務器是自己啟動的，互相之間通過TCP端口來交換數據。

yjeeqbart 2016-03-09 2240 0

分布式/云計算/大數據

P6

Hadoop（大數據分析領域無可爭辯的王者）專注于批處理。這種模型對許多情形（比如為網頁建立索引）已經足夠，但還存在其他一些使用模型，它們需要來自高度動態的來源的實時信息。為了解決這個問題，就得借助NathanMarz推出的Storm（現在在Twitter中稱為BackType）。Storm不處理靜態數據，但它處理預計會連續的流數據。考慮到Twitter用戶每天生成1.4億條推文(tweet)，那么就很容易看到此技術的巨大用途。但Storm不只是一個傳統的大數據分析系統：它是復雜事件處理(CEP)系統的一個示例。CEP系統通常分類為計算和面向檢測，其中每個系統都可通過用戶定義的算法在Storm中實現。舉例而言，CEP可用于識別事件洪流中有意義的事件，然后實時地處理這些事件。

pwgw 2016-02-04 404 0

分布式/云計算/大數據

P29

Thanks for coming – today will talk about Docker based Hadoop provisioning. Quick introduction of who we are - Young startup, from Budapest, Hungary. Janos Matyas – CTO, open source contributor, Hadoop YARN evangelist. Ease Hadoop provisioning – everywhere Automate and unify the process Arbitrary cluster size Same process through a cluster lifecycle (Dev, QA, UAT, Prod) (Auto) scaling Hadoop

pwgw 2016-02-04 504 0

分布式/云計算/大數據 Apache Dockerfile Scala Go

P19

Apache Spark?is a fast and general engine for large-scale data processing. Speed Ease of Use Generality Integrated with Hadoop。Spark Streaming is a sub-project of Apache Spark. Spark is a batch processing platform similar to Apache Hadoop, and Spark Streaming is a real-time processing tool that runs on top of the Spark engine.

jszhaogy 2016-01-28 387 0

Spark 分布式/云計算/大數據

P35

Apache Kylin（麒麟）是由eBay 研發并貢獻給開源社區的Hadoop上的分布式大規模聯機分析（OLAP）平臺。該平臺為Hadoop之上的數據分析提供了標準SQL接口及多維分析能力，在百億數量級別上提供秒級甚至亞秒級的查詢性能。該項目于2014年10月開源，并于當年11月加入Apache 孵化器項目。

lufeng76 2016-01-28 2682 0

分布式/云計算/大數據 Apache SQL Basic diff

P3

蘇寧目前的存儲需求按照應用分類傳統的NAS文件存儲辦公文件徐莊呼叫中心辦公文件共享全國ftp共享文件it.suning.com文件下載視頻存儲廣告視頻項目組備份歸檔視頻文件互聯網、電商的海量非結構化數據圖片存儲公司所有的web圖片存儲日志歸檔多種業務系統的日志存儲專有應用系統蘇寧互聯郵箱系統郵件、索引等小文件蘇寧互聯計費系統原始話單、中間話單的歸檔備份IaaS共享存儲cloudstack公有云、私有云的共享存儲不同應用對存儲性能要求有所不同：大文件，io吞吐量較大，對帶寬、iops和時延要求并不高的業務，例如辦公文件，視頻文件等大量小文件，對iops和時延要求很高，例如圖片存儲系統、互聯郵箱系統IaaS共享存儲比較特，雖然對Gluster是大文件。

jszhaogy 2016-01-27 1795 0

分布式/云計算/大數據

P5

本次優化點主要基于qemu+GlusterFS測試和性能調優。針對qemu+GlusterfS和qemu+localfilesystem兩種場景做了性能測試和對比。最終形成了GlusterFS的優化包括兩點帶標記位的fsync操作優化write申請寫緩沖區內存管理優化qemu+GlusterIntegrationIOStack帶標記位的fsync操作優化當guestOS的APP執行fsync操作時，GlusterFS后端存儲性能比與本地文件系統backend差很多，而普通的asyncwrite和directwrite相比，二者相差并沒那么大。例如，VM中采用dd工具測試，dd設置dsync標記后，執行寫操作測試數據如下。提交的數據塊尺寸較小時，GUSTER虛機與本地虛機性能差別較大，在差3倍多，隨著提交數據塊尺寸增大，差距逐步縮小大一倍左右。

jszhaogy 2016-01-27 1942 0

分布式/云計算/大數據

P204

MooseFS 是一個高容錯性的分布式文件系統，它能夠將資源分布存儲于幾臺不同的物理介質，對外只提供給用戶一個訪問接口。對它的操作與其它文件系統完全一樣： ? 分層文件結構（目錄樹結構）； ? 存儲POSIX 文件屬性（權限、最后訪問、修改時間）； ? 支持特殊的文件（塊文件夾、字符文件及管道和socket ）；軟鏈接（文件名指向目標文件）及硬鏈接（不同的文件名指向同一塊數據）； ? 僅限于基于IP 地址或密碼來訪問文件系統。

zmfsea 2016-01-19 1052 0

分布式/云計算/大數據

P35

數據太多了，需要能存儲、快速分析Pb級數據集的系統單機的存儲、IO、內存、CPU有限，需要可擴展的集群使用門檻低，數據分析是個龐雜的問題，MPI太復雜單點故障問題–機器多了單點故障成為正常的異常–節點有增有減Hadoop就是一個滿足易用性、可靠性、可擴展性的存儲計算平臺，還是開源的！Hive：數據倉庫，facebook貢獻PIG：并行計算的一種高級語言，yahoo貢獻Nutch：網頁搜索軟件，不只是爬蟲Avro：數據序列化系統Chukwa：用于管理大規模分布式集群的數據收集系統ZooKeeper：用于分布式應用的高性能協同服務Hbase：類似于BigTable的，key-value數據庫系統Mahout：分布式機器學習和數據挖掘的LibHama：基于BSP的超大規模科學計算框架

也許那樣飛 2016-01-15 2782 0

分布式/云計算/大數據

P17

--向磊Page?*Hadoop集群監控Cacti默認Cacti模板太少增加模板我們的模板磁盤IO內存詳情單個內核使用CPU總和及IOWaitJMX支持監控HadoopPage?*Hadoop集群監控Cacti優點監控每臺服務器的詳細數據SNMP采集數據可以自己定義相比zabbix：無需客戶端安裝配置簡單spine采集速度快模板眾多支持IPMI缺點SNMPD為UDP協議，不夠穩定無法獲知集群整體運行狀況Page?*Hadoop集群匯總監控GangliaPage?*Hadoop集群匯總監控Ganglia優點集群總體狀況和負載匯總采用多播地址降低帶寬占用TCP采集數據穩定hadoop原生支持ganglia數據采集缺點配置稍復雜，需安裝客戶端單臺數據不如cacti詳細Page?*Hive高可用集群Hive存在的問題單一節點Hive ThriftServer故障導致任務失敗高可用方案多個HiveThriftServer節點HAProxy+HiveHAProxy在實際應用中出現過的問題和優化Hive日志問題輪詢方式優化仍存在不穩定因素，其他方式解決HAProxy+Hive網絡拓撲

也許那樣飛 2016-01-15 2511 0

分布式/云計算/大數據方案 CSS

P62

Hive 是建立在 Hadoop 上的數據倉庫基礎構架。它提供了一系列的工具，可以用來進行數據提取轉化加載（ETL），這是一種可以存儲、查詢和分析存儲在 Hadoop 中的大規模數據的機制。Hive 定義了簡單的類 SQL 查詢語言，稱為 QL，它允許熟悉 SQL 的用戶查詢數據。同時，這個語言也允許熟悉 MapReduce 開發者的開發自定義的 mapper 和 reducer 來處理內建的 mapper 和 reducer 無法完成的復雜的分析工作。

也許那樣飛 2016-01-15 2094 0

分布式/云計算/大數據

P11

SSH工具：SSHSecureShellClient-3.2.9.exe2.安裝步驟2.1.安裝虛擬機在電腦上安裝VMware-workstation-full-10.0.0-1295980.exe在Vmware上安裝CentOS操作系統2.2.在CentOS上安裝JDK查看Linux自帶的JDK是否已安裝（卸載centOS已安裝的1.4）安裝好的CentOS會自帶OpenJdk,用命令java-version，會有下面的信息：#java–version（注：下面開始#開始是shell命令，并且用顏色區分）

jeasonpei 2016-01-13 507 0

分布式/云計算/大數據

P23

何為OpenStack What為何學習OpenStack開發如何做OpenStack開發企業中常見的二次開發融入OpenStack開源社區WhyHowUsageAchievement01何為OpenStack一個云操作系統管理大量計算、存儲、網絡資源,一堆項目的結合通過Dashboard管理資源！=虛擬化（OpenStack虛擬化需要借助Hypervisor）OpenStack開發現狀為何學習OpenStack開發02為何學習OpenStack開發快速定位和修復公司生產環境中的bugs，對應社區的bugfix。增加公司產品新功能，新模塊，對應社區的newproject、blueprint。簡化開源版本的OpenStack，化繁為簡。快速定位和修復生產環境Bug增加新功能、新模塊優化OpenStack01020304跟進社區進度跟進社區進度，及時取patch為公司產品所用。

gn25d 2016-01-13 641 0

分布式/云計算/大數據 HTML Python SQL

P26

介紹Ceph在佳緣的部署和應用場景介紹使用過程中遇到的坑和解決方案介紹Openstack和Ceph的結合實戰介紹calamari監控Ceph集群What？What？Ceph?支持對象存儲、塊存儲、文件存儲的分布式存儲系統特點：免費，現被紅帽收購易管理，部署簡單高可用，cephmonitor（paxos算法）易擴展，osd進程支持多副本，保證數據安全，osdpooldefaultsize自定義故障隔離域，crushmap支持海量數據

gn25d 2016-01-13 671 0

分布式/云計算/大數據方案 HTML SQL

P21

目錄大唐電信云產品大唐電信云應用實踐02.03.04.什么是云01.大唐電信云網絡架構05.誰在做云01.什么是云云計算SaaS（Softwareasa Service），軟件即服務PaaS（Platformasa Service），平臺即服務IaaS（Infrastructureasa Service），基礎設施即服務提供處理器CPU、內存、存儲、網絡等基礎服務資源。IAAS云的優勢對于中小型創業客戶，選擇傳統IDC服務器托管完成這項創業至少需要一次性投入20萬的設備及托管費。如果選擇云平臺，充值幾千元的費用，購買3–5臺云主機，就能完成互聯網+創業項目。對于一個新的創業項目，從機器購買、開通機房、服務器上架、部署系統完成這些至少半個月。使用云平臺只需幾分鐘的注冊、充值、開通云主機，便能獲得一個虛擬數據中心。現在移動互聯網業務發展迅速，無縫快速擴容成為傳統IDC托管遇到的最大的問題。

gn25d 2016-01-13 519 0

分布式/云計算/大數據 HTML SQL

P5

本報告主要就如何提高Hive執行的總體性能進行了調研，下面以分條的形式列舉出來。設置hive.map.aggr=true，提高HiveQL聚合的執行性能。這個設置可以將頂層的聚合操作放在Map階段執行，從而減輕清洗階段數據傳輸和Reduce階段的執行時間，提升總體性能。缺點：該設置會消耗更多的內存。

xnbw 2016-01-12 1164 0

分布式/云計算/大數據

P11

介紹在商業智能領域（BI，businessintelligence），海量數據的搜集和分析發展尤為迅速，意味著使用傳統的數據倉庫解決方案會變得極其昂貴。Hadoop是一個流行的開源框架，實現了map-reduce，使用普通硬件就能對海量數據進行存儲和處理。然而，map-reduce編程模型較底層，需要開發者編寫很多程序，這些程序又難于維護和復用。本文將展示Hive，它是一個基于Hadoop之上的開源數據倉庫解決方案。Hive提供了與SQL類似的一種查詢語言HiveQL，用于支持查詢表達并能將其轉化為map-reduce任務在hadoop中執行。HiveQL還支持在查詢中插入自定義的map-reduce腳本。HiveQL包含了一個類型系統，用來支持表中出現的原始類型、類似于數組和map的集合類型以及由他們嵌套組成的類型。可以擴展其基本IO庫進行自定義格式的數據查詢。Hive還包括了一個系統目錄(systemcatalog)Hive-Metastore，此系統提供模式（schemas）和統計，用于數據挖掘和查詢優化。在Facebook公司，Hive數據倉庫中存有數千張容量至少為2PB的表，有超過100人使用其做報告和查詢分析之用。

xnbw 2016-01-12 526 0

分布式/云計算/大數據方案

P83

上就出現了一個類似的解決方案，目前它們都屬于Apache的Hadoop項目，對應的分別是：Chubby-->ZooKeeperGFS-->HDFSBigTable-->HBaseMapReduce-->Hadoop目前，基于類似思想的OpenSource項目還很多，如Facebook用于用戶分析的Hive。HDFS作為一個分布式文件系統，是所有這些項目的基礎。分析好HDFS，有利于了解其他系統。由于Hadoop的HDFS和MapReduce是同一個項目，我們就把他們放在一塊，進行分析。下圖是MapReduce整個項目的頂層包圖和他們的依賴關系。Hadoop包之間的依賴關系比較復雜，原因是HDFS提供了一個分布式文件系統，該系統提供API，可以屏蔽本地文件系統和分布式文件系統，甚至象AmazonS3這樣的在線存儲系統。這就造成了分布式文件系統的實現，或者是分布式文件系統的底層的實現，依賴于某些貌似高層的功能。功能的相互引用，造成了蜘蛛網型的依賴關系。一個典型的例子就是包conf，conf用于讀取系統配置，它依賴于fs，主要是讀取配置文件的時候，需要使用文件系統，而部分的文件系統的功能，在包fs中被抽象了。

xnbw 2016-01-12 2076 0

Hadoop 分布式/云計算/大數據

公有云介紹文檔

云計算大報告 13030211016 湯雷文檔

Zookeeper 安裝配置說明文檔

Twitter利用Storm系統處理實時大數據文檔

Docker Based Hadoop Provisioning 文檔

Spark streaming 的監控和優化文檔

Apache Kylin Extreme OLAP Engine for Big Data 文檔

存儲資源池規劃設想--分布式文件系統研發部文檔

GlusterFS關鍵代碼優化文檔

MooseFS 分布式文件系統調研分析文檔

Hadoop及mapreduce入門文檔

Hadoop集群監控與Hive高可用文檔

HIVE 學習筆記文檔

CentOS+Jdk+Jboss+Dubbo+zookeeper集群配置教程文檔

漫談OpenStack開發那點事文檔

Ceph在世紀佳緣的應用文檔

大唐電信云openstack應用實戰文檔

Hive性能調校文檔

Hive理論 Hive-基于Map-Reduce框架的數據倉庫解決方案文檔

Hadoop 源碼文檔

關鍵詞

最新上傳

熱門文檔

公有云介紹 文檔

云計算大報告 13030211016 湯雷 文檔

Zookeeper 安裝配置說明 文檔

Twitter利用Storm系統處理實時大數據 文檔

Docker Based Hadoop Provisioning 文檔

Spark streaming 的監控和優化 文檔

Apache Kylin Extreme OLAP Engine for Big Data 文檔

存儲資源池規劃設想--分布式文件系統研發部 文檔

GlusterFS關鍵代碼優化 文檔

MooseFS 分布式文件系統調研分析 文檔

Hadoop及mapreduce入門 文檔

Hadoop集群監控與Hive高可用 文檔

HIVE 學習筆記 文檔

CentOS+Jdk+Jboss+Dubbo+zookeeper集群配置教程 文檔

漫談OpenStack開發那點事 文檔

Ceph在世紀佳緣的應用 文檔

大唐電信云openstack應用實戰 文檔

Hive性能調校 文檔

Hive理論 Hive-基于Map-Reduce框架的數據倉庫解決方案 文檔

Hadoop 源碼 文檔

關鍵詞

最新上傳

熱門文檔

公有云介紹文檔

云計算大報告 13030211016 湯雷文檔

Zookeeper 安裝配置說明文檔

Twitter利用Storm系統處理實時大數據文檔

Spark streaming 的監控和優化文檔

存儲資源池規劃設想--分布式文件系統研發部文檔

GlusterFS關鍵代碼優化文檔

MooseFS 分布式文件系統調研分析文檔

Hadoop及mapreduce入門文檔

Hadoop集群監控與Hive高可用文檔

HIVE 學習筆記文檔

CentOS+Jdk+Jboss+Dubbo+zookeeper集群配置教程文檔

漫談OpenStack開發那點事文檔

Ceph在世紀佳緣的應用文檔

大唐電信云openstack應用實戰文檔

Hive性能調校文檔

Hive理論 Hive-基于Map-Reduce框架的數據倉庫解決方案文檔

Hadoop 源碼文檔