• P59

      Storm高級原語 文檔

    Storm高級導讀:Storm高級部分包括事務、DRPC以及Trident等,它是相對于基礎部分而言的,在基礎部分,你了解了Storm應用程序執行的過程以及一些基本API,當然,自己動手部署過Storm集群和寫過一些Storm應用程序對了解Storm高級部分是很有幫助的。本部分內容翻譯自Stormmanual,具有很好的參考價值。

    nd7b 2015-12-09   1781   0
    P21

      淺析Storm流式計算 文檔

    公開課主題:淺析Storm流式計算主講人:肖康主要內容Storm簡介Storm原理和架構Storm實戰*Storm簡介-案例分析統計某個服務被訪問的客戶端地域分布情況日志中記錄了客戶端IP把IP轉換成地域按照地域進行統計Storm簡介-案例分析Hadoop貌似就可以輕松搞定日志存HDFS運行MapReduce程序map做ip提取,轉換成地域reduce以地域為key聚合,計數統計從HDFS取出結果Storm簡介-案例分析如果有時效性要求呢?小時級:還行,每小時跑一個MapReduceJob10分鐘:還湊合能跑5分鐘:夠嗆了,等槽位可能要幾分鐘呢1分鐘:算了吧,啟動Job就要幾十秒呢秒級:…分析MapReduce不滿足時效性要求的原因一批數據啟動一次,處理完進程停止啟動本身是需要時間的:輸入切分、調度、起進程共享集群Job比較雜

    nd7b 2015-12-09   6398   0
    P31

      Storm對于交通數據的處理 文檔

    Storm及交通實時數據處理報告人:汪杰宇緒論知識Storm架構一個簡單的Storm例子Storm在交通數據處理中的應用目錄背景:大數據的產生GBTBPBEBZB數據量的增長:在2006年,個人用戶才剛剛邁進TB時代,全球一共新產生了約180EB的數據;在2011年,這個數字達到了1.8ZB。有市場研究機構預測(2009年):到2020年,整個世界的數據總量將會增長44倍,達到35.2ZB(1ZB=10億TB)!1GB=2^30字節1TB=2^40字節1PB=2^50字節1EB=2^60字節1ZB=2^70字節背景:大數據處理模式主要的處理模式可以分為流處理(streamprocessing)和批處理(batchprocessing)兩種。批處理是先存儲后處理(store-process),而流處理則是直接處理(straight-throughprocess)。(有時也分為在線、離線、近線三種)

    nd7b 2015-12-09   6303   0
    P50

      Hadoop 實戰手冊 文檔

    本文檔是Hadoop部署文檔,提供了Hadoop單機安裝和Hadoop集群安裝的方法和步驟,本文檔希望讓Hadoop安裝部署更簡單(Easy)。 本安裝文檔適用于 centos 5 /red hat 5.2 32位,64位版本,ubuntu 等操作系統 需要做部分修改。

    ka520 2015-11-14   434   0
    P83

      Hadoop 源代碼分析(完整版) 文檔

    很快,Apache上就出現了一個類似的解決方案,目前它們都屬于Apache的Hadoop項目,對應的分別是: Chubby-->ZooKeeper GFS-->HDFS BigTable-->HBase MapReduce-->Hadoop 目前,基于類似思想的Open Source項目還很多,如Facebook用于用戶分析的Hive。 HDFS作為一個分布式文件系統,是所有這些項目的基礎。分析好HDFS,有利于了解其他系統。由于Hadoop的HDFS和MapReduce是同一個項目,我們就把他們放在一塊,進行分析。

    ka520 2015-11-14   1188   0
    P33

      Hadoop與HBase自學筆記 文檔

    安裝jdk安裝eclipse時已經提過,這里略,使用jdk1.6.0_12版本。安裝Cygwin以及相關服務安裝Cygwincygwin是一個在windows平臺上運行的unix模擬環境。在安裝Cygwin之前,得先下載Cygwin安裝程序setup.exe

    ka520 2015-11-14   1170   0
    P49

      Deep dive into Spark Streaming 文檔

    Extends Spark for doing large scale stream processing。 Scales to 100s of nodes and achieves second scale latencies。 Efficient and fault-tolerant stateful stream processing。 Integrates with Spark’s batch and interactive processing。 Provides a simple batch-like API for implementing complex algorithms

    fkd27 2015-10-17   545   0
    P11

      配置Storm的開發環境 文檔

    Storm的開發環境Storm的開發環境,就是滿足Storm開發所需要的硬件與軟件環境。Storm開發環境的硬件環境,只需要1臺普通的PC主機,就可以滿足。Storm開發環境所必需的軟件,如表11.1所示,主要有JDK、Maven和Eclipse這3款軟件。

    wudawen 2015-09-10   2659   0
    P6

      Storm0.9.5 安裝筆記 文檔

    環境:三臺虛擬機,系統是CentOS6.5?

    wudawen 2015-09-10   1639   0
    P21

      匯環云計算平臺需求分析說明書 文檔

    [軟件需求分析說明即軟件需求規約(SRS) 的簡介應提供整個 SRS的概述。它應包括此 SRS 的目的、范圍、定義、首字母縮寫詞、縮略語、參考資料和概述。] [注:軟件需求規約 (SRS) 記錄對系統或系統的一部分的完整軟件需求。 ] [闡明此 SRS 的目的。SRS 應詳細地說明所確定的應用程序或子系統的外部行為。它還要說明非功能性需求、設計約束以及提供完整、綜合的軟件需求說明所需的其他因素。]

    cmjjsnt 2015-08-28   671   0
    P32

      基于hadoop的數據倉庫技術 文檔

    Hadoop實現了一個分布式文件系統(Hadoop Distributed File System),簡稱HDFS。HDFS有著高容錯性的特點,并且設計用來部署在低廉的(low-cost)硬件上。而且它提供高傳輸率(high throughput)來訪問應用程序的數據,適合那些有著超大數據集(large data set)的應用程序。HDFS放寬了(relax)POSIX的要求(requirements)這樣可以流的形式訪問(streaming access)文件系統中的數據。

    xcxc 2015-08-24   524   0
    P45

      基于Hadoop的大數據應用分析 文檔

    基于Hadoop的大數據應用分析5.東軟基于HADOOP的大數據應用建議內容提要1.大數據背景介紹2.HADOOP體系架構3.基于HADOOP的大數據產品分析4.基于HADOOP的大數據行業應用分析IDC定義:為了更為經濟的從高頻率獲取的、大容量的、不同結構和類型的數據中獲取價值,而設計的新一代架構和技術。大數據定義及特點大數據對系統的需求High performance–高并發讀寫的需求高并發、實時動態獲取和更新數據HugeStorage–海量數據的高效率存儲和訪問的需求類似SNS網站,海量用戶信息的高效率實時存儲和查詢

    xcxc 2015-08-24   782   0
    P13

      Hadoop:分布式大數據處理架構 文檔

    由于具備低成本和前所未有的高擴展性,Hadoop已被公認為是新一代的大數據處理平臺。就像30年前SQL(Structured Query Language)出現一樣,Hadoop正帶來了新一輪的數據革命。如今Hadoop已從初出茅廬的小象變成了行業的巨人,但Hadoop仍需繼續完善。基于Java語言構建的Hadoop框架實際上一種分布式處理大數據平臺,其包括軟件和眾多子項目。在近十年中Hadoop已成為大數據革命的中心。MapReduce作為Hadoop的核心是一種處理大型及超大型數據集(TB級別的數據。包括網絡點擊產生的流數據、日志文件、社交網絡等所帶來的數據)并生成相關的執行的編程模型。

    xcxc 2015-08-24   614   0
    P5

      10分鐘內理解云計算分布式大數據處理框架Hadoop 文檔

    在10分鐘內理解云計算分布式大數據處理框架Hadoop并開始動手實踐,倒計時開始……第1分鐘:Hadoop要解決的問題是什么?答:Hadoop核心要解決長期IT界乃至人類社會的兩大主題:海量數據的存儲:傳統的存儲方式昂貴而且日益難以滿足核裂變級別數據的增長,例如紐約證券交易所每天要產生T級別的數據量,Facebook要每天要服務過億的用戶(其中圖片等數據`量是驚人的),如何使用廉價的設備支持無線增長的數據的安全高效的存儲,Hadoop提出了解決方案,即HDFS.海量數據的分析:如何有效而快速的從海量數據中提取出有價值的信息,Hadoop給出了解決方案,即MapReduce.HDFS和MapReduce是Hadoop整個項目的基礎和核心

    xcxc 2015-08-23   651   0
    P18

      (2)Spark 基礎知識 文檔

    Spark 是Scala寫的, 運行在JVM上。所以運行環境是Java6或者以上。 如果想要使用 Python API,需要安裝Python 解釋器2.6版本或者以上。 目前Spark(1.2.0版本) 與Python 3不兼容。

    ngn6 2015-08-12   631   0
    P12

      (12)使用數據分區優化join 文檔

    解決低效問題 我們知道userData 表比每五分鐘的時間日志大很多,這浪費了很多工作。userData 每次調用的時候,都通過網絡hashed和shuffled,盡管它不變化。 在userData使用partitionBy()

    ngn6 2015-08-12   548   0
    P12

      (11)數據分區 文檔

    Spark是怎樣分割工作的 每個RDD都有一個固定個數的partitions,決定了當執行RDD操作時候的并行度。 Spark會嘗試基于集群大小的默認值,一些情況下,你需要優化并行度。 當我們執行聚合或者分組操作的時候,我們可以讓Spark使用特定個數的partitions。

    ngn6 2015-08-12   1687   0
    P13

      (10)KeyValue對RDDs(二) 文檔

    combineByKey(createCombiner,mergeValue,mergeCombiners,partitioner) combineByKey()是最常用的基于key的聚合函數,返回的類型可以與輸入類型不一樣。 許多基于key的聚合函數都用到了它,像groupByKey(),aggregate()。

    ngn6 2015-08-12   1224   0
    P14

      (9)KeyValue對RDDs(一) 文檔

    KeyValue對RDDs(Pairs RDDS)一般用來聚合操作。 將數據轉換成Key/value格式的方法:ETL (extract, transform,and load)操作 extract:字段抽取 transform:已有的RDD轉換 load:加載的時候 parallelize()

    ngn6 2015-08-12   513   0
    P12

      (8)RDDs的特性 文檔

    Spark維護著RDDs之間的依賴關系和創建關系, 叫做 血統關系圖(lineage graph)。 Spark使用血統關系圖來計算每個RDD的需求和恢復丟失的數據(當一些存儲的RDD丟失的時候)。

    ngn6 2015-08-12   482   0
    1 2 3 4 5 6 7 8 9 10

    關鍵詞

    最新上傳

    熱門文檔

  • sesese色