• P15

      基于Spark/hbase的數據分析平臺及SparkSQl使用經驗分享 文檔

    基于Spark/hbase的數據分析平臺及SparkSQl使用經驗分享

    cdop 2014-12-29   732   0
    P30

      程浩-SparkSQL漫談 文檔

    Spark SQL Overview<br> Catalyst in Depth<br> SQL Core API Introduction<br> V.S. Shark & Hive-on-Spark<br> Our Contributions<br> Useful Materials

    cdop 2014-12-29   2924   0
    P17

      如何讓SQL在Spark上運行的更快 文檔

    2014年7月SparkSummit作為獨立于Hadoop的大會召開,大數據生態系統開始全面轉向Spark開源社區準備合作擴大對Spark的支持,將Spark作為標準的計算引擎以替代 (TDH)架構圖一站式數據存儲平臺TDH通過內存計算技術、高效索引、執行計劃優化和高度容錯的技術,使得一個平臺能夠處理從GB到PB的數據,并且在每個數量級上,都能比現有技術提供更快的性能;企業客戶不再需要混合架構,不需要孤立的多個集群,TDH可以伴隨企業客戶的數據增長,動態不停機擴容,避免MPP或傳統架構數據遷移的棘手問題。

    nn34 2014-12-16   6216   0
    P19

      Spark streaming 的監控和優化 文檔

    Spark streaming的監控和優化

    nn34 2014-12-16   789   0
    P30

      Spark SQL 漫談 文檔

    Shark和sparkSQL 但是,隨著Spark的發展,其中sparkSQL作為Spark生態的一員繼續發展,而不再受限于hive,只是兼容hive;而hive on spark是一個hive的發展計劃,該計劃將spark作為hive的底層引擎之一,也就是說,hive將不再受限于一個引擎,可以采用map-reduce、Tez、spark等引擎。

    nn34 2014-12-16   535   0
    P61

      大數據與SequoiaDB 文檔

    大數據概況BigData,BigWorld傳統的結構化數據依然是最常見的數據非結構化的情緒表達和客戶行為快速增長企業現存的非結構化數據蘊含大量開放文本視頻音頻在業務操作中被使用博客,論壇以及評論反映了客戶的聲音volume30%組織需要每天處理>100GB數據批處理更新從每天提升到每小時,每分鐘,甚至實時復雜事件處理能夠即時產生信息發送給分析系統實時流數據處理大數據:3V特征海量數據規模高時效性多樣化50%組織擁有和處理>10TB數據10%已經處理>1PB電子商務和Web日志可產生每分鐘上萬的數據項社交媒體應用每分鐘產生百萬交互活動HadoopandNoSQLHadoop針對海量與多樣化數據NoSQL針對海量與高時效性數據Hadoop與NoSQL互為補充

    nmdb 2014-12-15   2576   0
    P12

      Spark 核心技術剖析 文檔

    Spark:完整生態系統Spark是發源于美國加州大學伯克利分校AMPLab的集群計算平臺。它立足于內存計算,從多迭代批量處理出發,兼收并蓄數據倉庫、流處理和圖計算等多種計算范式。Spark當下已成為Apache基金會的頂級開源項目,擁有著龐大的社區支持,技術也逐漸走向成熟。Cloudera,MapR,Amazon,SAS等眾多知名都引入了Spark

    xcn4 2014-11-29   472   0
    P20

      Opentack開源云計算平臺介紹 文檔

    OpenStack簡介計算組件Nova(Compute)對象存儲組件Swift(Object?Storage)鏡像組件Glance(Image?Service)網絡組件Quantum(Network)塊存儲Cinder(Block?Storage)身份驗證組件Keystone(Identity)Dashboard組件HorizonOpenStack是由Rackspace和NASA共同開發的云計算平臺,幫助服務商和企業內部實現類似于AmazonEC2和S3的云基礎架構服務(IaaS)。

    watchman 2014-11-19   6344   0
    P27

      Openstack 云平臺分析與比較 文檔

    Openstack 云平臺分析與比較

    watchman 2014-11-19   436   0
    P6

      OpenStack 架構詳解 文檔

    OpenStack架構詳解窗體頂端What is OpenStack?OpenStack提供開放源碼軟件,建立公共和私有云。OpenStack是一個社區和一個項目,以及開放源碼軟件,以幫助企業運行的虛擬計算或者存儲云。OpenStackd開源項目由社區維護,包括OpenStack計算(代號為Nova),OpenStack對象存儲(代號為SWIFT),并OpenStack鏡像服務(代號Glance)的集合。

    watchman 2014-11-19   4256   0
    P15

      OpenStack-dashboard-使用手冊 文檔

    1.用戶使用指南1.1登陸搭建好OpenStack云計算平臺后,訪問http://control_IP/horizon,在本使用手冊中,control_IP為192.168.1.232

    watchman 2014-11-19   3777   0
    P39

      OpenStack 安裝指南 文檔

    OpenStack 安裝指南

    watchman 2014-11-19   452   0
    P31

      基于Hadoop生態技術構建阿里搜索離線系統 文檔

    目錄阿里搜索業務簡介搜索技術體系搜索離線系統實時計算方案集群優化與管理展望未來阿里搜索業務簡介搜索技術體系目錄阿里搜索業務簡介搜索技術體系搜索離線系統實時計算方案集群優化與管理展望未來離線系統—架構

    byc2 2014-11-19   1874   0
    P30

      Apache Tez - 下一代Hadoop上的執行引擎 文檔

    Apache最新開源的支持DAG作業的計算框架,它直接源于MapReduce框架,核心思想是將Map和Reduce兩個操作進一步拆分,即Map被拆分成Input、Processor、Sort、Merge和Output, Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等,這樣,這些分解后的元操作可以任意靈活組合,產生新的操作,這些操作經過一些控制程序組裝后,可形成一個大的DAG作業。

    byc2 2014-11-18   348   0
    P

    Apache Hadoop Main 2.2.0 API 文檔

    Hadoop實現了一個分布式文件系統(Hadoop Distributed File System),簡稱HDFS。HDFS有高容錯性的特點,并且設計用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來訪問應用程序的數據,適合那些有著超大數據集(large data set)的應用程序。HDFS放寬了(relax)POSIX的要求,可以以流的形式訪問(streaming access)文件系統中的數據。 Hadoop的框架最核心的設計就是:HDFS和MapReduce。HDFS為海量的數據提供了存儲,則MapReduce為海量的數據提供了計算

    colophus 2014-11-13   434   0
    P158

      Hadoop 源碼分析 文檔

    Google的核心競爭技術是它的計算平臺. Google的大牛們用了下面5篇文章, 介紹了它們的計算設施. GoogleCluster: Chubby: GFS: BigTable: MapReduce: 很快, Apache上就出現了一個類似的解決方案, 目前它們都屬于Apache的Hadoop項目

    brucehtan 2014-11-09   2206   0
    P9

      Ice 中間件研究 文檔

    簡介Ice?是一種面向對象的中間件平臺。從根本上說,這意味著?Ice為構建面向對象的客戶-服務器應用提供了工具、API?和庫支持。Ice?應用適合在異構環境中使用:客戶和服務器可以用不同的編程語言編寫,可以運行在不同的操作系統和機器架構上,并且可以使用多種網絡技術進行通信。無論部署環境如何,這些應用的源碼都是可移植的。

    jlsfwq 2014-10-30   521   0
    P30

      Hadoop 入門指南 文檔

    Why Hadoop 數據規模爆炸式增長,大數據計算需要“高效”解決方案 多機環境中網絡成為瓶頸 多機環境下的穩定性問題 如何平衡計算效率和開發效率 What Hadoop Google的GFS + MapReduce的山寨產品 Hadoop = HDFS + MapReduce HDFS:分布式“大文件”存儲系統 MapReduce:分布式計算框架 計算邏輯必須符合Map-Reduce編程規范

    yudian 2014-10-29   565   0
    P26

      Hadoop實用指南 文檔

    Sogou的Hadoop生態系統 Hadoop Quick Start 深入MapReduce 了解MapReduce運行機制 如何調試MapReduce MultiInput & MultiOutput 數據Join操作 關于UigsTools MapReduce進階開發模式 各類資源列表

    yudian 2014-10-29   1898   0
    P30

      Tez - 下一代Hadoop上的執行引擎 文檔

    MapReduce已經開始顯現老化的跡象,局限性越來越明顯。Tez作為下一代hadoop的執行引擎與傳統的MapReduce相比做了很大的改進和優化,將計算模型直接建立在DAG上面,比傳統的MapReduce更加直接,靈活,在性能上有很大的提升。同時由于Tez從項目開始就集成了Yarn,從而對于整個計算資源的Context了解的更加清楚,這也有助于性能的優化。本次演講將主要對Tez做一個Overview的介紹。

    dfwm 2014-10-19   763   0
    1 2 3 4 5 6 7 8 9 10

    關鍵詞

    最新上傳

    熱門文檔

  • sesese色