大數據架構
ZooKeeper 是一個為分布式應用所設計的分布的、開源的協調服務。分布式的應用可以建立在同步、配置管理、選舉、分布式鎖、分組和命名等服務的更高級別的實現的基礎之上。 ZooKeeper 意欲設計一個易于編程的環境,它的文件系統使用我們所熟悉的目錄樹結構。 ZooKeeper 使用 Java 所編寫,但是支持 Java 和 C 兩種編程語言。
Flume是Cloudera提供的一個分布式、可靠、和高可用的海量日志采集、聚合和傳輸的日志收集系統,支持在日志系統中定制各類數據發送方,用于收集數據;同時,Flume提供對數據進行簡單處理,并寫到各種數據接受方(可定制)的能力。
OpenStack是一個美國國家航空航天局和Rackspace合作研發的,以Apache許可證授權,并且是一個自由軟件和開放源代碼項目。CloudStack是新加入到Apache基金會中的開源云計算平臺。CloudStack開發語言為Java,此前為Cloud.com研發應用的商業軟件,此后被Citrix思杰收購,2012年4月5日思杰宣布將CloudStack項目提交至Apache基金會,CloudStack成為Apache許可下的完全開源軟件。
在對Spark的源碼進行具體的走讀之前,如果想要快速對Spark的有一個整體性的認識,閱讀Matei Zaharia做的Spark論文是一個非常不錯的選擇。
本文測試的目的是用來對比 Spark 三種存儲格式txt、parquet、ya100的性能差異。因機器環境以及配置的不同,測試結果可能略有差異,該測試報告僅對筆者的軟硬件環境負責。
數據分析數據一般以文件形式或者單個數據庫的方式組織,而數據挖掘必須建立在數據倉庫或是分布式存儲的基礎之上。
醫療行業是讓大數據分析最先發揚光大的傳統行業之一。目前,醫療健康領域積累了大量的、多類別的醫療數據,將這些海量數據進行結構化處理,將會產生巨大的商業價值,從而使整個醫療產業鏈受益。
在大數據爆炸的時代,跨多個行業的公司都巧妙地匯總數據來精確定位數字、趨勢和模式,這是他們改善服務的關鍵。但隨著數據越來越繁瑣和復雜,向管理這些數據和提取數據價值的組織提出了一個挑戰。在過去的幾年中,許多有價值的分析解決方案進入市場,在2013年,3D可視化技術會是一種新的管理、分析和交互數據的方式嗎?
公司需要搭建一套性能自動化測試云平臺用于性能測試回歸及執行,以便提升性能測試效率,減少人力回歸成本以及完善部門容量規劃。在壓測監控數據收集方面,考慮在jmeter-plugin跟serveragent源碼的基礎上改造一套數據收集插件。
世界在近代見證了數據大爆炸和指數式增長,那么我們是突然之間就對大數據產生了需求嗎?不盡然。 企業近年來一直面臨著生產能力的挑戰(最高興的應該就是存儲硬件供應商)。因此大數據的“大”不僅僅是對數據尺寸的定義。同樣,在處理前端,諸如高性能運算和分布式數據庫技術的擴展解決方案自從上一個千禧年以來就已經存在,所以本質上講并沒有新技術產生
圖計算用于挖掘人、物和實體之間的潛在不易觀察的行為和聯系,而這些聯系很難用傳統數據庫示。
MapReduce-like是說架構上和多數分布式計算框架類似,Spark有分配任務的主節點(Driver)和執行計算的工作節點(Worker)