亞馬遜面向托管和大數據處理的大動作
Amazon Web Services(AWS)團隊發布了亞馬遜 Redshift 的有限預覽版,這個基于云的數據倉庫,在成本和功能上正準備對行業造成沖擊。另外,AWS 還透漏了兩種新型的大規模計算實例,以及一個叫做 Data Pipeline 的數據集成工具。總的來說,這些服務開始切入企業關心的問題,即在公有云上收集,存儲,分析他們的業務數據是否是劃算而有效率的。
據拉斯維加斯舉行的首個年度 AWS re:Invent 大會上的介紹,Redshift 被 AWS 首席技術官 Werner Vogels 描述為“云上的一個快速、強大、完全受管理的、PB 規模的數據倉庫服務。”Vogels 講解了 Redshift 是如何被構建來快速分析大數據集的。
亞馬遜 Redshift 使用了大量的創新,以使得用戶可以快速分析從幾百 GB 到若干 PB 甚至更大規模的數據集。不同于基于行的傳統關系數據庫將每一行數據都順序存儲在磁盤上,亞馬遜 Redshift 采用了順序存儲每一列。這意味著 Redshift 比基于行的數據庫消耗更少的 IO,因為在執行給定的查詢時它不必讀取那些不需要的列。另外,由于相似的數據被順序存儲,亞馬遜 Redshift 可以有效的壓縮數據,從而進一步降低返回結果所需要執行的 IO 數量。
亞馬遜對 Redshift 的架構和底層平臺進行了優化以便為數據倉庫負載提供較高的性能。Redshift 具有大規模的并行處理架構,以便于它能夠將查詢分散到多個低成本節點上進行并行處理。節點本身也針對數據倉庫負載進行了特別設計。它們在多個主軸上包含大量本地連接存儲,并且被連接在至少是超配額(oversubcribed)的 10 GigE 網絡中。
AWS 團隊博客描述了 Redshift 令人印象深刻的恢復能力。
亞馬遜 Redshift 被設計為即使面對磁盤或節點故障也能保證數據完整性。第一道防線由兩個數據備份組成,分布在你的數據倉庫集群中超過 24 個不同節點的驅動器上。亞馬遜 Redshift 監控這些驅動器的狀況,如果驅動器故障會切換到備份數據上。如果可能,它還會把數據移動到正常的驅動器上,如果必要甚至可以移動到新的節點上。雖然在這個重新復制的過程中,你會觀察到些許的性能下降,但是這一切都無需用戶參與。
Redshift 遵循標準 AWS“用多少付多少”的定價模型,并且亞馬遜聲稱用戶將會發現通過使用該服務可以節省大量的費用。基于亞馬遜的調查,典型的 on-premises 數據倉庫每 TB 每年需要花費 19,000 到 25,000 美元用于許可證和維護,而 Redshift 服務每年每 TB 花費卻低于 1000 美元。根據 Barb Darrow at GigaOm 這篇文章所述,這個服務將“從 Oracle,IBM 和 Teradata 蠶食業務(Redshift,能做到嗎?)”,并且 AWS 尚未完成“構建高級服務來和老牌 IT 提供商甚至部分亞馬遜自己的軟件伙伴來進行競爭”。
盡管像 AWS 這樣的云供應商有效地提供了無限存儲,但是把數據遷移到云上仍然存在挑戰,需要用 Redshift 這樣的分析工具鞏固加強。當有不斷涌現的解決方案來解決前者之際,新的 Data Pipeline 產品的出現正是為了解決后者。 Data Pipeline 產品提供了圖形化的可拖拽的用戶界面,用于進行數據源之間的建模。AWS 團隊博客解釋了 Pipeline 由數據源、目的地、處理步驟和執行調度構成。Pipeline 數據源可以是 AWS 數據倉庫,比如 RDS、DynamoDB 和 S3,或者是運行在 EC2 虛擬機甚至 on-premises 數據中心的數據庫。Data Pipeline 尚未發布,目前只針對選定的 Beta 測試伙伴開放。
高效地傳輸大數據需要巨大的帶寬。在 GigaOm 的一篇采訪中,AWS 首席數據科學家 Matt Wood 解釋了亞馬遜和他的伙伴們正在如何積極地解決這個問題。
數據集越大,上傳時間越長。
Wood 說 AWS 正在努力減輕這些問題。比如,像合作伙伴 Aspera 甚至是一些開源項目讓用戶可以在網絡上高速傳送大文件(wood 說他看到過持續 700Mbs 的速度)。這也是為什么 AWS 減免了入站數據的傳輸費用,同時開放了大文件并行上傳,以及使用數據中心運營商提供的到 AWS 設施的專用連接來創建直連程序。
如果數據集對這些方法來說仍然太大,客戶可以把他們的硬盤發送給 AWS。Wood 說“我們絕對接受硬盤”。
作為“大”這個主題的延續,AWS 還透露了 EC2 虛擬機的兩個最新的實例類型。“Cluster High Memory”實例類型擁有 240GB 的大內存和一對 120GB 的固態硬盤。相對于目前 EC2 提供的虛擬機最大 60.5GB 的內存來說是一個巨大的增長。另一個實例類型被稱為 “High Storage”,擁有 117GB 的內存以及 48TB 的存儲。這兩個實例類型目前還不可用,但是它們的直接目標都是那些在云中進行 Map Reduce 和大數據處理的客戶。
英文原文:Amazon Makes Compelling Case for Hosting and Processing Your Big Data
來自: InfoQ