大數據基礎框架設計——實時分析技術平臺洞察與實踐

今年是IoT物聯網的元年,也是人工智能的元年。之所以人工智能這么熱,與大數據有密不可分的關系,大數據就是現在網絡時代的石油。2016 年 10 月 28 日上午 7 位大數據相關專家齊聚“2016 易觀 A10 大數據應用峰會”對實時分析技術的看法和實踐經驗進行了分享和討論,從技術角度解析了企業如何做到實時分析。

很久以前大數據有三個概念—— “三個V”:第一個V是非常大的,海量;第二個V是速度,很快;第三個V是多樣化,很難 。之前我們一直在強調數據要“大”,提到大數據的時候人們一般會說“一個企業有多少數據量,每天要加載多少數據,多少萬個用戶,每天月活是多少……”,但其實到現在為止,每一個企業 真的都有了很多的數據,接下來面臨的問題是 如何讓這些數據高效地運轉起來體現實用價值,而不僅僅是拿到很多數據存儲起來 。那么,企業如何對這些數據進行相關的分析和處理呢?

易觀技術負責人郭煒提出一個概念, 數據永遠是臨時的,分析永遠是有時效性的 。例如,你某電商平臺購買了一部手機,平臺就會不斷向你推薦手機而不是手機配件。為什么呢?其實是因為實時分析和實時計算沒做好,怎么辦呢?

  • 定方向 :實時分析不難但投入大,企業首先要評估自己的ROI,選擇一個適合的場景。
  • 夯實基礎 :其次要選擇一種或者幾種適合自己企業當前狀態的實時計算框架。
  • 打造能力 :實時分析并不等于實時計算,在分析過程中除了需要數據計算能力之外,還需要數據挖掘能力、實時采集能力。
  • 實現 :突破,找到產品出口,找最合適的一到兩個點,讓企業自己的實時分析流暢地流轉起來。

提到 Hadoop 大家必然會想到 Cloudera 公司,它在 Hadoop 生態系統中擁有極高知名度。會上 Cloudera 大中華區總經理凌琦指出大數據時代想讓計算成本變得更經濟可以從兩方面考慮。

  • 一方面是硬件 ,用 X86 服務器,單臺機器不考慮冗余的情況下存儲可以有12 × 6 T。
  • 另外一方面是把一部分應用放到云上面 ,使計算成本變得更低。

會上 Alluxio 創始人兼 CEO 李浩源分享了如何讓不同的計算框架以及不同的應用在不修改自身代碼的前提下,高效且高速地訪問不同數據源中的數據。

  • 智能化地移動數據,保證最高效的訪問
  • 把不同存儲數據虛擬化
  • 采用scale-out架構,實現高效的線性性能提升

關于 Apache Kylin 很多人應該已經知道了,這是完全由中國工程師貢獻到 Apache 軟件基金會的一個項目,今年該項目拿到了“開源貢獻獎”,和 Google TensorFlow 一起獲得該獎。Kyligence 聯合創始人兼 CEO 韓卿出席了大會并分享了《基于 Apache Kylin 的實時 OLAP 實現》,對數據查詢低延遲先有處理方案表示了肯定,也提出了解決數據可達低延時的重要性。現有 Cube 構建于批處理,T+1 模式可以滿足絕大部分需求。但還是有不少問題值得深思。

  • 幾千條到幾億條數據如何實現一次性輕松構建?
  • 如何隨意暫停或更改構建頻率?
  • 如何實現自動管理集群、彈性計算資源等?

對于做數據工作的 IT 人來說 Greenplum 應該并不陌生。簡單的說,它就是一個與 Oracle、 DB2 一樣面向對象的關系型數據庫。通過標準的 SQL 可以對 GP 中的數據進行訪問存取。本質上講 Greenplum 是一個關系型數據庫集群,它實際上是由數個獨立的數據庫服務組合成的邏輯數據庫。與 RAC 不同,這種數據庫集群采取的是 MPP 架構。

現在全球有 34 個國家有 Greenplum 團隊,包含研發團隊、銷售團隊、支持團隊,就在客戶不斷增長的時候項目選擇了開源。Pivotal Greenplum 中國研發總經理姚延棟分享了 Greenplum 5.0 作為做得還不錯的企業級產品要選擇開源的原因,開源前和開源后的變化,以及從現有平臺遷移到分布式的數據架構上的方法 。

最后,大會以圓桌會議為彩蛋結束了整場論壇。圓桌會議由主持人是清華海峽研究院大數據中心主任王熙主持,易觀技術負責人郭煒、Kyligence 聯合創始人兼 CEO 韓卿、Admaster 技術副總裁盧億雷、Anchora 董事長兼 CEO 魯為民和云杉網絡聯合創始人兼 COO 來源參與, 討論了大數據實時計算應用與分析 及對 大數據未來發展方向的預測

  • 在新的技術發展階段,特別是現在云計算、大數據, 開源是一個趨勢 。而且開源是企業創新生命力的一個重要保證。
  • 開源系統是比較復雜的,應用的時候還需要 專業能力和整合能力 。開源軟件很多,不要迷信某一種,要根據不同的階段,不同的業務場景做選擇。比如,初創階段數據量比較小的時候可以選擇比較粗的方案,但是如果想要性能更高一些,就需要選擇更細的方案了。
  • 大多開源軟件原始團隊都在海外,如 Hadoop,但隨著中國大數據的崛起,在世界范圍內有影響力的開源項目越來越多。
  • 在大數據浪潮里面,中國很多地方不僅僅是趕上國外,甚至某些領域超越了。 大數據讓我們能夠有機會超越國外的戰略技術 ,因為我們今天能創造的數據量是其他任何一個國家無法得到的。
  • 現在 數據已經深入到了每一個行業的每一個環節里 ,一開始是大數據的廣告推介,現在變成了場景引擎,將來變成AI的人工智能。
  • 現在數據來源越來越復雜,預測三到五年大數據會變得非常敏捷,這是一個大趨勢。在 實時挖掘和細分算法 方向會有很多創業公司出現解決業務觸達問題,會出現更智能的工具。

 

來自:http://www.infoq.com/cn/news/2016/11/big-data-framework-design

 

 本文由用戶 edsh8445 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!