云棲techday第6期活動小結:數據化運營

jopen 8年前發布 | 6K 次閱讀

Tech 君從北京邀請了兩位大數據的嘉賓來到云棲小鎮,2016 年杭州整個冬天都快發霉了,當天難得有太陽,第 6 期的云棲 TechDay 如期舉辦。

本期的分享主題《數據化運營》,向磊是來自龍誠健康科技的副總,也是開源項目 EasyHadoop 與 phpHiveAdmin 的作者,對如何構建一個交互式的大數據系統非常有經驗,本期他告訴大家,“如何從零開始做一個可視化交互查詢系統”,這個過程會有什么技術點值得學習?另外一位是盧億雷,他是精碩科技(AdMaster)的技術副總兼總架構師,CCF(中國計算學會)大數據專委委員,北航特聘教授,分享了互聯網的大數據廣告平臺是如何構建的?包括如何選型開源大數據平臺等過程。 

如果不喜歡看長文的,Tech 君還準備了視頻內容(視頻1視頻2),可以慢慢聽。下面有 Tech 君宅了一個周末整理的干貨哦。

向磊帶來的《構建可視化大數據交互查詢平臺》的這個議題很吸引人,tech 君記得最早的時候都是通過命令行來提交 Hadoop 的 MR 的任務,現在想想也很汗顏,竟然沒想過要寫一個 WEB 系統,看來與牛人的差距很大啊。

向磊一上來就告訴大家大數據的交互查詢很重要!很重要!很重要(說三遍)!為什么呢?其實源自一個”懶”, 好的工程師是很懶的,所以產生了 phpHiveAdmin,主要目的就是為了降低自己工作中的重復勞動,實在是不想每天做重復工作。 

其實主流的開源大數據平臺也有很多,而且基本上都提供了 CLI,RESTful 的接口,如果每次執行 Hive 語句都需要登錄到 Linux 去執行 Shell,而且這個事情是每天要發生很多次,那還是很痛苦的。更友好的 Web 界面系統會對數據分析人員更友好,交互式的分析工具能大幅的提升效率。 

向磊分別從 Hadoop、Spark 等常見的開源系統上去介紹如何設計一個交互式的數據分析平臺,對過程中會面臨的一些困難和技巧都做了詳細的介紹,其實設計這樣的平臺,思路都差不多,但是前提是你要了解這些平臺的哪些接口是可以使用的,并且最關鍵的是如何使用。

大家也比較關心開發一個平臺需要多少人?向磊很自信的說:“一個就夠了!”,前提是他 Full Stack 的,并且是一個很全面的工程師。不過呢,現在開源的項目也比較多,公司里當然是建議用社區成熟或者商業的分析系統。但對于想設計大數據分析系統的工程師來講,了解大數據系統的接口、API,并做一個交互式分析原型,何嘗不是一個很 Cool 的學習方式? 
 
第二位嘉賓盧億雷分享了來自《大數據技術之計算廣告案例分析》,講述了 AdMaster 如何用開源的系統搭建一個廣告系統。現代廣告系統采集了每個人的行為數據,通過機器學習,對我們每個人“繪制畫像”,聽起來現在的廣告系統比我自己更了解我自己啊……

期間 AdMaster 團隊對常見的大數據系統做了很多的選型,從性能、社區活躍度、穩定性進行了深度的測試,測試的數據集都是達到千億條記錄。有個挺有意思的點,就是 Cassandra 在海外的流行程度比 Hbase 高很多,原因是更易用,社區也更活躍,這個與我們國內的情況略有不同,淘寶、小米都是 HBase 的大客戶。 

AdMaster 最終采用了 ElasticSearch 作為其中的一個數據查詢系統,這個系統現在很穩定的運行,每天請求達到 100 億,每天增長 5TB 的數據, ElasticSearch 的穩定性、可擴展性方面都得到了驗證,開源軟件的質量真是一流。 

最后還分享了數字營銷的案例,廣告主可以與 AdMaster 通過數據混合的模式,通過安全的第三方平臺來整合數據,保證數據的隱私和安全性的前提下,來提升投放的精準度,這才是 DT 時代的最好詮釋,真正讓企業的沉睡數據變成動力源。 

來自: bbs.aliyun.com

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!