什么是真正的APM?
近 年來APM行業被越來越多的企業所關注,尤其是在2014年末,NewRelic的成功上市,更加激發了人們對這個行業前景的無限遐想。那么究竟什么是 APM?APM的目的是什么?要求我們做什么?有不少企業對APM的理解其實是有偏差的,本文將向您闡述一個真正完整的APM概念。
APM 是Application Performance Managment的縮寫,字面意思很容易理解,“應用性能管理”。它是由Gartner歸納抽象出的一個管理模型。注意,這個管理模型的由來,是經過大 量調研與分析后的歸納與抽象,這些切實需求由來已久,IT從業者們對它的理解與實踐也幾乎是從IT誕生至今就已開始,這并不是一次發明。
從上圖中可以清楚看到APM模型中一共分了五個層次,下面就這五個層次逐一說明。
1. End User Experience
What:終端用戶體驗。APM首先關注的是終端用戶對應用性能的真實體驗。
Why:不 是監測點的,也不是骨干網核心機房的,而是真實用戶的切實體驗到的性能。可能一個電影播放服務的性能優化做得很棒,但是用戶打開瀏覽器或打開APP,發現 點播某個電影時卻慢得離譜,問題會出在哪里呢?用戶不清楚點擊播放按鈕之后,發生的一切事情,用戶只是感知到了慢、不能播放、往復播放等等很多不好的體 驗,用戶反饋了問題或投訴了,產品和研發不能準確重現,問題來了。
也 許用戶瀏覽器太過陳舊,也許是某個JS腳本的兼容性問題,也許用戶本地網絡丟包嚴重、首字節響應時間很長,也許是服務器集群網絡不穩定、某組機器脫離了均 衡池…… 太多也許了。而這些猜測是,最不好把控的,就是用戶客戶端環境,Server端好比自家的菜地,菜好菜賴總是清楚的,可再好的菜賣到飯館,廚子怎么樣菜農 怎么知道?
幫助應用管理者準確、詳盡地了解真實的用戶體驗是什么樣子,這是APM首先要解決的問題。
How:對 于Web應用來說,在用戶請求到的每一個頁面下面追加一段js腳本,用js收集并發回數據,是最普遍的做法;對于移動App來說,在APP發布前 build進SDK,通過系統與語言Hook來收集數據,也是很直截了當的。至于這二者具體的做法,容后文再細聊,此篇不贅。下列簡單截取了幾張圖片,來 源透視寶。
2. Runtime Application Architecture
What:應用架構映射。
Why: 曾經與多名CTO深入探討過這個問題(其中不乏已經上市的企業):你們有完整的應用架構圖嗎?得到的回答不少是閃爍其詞的,有的CTO很直接地搖搖頭。更 有甚者是這么回答的,公司應用系統年代久遠,就算目前所有的架構師專職繪圖,也很難在短時間內完成全部的應用架構圖。
大多數企業的應用架構,是黑盒或灰盒,這就是現狀。
假如應用架構圖是完整的,那么還有一個需求即:針對于某次故障請求的真實請求鏈路拓撲。是的,負載均衡一共分發了N臺機器作為集群,但承接某次具體請求的是集群中的某些機器,那么,是哪些機器?它們當時的性能是什么樣子?請求順序是怎樣的?
How: 云智慧透視寶實現了應用的完整架構:
與單次請求的應用架構:
可以看到,在上面的示例中,完美了解決了我們在應用架構層面遇到的問題。
具體做法,我們將在后續文章中單獨介紹,其中包含了web容器插件、編程語言Hook插件等技術細節。
3. Business Transactions
What:應用事務分析
Why:當然這里說的事務不是DB事務。這里指應用與用戶交互的操作事務。舉個例子:用戶登錄網站后,使用搜索功能搜索了耳機,從耳機列表中,選擇了自己喜歡的耳機,打開查看詳情,款式音效價格看來都不錯,放入購物車,然后打開購物車進行購買,完成支付。
整個例子中,我們所說的事務可以抽象為:
登錄 -> 搜索 -> 挑選 -> 購買 -> 支付
所以,單純的記錄登錄成功率、購買成功率的意義不會至于大到分析整個應用的健壯穩定程度,準確地分析出整體事務的相互影響象限,才會。
How: 熟悉GA的朋友都知道,GA花費了大量的力量以實現上述我們所描述的應用事務。但令開發者痛苦的是,必須要在代碼中“埋點”,即在代碼中的關鍵位置寫入一 行代碼,以實現在關鍵位置的追蹤,而業務總不是一成不變的,于是隨著業務發展,“埋點”這個事情使得應用總在不停地修改、發布、修改、發布。
其實,用戶在客戶端(瀏覽器、APP)所進行的所有操作,很明顯,是有序的。要完成應用事務的記錄,要完成的需求其實只是兩個惟一性:
1、確定上下文的事務操作,是同一個用戶;
2、確定所有事務操作的每一個步驟,是惟一一個動作。
于是我們便可對某一個應用取得的數據分析出以下應用事務,而整個過程中,用戶不需要修改任何一行代碼(無須埋點)。具體的實現細節,后續會專門出文介紹。
4. Deep Dive Component Monitoring
What:深度應用診斷
Why: 關鍵詞是“深度”。比如某在線商城,接到了上海用戶的反饋,登錄慢,不響應。這其中可能出現問題的環節太多了:CDN可能有問題、Web Server或DB Server負載可能過高、業務代碼中可能有bug、中間件可能不響應、甚至任何一個環節的物理磁盤或物理網卡可能出現了故障,等等。想要準確地找到問題 所在,即使不經一番寒徹骨,八成也要先打個冷戰。
How:這里有幾個難點是:
1、在不修改用戶代碼的前提下,取得代碼運行時性能數據;
2、終端用戶數據、運行時性能數據、物理指標數據、服務運行指標數據,有效關聯;
3、有太多需關注的點,怎樣方便快捷地部署采集端;
4、不影響或很少影響原應用性能。
以上也正是APM提出的需求。
一 鍵式的、無干預的安裝部署與更新升級,以替代繁瑣的部署與升級;采用各個語言的底層Hook來針對性地編寫語言Agent插件,以此實現不修改用戶代碼而 取得運行時性能數據;通過主機、應用、服務、請求的惟一標識,來進行有效的數據關聯;通過特有的數據采樣算法來達到2%以下的性能影響;一體化的數據模 型,以替代密集的數據孤島。這段特征,描述的是云智慧透視寶的Smart Agent。(同樣,實現細節請待后文。)
5. Analytics / Reporting
What:分析與報告
Why:簡單地講,APM對數據有兩點要求:
1、數據處理要及時,必要時候要做到實時的處理,問題可能隨時都會發生;
2、數據的分析報告要精確,大量的數據本身是無價值的,按照業務模型進行精確分析、預測才有其價值體現。
How:APM數據是天然的大數據,符合4V特征。因此難點幾乎與大數據處理的難點相重合:
1、數據模型語言要統一
2、數據存儲與查詢
3、大量復雜數據的關系建模
可 以看到,云智慧透視寶架構中Pipe Cluster的設計是對流數據的處理的核心部分,分布式、集群部署的Pipe Worker可實現實時的消息消費,同時基于此架構的Data Platform與Alter Engine可實時對任意維度的數據進行分析與預警。目前數據采集量720億條/每天,共存儲200,000億條數據。(后續將對此架構進行專文介紹。)
下圖是對比了國內外APM行業的各廠商對以上APM模型中五個層次的認識與支持程度:
來自:http://my.oschina.net/ciogao/blog/395520