未來的網絡安全,離不開機器學習
信息安全一直就是貓與老鼠的游戲。好家伙新建一堵墻,壞家伙便想方設法通過或繞過它。但最近,壞家伙們似乎越來越輕易地就可以通過這堵墻。要想阻止他們,我們的能力需要有一個巨大的提升,這可能意味著我們需要更廣泛地使用機器學習技術。
這可能會驚到行業外的旁觀者,但機器學習目前并沒有廣泛地影響到IT安全領域。安全專家認為,盡管信用卡欺詐偵查系統和網絡設備制造商正在使用先 進的分析方法,但實際上每個大型公司常見的自動化安全行動——比如檢測個人電腦上的惡意軟件或者識別網絡中的惡意活動——大部分都要依靠人類適時地對這些 行動進行代碼編寫和配置。
盡管機器學習技術在網絡安全領域的應用已經有了廣泛的學術研究,但我們現在才剛開始了解這項技術對安全工具的影響。一些創業公司(如 Invincea , Cylance , Exabeam 和 Argyle Data )正在利用機器學習驅動安全工具,使得它們比目前主要的安全軟件供應商提供的工具更快捷和精準。
用數據摧毀惡意軟件
Invincea是美國弗吉尼亞州一家專門檢測惡意軟件和維護網絡安全的公司。這家公司的首席研究工程師Josh Saxe認為,是時候摒棄上世紀90年代的基于特征碼和文件哈希值的分析技術了。
Saxe說:「我了解到,一些反病毒公司已經涉足機器學習領域,但是他們賴以生存的仍然是特征碼檢測。他們基于文件哈希值或者模式匹配來檢測惡意軟件,這是人類研究員想出來的檢測給定樣品的分析技術。」

他說:「他們在檢測過去常見的惡意軟件上很成功,但是他們并不擅長檢測新的惡意軟件,這也是當下網絡犯罪大行其道的原因之一。即使你安裝了殺毒系統,其他人還是能成功侵入你的電腦,因為特征碼檢測的方法根本不起作用。」
在 Invincea,Saxe正帶領團隊用機器學習建立更完善的惡意軟件檢測系統。這個項目是DARPA網絡基因組項目的一部分,主要是使用機器學習來摧毀 檢測到的惡意軟件,包括反向還原惡意軟件的運行方式、在代碼中進行社交網絡分析、使用機器學習系統快速摧毀自然網絡環境中出現的惡意軟件新樣本。
「我們已經證明,我們開發的基于機器學習的方法比傳統反病毒系統更有效。機器學習系統能夠自動完成人類分析員所做的工作,甚至能做得更好。把機器學習系統與大量的訓練數據結合,就能擊敗基于特征碼的傳統檢測系統。」
Invincea采用深度學習方法來加快算法的訓練。目前,Saxe有大約150萬個良性或惡意軟件樣品用來訓練算法,這些都在使用Python 工具的GPU中進行。他希望,隨著樣本數據增加到3000萬,機器學習系統的性能優勢會有一個線性增長。
「我們擁有的訓練數據越多,用來訓練機器學習系統的惡意軟件的數量越多,那機器學習系統在檢測惡意軟件上的性能優勢就會越明顯,」他說。
Saxe說Invincea目前的計劃是在2016年的終端安全產品上加載更多基于深度學習的功能。具體來說,就是把這種能力添加到已經使用機器學習技術的終端安全產品Cynomix上。
惡意用戶檢測
機器學習還有助于IT安全的其他方面:檢測惡意的內部用戶和識別損壞的賬戶。
正如主要的反病毒產品依賴特征碼來識別惡意軟件一樣,監測用戶活動的工具也是倚賴特征碼。基于特征碼的檢測方法在惡意軟件檢測上開始失效,同樣的,它在檢測用戶活動領域的效果也不盡如人意。
「過去,企業的安全人員嚴重倚賴特征碼方法——比如IP地址黑名單。」用戶行為分析工具提供商Exabeam的首席數據科學家Derek Lin說到。
他說:「這種方法尋找的是已經發生的事情。基于特征碼的方法存在的問題是,只有事件發生過后,他們才能看到留下的特征碼。而現在,安全人員非常聚焦于檢測沒有特征碼的惡意事件。」

如今,精明的犯罪分子知道稍微改變一下他們的路徑就能戰勝特征碼檢測。所以,如果被侵入的檢測系統中存有一個IP黑名單,網絡犯罪分子可以通過在他處理下的大面積網域中不斷來回跳動來打破這個IP黑名單。
Exabeam并沒有固守昔日的防御策略,而是基于Gartner的UBA( User Behavior Analytics,用戶行為分析)概念采取了主動出擊的方法。UBA背后的思路是你沒法事先知道機器或用戶的好壞,所以先假設他們是惡意的,你的網絡是 缺乏抵抗力的,所以你時刻對每個人的行為進行監測和制作模型,從而找到惡意行為者。
這就是用到機器學習算法的地方。Lin和他的團隊獲取了多種多樣的資源(如服務器日志、虛擬私人網絡日志和V*N日志等),使用各種監督和非監督式機器學習算法來檢測用戶行為的異常模式。
Lin說:「以上都是描繪用戶行為的畫像,問題是這是如何做到的。對于網絡上每個用戶或實體,我們嘗試建立一個正常的簡略圖——這里涉及到統計學 分析。然后,我們在概念水平上尋找與正常值的偏差……我們使用基于行為的方法來尋找系統中的異常,讓他們浮現出來,方便安全分析員查看。」
機器學習在安全領域的未來
「想一想我們經歷過的幾次主要的網絡安全浪潮,網絡犯罪分子正尋找有效地方法來打破安全系統,我們也要回以反擊。機器學習會成為反擊武器中的中流 砥柱嗎?答案是肯定的。」安全軟件供應商Townsend Security創始人兼CEO Patrick Townsend說到。
他說:「現在我們正開始獲得能夠有效處理大量未結構化數據和檢測模式的系統,我希望下一波網絡安全浪潮中的產品是基于認知計算的。看看 Watson,既然它可以贏得危險邊緣(Jeopardy)游戲,那為什么它不可以用來廣泛地分析和理解網絡安全事件呢?我認為我們正處于用基于認知的計 算來幫助處理安全問題的萌芽階段。」
Invincea的Saxe希望可以成為弄潮兒。他說:「我并不驚訝該領域的公司沒有抓住這次浪潮,生產出基于新的深度學習的算法。對機器學習的訓練才剛實現不久。這在10年前是沒法有效完成的。」
來自 datanami ,作者Alex Woodie,機器之心編譯出品。參與:鄭勞蕾,汪汪。