欺詐檢測--大數據的安全管理

jopen 8年前發布 | 11K 次閱讀 大數據

現在越來越多的銀行業務依賴大數據和物聯網基礎設施,比如,移動支付、網上銀行和智能售貨機。但在這些交易過程中存在大量的個人敏感的身份信息需要保護。大數據安全是一個極大挑戰的問題,因為作弊者在不斷的尋求新方法來獲取到有價值的數據。為了防止這些壞家伙,人們需要不斷的去設計和發布新的大規模預測模型來預測作弊者的行為。不光銀行需要大數據安全保護,任何含有對個人用戶信息personally identifiable information (PII)處理的商業交易都要做好保護,比如,醫療機構和保險業。

最近有好消息稱,有越來越多的機器學習的專家、新的技術和工具來提供有效的分析模型,能夠鑒別潛在的 欺詐交易和釣魚式攻擊 。但不是所有公司都擁有機器學習專家來做這方面的工作,因此這些公司就需要從外面請一些專家來建立有效的模型來抵制作弊者。與此同時,他們又不想自己用戶的信息讓其他公司知道。通過匿名用戶個人信息PII還保證不了這一點。那有沒有一種較好的方法能夠既利用外部力量而又不暴露本公司的敏感的數據呢?

欺詐檢測--大數據的安全管理

圖一在紐約最近的一次大數據會議上,大數據公司MapR的首席架構師Ted Dunning發表了一種新方法來解決上述問題。

找出被盜商家

現在一個新的趨勢是:作弊者通過成千上萬的用戶盜取個人信息來進行許多小批量的欺詐交易。這樣他們可以在很短的時間里盜取百萬美元/英鎊/歐元,通過被盜的商家或者網站來獲取大量的顧客的金融信息。作弊者不是偷一張信用卡然后去購買大宗商品,因為這種行為容易被現在的安全軟件探測到,而是通過欺騙交易來進行大批量的信用卡交易。這些小額購買常常被用戶忽略,但是恰恰會被不良作弊者利用。為了應對這種潛在的通過被盜商家來進行盜竊的行為,一家大型金融機構采用大數據公司MapR的技術來構建新的模型來檢測這種分布式攻擊。他們的目標是改善自己的欺詐檢測的能力:a)探測出更多的可疑事件,b)更及時的檢測,在出現嚴重的影響之前盡可能的快的去關閉受影響的賬戶。

銀行有海量的個人交易行為數據,Ted的方法是把銀行的每個顧客的交易數據按時間序列轉換,在商家出現被盜之前找出來。他采用的相似估計的方法把每個被盜商家的特征點提取出來,然后進行打分。但問題在于即使是出于打擊盜取者,銀行也不太愿意把敏感的數據分享出來。

為了克服這個問題,Ted寫了一個可根據個人需求定制的樣本數據生成的代碼 log-synth ,并開源在Github上。通過log-synth生成被盜過的用戶歷史數據模擬來找出被盜的特征。在模擬數據實驗中,被盜商家有較高的打分。

構建好探測模型,并進行參數調優,然后將這個模型應用到真實的交易數據。真實的數據分析更令人振奮,一個商家打分超過80分的(見圖2),經銀行核實發現這個商家的確存在大量的數據泄露。

欺詐檢測--大數據的安全管理

圖2 通過模擬數據構建的模型運用到真實數據中的情況

更好的數據模擬的方法

使用人為生成的數據來進行構建模型并不新鮮,但是這種方法卻經常被人忽視。Ted發現,想精確模擬真實世界的行為特征是非常難的一件事,而通過人為生成的數據就可以很好的構建好的模型,這樣更快更容易。

這種方法不僅僅用于欺詐檢測,也可以用于其它真實的情況。具體怎樣使用開源log-synth,在這里由于篇幅限制就不再細激昂,感興趣的可以去看Ted Dunning和Ellen Friedman寫的書 《Sharing Big Data Safely: Managing Data Security》 ,可免費下載。

</div>

來自: http://www.infoq.com/cn/news/2016/01/Fraud-detection-big-data

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!