Firouzian:數據工程師是IT行業最熱門的工作
PayPal 上海風險技術主管 Patrick Firouzian
10月 26 日消息,2012全球軟件開發大會(杭州站)進入第二天議程,PayPal 上海風險技術主管 Patrick Firouzian 在會上發表主題演講,分享 Paypal 的在線與離線大數據欺詐風險管理技術。
據 Patrick Firouzian 介紹,目前 Paypal 已出現在世界 190 個市場上,其支付平臺跨 129 個國家,交易額達 1500 億美元。他還指出,對于中國這樣一個有著“世界上最大的一個生產基地”之稱的國家,Paypal 是一個非常實用的平臺。在中國上海,PayPal 有 800 名員工,可以提供風險管理、客戶支持,還有技術服務。
Firouzian 表示,目前互聯網上在 IT 方面最熱門的工作,不是安全而是數據分析。而數據工程師是互聯網上最熱門、工資最高的工作,數據工程師的工作主要是負責處理一個公司硬件設備中存儲的數據,并且分析詮釋數據。
對于大數據的定義,Firouzian 認為大數據不是一個大的數據倉庫。大數據包括價值、速度、種類、流量等。大數據并不是說有很多數據聚集帶一起,而是說你怎么使用這個數據,大數據其實還包含很多技術可以使用。
他指出,大數據是一個非常成熟的科學,Paypal 也在對開放源和工具方面做一些貢獻,相信谷歌、非死book 的人員也在做這種工作。數據工程師是 IT 行業最熱門的工作,他認為,這是一門藝術,數據工程師在未來是一個很好的工作,大家可以考慮這個工作。
今年有來自于騰訊、阿里巴巴、淘寶、盛大、天翼、百度、陌陌、支付寶等公司的一線技術專家,以及國外的 非死book、Tumblr、PayPal、RightScale 的講師等國內外技術專家出席了本次大會。
騰訊科技作為大會戰略合作伙伴、官方指定微博平臺,全程圖文、微博直擊大會盛況。
以下是 PayPal 上海風險技術主管 Patrick Firouzian 演講實錄:
Patrick Firouzian:我是 ebay,我們是大數據的團隊,杭州很漂亮,這么漂亮的地方,我很高興在你這里,很高興你們也在這里。今天介紹的內容很有意思,剛才大家提到江南 STYLE,你們誰會跳這個騎馬舞?我給你們發獎品。這個不要發大微博上,我一會給你發一個獎品。
接下來我們還是繼續講,今天給大家介紹的內容就是大數據方面的內容,以及欺詐檢測。今天介紹的內容不是大數據方面的培訓,也不是做一個放欺詐方 面的培訓,只是給大家提一些想法。現在在我們平臺上面有這么多商戶,大家可以通過 Paypal 進行付款。大家看到過我們這個標志嗎?用這個東西可以把你的信用卡,你用一個蘋果或者安卓終端就可以了,因為直接可以用你的信用卡,很安全的,里面已經是 加密了。總之,這是一種新的方法,讓大家不需要其他東西就可以支付,在中國,這些設備逐漸出現了,接下來會介紹一下 Paypal,Paypal 大家都比較熟悉,在世界 190 個市場上都有我們的出現。我們支付平臺跨 129 個國家,而且我們的交易額達到了 1500 億美元,我們第一個問題就是大家對 Paypal 這塊,看到它這個收入,你覺得排十名是哪幾個國家?我們看一下,Paypal 拍前面 5 名收入城市。我們知道中國是世界上最大的一個生產基地,是世界工廠,中國的商戶如何賣他們的產品?他們使用的撇太是什么?他們付款的時候很多是用 Paypal,這是一個非常實用的平臺,我們在很多國家都有。在中國上海,我們就有 800 名員工,我們提供風險管理、客戶支持,還有技術。
我們知道因特網的欺詐有很多不同的面具,實際上 Paypal 就是一個銀行,以前你如果搶銀行的話,需要拿武器,進去以后你會說不交錢就開槍。或者有的時候需要里面安裝炸藥,現在在家里就可以搶銀行了,有軟件有電腦 就可以賺錢了。但是你還是會被抓進監獄,所以我們要做的工作就是確保這筆錢,你的交易是安全的。有很多人他們想在 EBAY 上面占便宜,有很多機器人、外星人,什么人都有。你們大家有試過嗎?你如果在我們上面試過欺詐的話,我可以雇傭你,很賺錢,我們知道有很多公司是通過這種 方法來賺錢的,他們用黑客方法侵入因特網,這是非常危險的。
這是一家俄羅斯的公司,他們會賣你一些黑客軟件,這樣你可以侵入一些網站,你可以賺錢。這是一個業務,你看他們有辦公室,而且他們也有客戶支 持。如果您賣這樣的軟件,侵入一個公司,比如說淘寶、阿里巴巴,或者是 Paypal,你是沒法成功的。比如說你跟他們客戶聯系,讓他們可以幫助你,你覺得很有意思嗎?既然有這樣的事情,但是你可以看出來,每一個因特網的網站 里面都是有錢,比如說每個身份,有知識產權,這些都是可以偷的一些財產,我們是軟件工程師,我們要確保因特網的盜竊不會發現。大家覺得這個會議有意思嗎? 有意思是吧。在這兩天聽敏捷這個詞聽了多少次了?敏捷是一個很有意思的詞,Paypal、EBAY,我們在很久以前就開始用敏捷了。我們的客戶他們也相信 我們的公司,我們通過軟件來進行檢測因特網的欺詐。通過這種方法,你可以更好的保護你的平臺。
這是我們的客戶,一會兒我會有一些案例給你們做一些分享。在這里,你可以看到這個女孩子在賣一個 IPAD,昨天新出的迷你 IPAD 非常酷。她在紐約,我們知道他的 IP 地點,知道她的電話號碼。我們再看一下她的交付地址,我們來計算一下兩者之間的差距,很可能他就住在它的送貨地址,看一下她的 IP 地址,IP 物地址也是在紐約,這是都是自動化結算的。再看一下她的 IP 地址,她是通過代理服務器做的。有可能這里面有一些風險,因為很多人可以用代理服務器來越過防火墻,或者把你的真是身份掩蓋一下,我們有一個軟件可以查出 來這些問題。
我們再看一下她這個地址是不是一個貨代的地址,有可能她在隱藏自己真實的地址。我們在看一下她這個地址還是可以的,到底這個交易是好的還是不好 的?我們認為是好的,是沒問題的。接下來我還會給大家講講哪些是比較有高風險的交易。當然,現在我們在解決寫非常有意思的問題,繼續向前看。
事實上 Paypal 在全球市場上有幾個市場?30個?190?非常好,你離我很遠,我要想辦法把這個拋給你。還要誰想要?我們經手的是多少個貨幣?我想讓大家不要昏昏欲睡, 所以給大家發一些小禮品。大家知道莫爾斯定律,就是電腦的績效隨著年代的推移,不噸的加速提升。我們現在所面臨的復雜化的程度在支付行業里面復雜性和過去 相比,要高的多。同時還有欺詐,欺詐也是復雜的多,因為欺詐的面目是千變萬化的,這次欺詐完了之后,下一次欺詐你的其他又完全不一樣了,他們不噸在欺詐方 面有新的創新。我們現在媒體處理的是兩億件,事件大家知道 MQ 嗎?這些所有的實踐都會生成實踐處理系統,他們會產出一些新的事件,我們會使用很多的線上的事件在系統里進行處理,這就意味這所有的事件我們都要對它們做 一些工作,進行處理。里面包含很多的情報,這系數據里面很多情報我們都是不知道的。
大家知道互聯網上最熱門的工作是什么嗎?互聯網上在 IT 方面最熱門的工作是什么?安全?可能是不能熱門的工作,數據分析是最熱門的。數據工程師是互聯網上最熱門的工作,每個人都希望去尋找一個數據工程師,必須 有人對這個數據進行處理,數據進如到系統之后,一個公司就會去買硬件去存儲數據,得到數據得到怎么做?他們把這些數據交給數據工程師,讓他們去處理,并且 分析詮釋數據。所以說現在在目前,我們工資最高的,最熱門的工作就是數據工程師了。我們可以去觀察一下,如果我從頭再來開始我的事業路徑的話,我可能會選 擇這個工作。
這個數據從那里來?如果你是一個制造業,或者航空業的公司,你每天會接觸到很多事件,比如說航空公司一個飛機再一次飛行當中所進行的數據是照照 自己,而對于支付寶、Paypal 來說,我們所要接受的支付前的時間和支付后的事件,里面都包含千萬的數據,這是我們每天多要處理的,我個人自己要去買一個東西的時候,我首先在互聯網上搜 尋一些信息,有的時候我在商店去買,但是在中國比較難了,它們不會那么方便的把貨品送上門,現在我們可以選擇不特的方式,比如說在商品支付,線上線下支 付,現在情況和過去相比有很大改變,你可以用不同方法購物。
大的數據是什么?誰知道什么是大數據?大數據是不是一個大的數據倉庫?是嗎?不是的。就是價值、速度、種類、流量。還有誰考慮過這個問題,事實 上,它不是指大數據的存儲,這不是大數據的意思。賓并不是說有很多數據聚集帶一起,而是說你怎么使用這個數據,里面還包含很多技術可以進行使用。為什么我 們櫥柜是白顏色的?因為在數據庫里面,數據中心里面有很多的這些櫥柜,為什么是白色?因為用白色的話,可能會節能。如果說這些櫥柜是白色的話,我們可以節 約電能,可以省下好幾千的美金。大家有沒有聽過 HBASE?每天有一個 HBASE 的演講,所以大家要關注明天的演講日程。我們有各種各樣的產品,你可以去下載,在你的設備當中去運作,這是非常簡單的方法,可以去使用這個工具。
如果你想開始學習大數據的話,可以自己嘗試,這是一些我們的技術,對于大技術的數據對戰。我們使用一些云數據的應用,我們也用 Hadoop,這也是開放源的工具。并且它可以更強勁的支持你的服務,比如說你有一些鼓掌,他可以幫助解決所有的問題。在線上的大數據,我給大家展開一 下。軟件里面經常會用到這點,有很多公司都在用這樣一個線上的大數據,所以你可以看到有很大的數據,而且有大數據平臺。在這張圖表立憲有很多箭頭,上方是 Paypal 點 COM 的網站,它的數據會進入到數據儲存庫,客戶支持人員會在網上使用這些數據,數據存儲庫處理這個數據之后做出決策,然后這個數據被進行使用,這些是線下的數 據。1到 24 小時的等待時間,這些數據又被存儲到高速緩存,這些高速緩存是內存中的存儲,里面有足夠內容幫助你做決策。
大家知道高速緩存的靈活性,我們這些數據可以被非常復雜的事件處理工具去做。你可以看到有很多不的組件,可以幫助我們做時時的決策。
這是我們的 CEP,你可以看到,他有這些事件的總線,一直在發送事件,都是從 Paypal 這個網站上生成的。我們有一些隱形會做一系列功能,另外我們還有相互聯系的引擎,這是非常重要的,我們復雜的事件處理的系統下的過程。你可以把很多的事件 新湖的練習性建設起來,在一般的數據庫里面是沒有能力那么你到這點。相互聯系性就是在很快時間下建立起來的?大家動 CEP 有沒有什么很好的定義?什么叫事件復雜性?工具的定義是什么?CEP 定義到底是什么?我們沒有對它沒有簡單的定義,這是一個非常復雜的技術。我們看一下 CEP,CEP 是數據庫的反方向,在數據庫上做一次詢問,你會得到一個結果。而對于復雜事件的處理里面,你會有一個詢問,然后你把數據發送到詢問里面,你會得到一個結 果。這正好是反過來的一個過程,但是它的影響力也是很強的,因為它的流程也是很復雜的,而且他是會跨域的進行處理。所以說它是一個工具,不知道大家有多少 人知道它,了解它?復雜的實踐處理的域是一個新概念,是一個新的技術。起碼我是這么認為的,在這個數據管理的整個事件當中,這是一個獨特的新技術,大家記 住我現在說的話。你們在未來會看到我們 Qcon 會議,里面都會講大事件的內容,我們一定要這么做,不然的話,我們是沒有辦法很快做決策的。除非我們要用到好幾千的客戶支持人員,很多的一些分析師,才能 夠很快做決策。
這個幻燈片很難讀,如果說你有色盲的話,這張圖就更看不清楚了。這個是要說在數據庫里面,有不同強度的工作管理,我把這張圖放在這里,這張圖告 訴我們說我們必須去妥協,或者說采用不同的技術去運作,根據個人的運算來考量。看看黃色區域,這是非常快的,CPU 高效的部分,而且是高度靈活性的部分都存儲在內存里。看數據庫,比如說高密度,他們也是很好的工作流的管理。但是對 IEO 和存儲來說,性能不好,存儲非常昂貴。所有的這些都根據你的預算和你的戰略來選擇。你要取得一個平衡,一方面要看一下有多少錢,另外一方面要找出合適你自 己情況的策略,這一頁我們可以看到,左邊就是超級安全,右邊是足夠安全。超級安全的速度比較慢,但是在右邊你可能需要做比較快的一個決策,右邊可以這么 做。我想問一下,在我們這個 Paypal 里面,比如說要做一個快速的決策,它的速度是多少?10秒?具體來說,就是你在 Paypal 上面,你在點擊按紐的時候,出現下一個頁面,不可能是 10 秒,10秒太慢了。100毫秒?或者更少?實際上還不到 100 毫秒,速度非常快。
超級安全這種方法時間是多長?它是非常安全,但是花的時間比較長。比如說要做一個交易的話,你想及時的付款,然后拿到你所想要的東西,里面讓你 輸入你的社會保障號碼,所以在這個方面,我們需要做一個平衡。在這頁方面,我們可以看到里面包括三個不同的層級。我們叫離線、在線、時時。有誰知道 ATO?就是帳號劫持。1、2、3、4、5,你們大家在笑,我們現場做一個查詢的話,比如說在五年之前,我們做一個查詢的話,10% 的人密碼就用的 PASRO 這個詞。差不多 10% 的 20% 的人是這樣的,當時我們給他郵件,要他們改變密碼。再下面一層有傳統數據庫,除了中間一層,在下面還有大數據的科學,在這里面,我們需要一些離線風險指示 的技術,這具體說明什么問題?響應時間就是從毫秒級,甚至決策的時候到數百毫秒,數分鐘,你需要花時間做一個決策。
我們再看 PG,它的一個時間可以從數小時,誰來做決策?財務人員?有可能是你們公司的 CEO,他會做一個決策你們能夠承受多大程度的風險,看一下平臺能夠承受的風險是多少。
為什么這里有猴子和狗、貓,什么意思?我在介紹大數據跟這些內容有什么關系?我們介紹的就是說你覺得有很多內容,他們并不是兼容的。我們討論的 數據可以放在一起,我們可以把不同的數據信息整合在一起,在這種情況之下,我們大家都看過網絡日志,我們還有半結構的一些數據。而且 HKMLL 里面還有,實際上是他們彼此之間的結構。在幾年前,我們做的都是結構性的數據,但是你們大家都是用 CQ 做數據庫,都可以做的很好。大家用 CQ 做過網絡日志嗎?里面有很多字提,非常不使用。在里面用起來非常不方便,一些像 JAVE 的代碼是沒法寫的。如果你把這三者比較一下,就會得到一個客戶在交易時候的圖象,他們花多少時間,到什么地方去。你們知道如何測試機器人?你是怎么看的? 他們在每頁上面所停的時間我們是不知道的。
我們看一下日志,看一下他們在不同頁面所花的時間,比如說這個地方花了 5 秒,有的時候可能是花了 1 秒,如果 1 秒,那可能是機器。因為正常人看的,可能花 5 秒。接下來我會給大家做一些例子,這個很復雜,也很機密。在這里,我不會講很多詳細的內容,如果說你有問題的話,可以會后找我。這個圖具體就是它可以用來 計算不同頁面之間的間隔時間,這是一個變量。我們可以看到這個數據是也不同,的數據源你來到這個集群,這里可以看到一些新的變量,ABC,你可以到 DEF 這些頁面,如果你發現速度非常快,他們可能在用機器人。我們看過有一些來自網絡日志,還有用戶互動,我們把這些信息整合在一起,很多時候用 JAVE 來進行測試,這還是比較簡單的。
第二個案例。昨天我業介紹過,我們可以用一些圖表,我們可以看到里面有很多焰火,實際上它們是圖畫,我們可以通過 IP 地址,或者通過具體地址,通過電話,它們之間一些相關的關系,這里對我們挑戰就是你如何才能知道這張圖,兩個圖之間的相似度在什么地方,相似度有多少。你 說這兩張圖完全一樣,你有多大信心?這是一個機器學習。比如說客戶有 4 個身份,利民有具體地址,有電話號碼,我們知道他們的交易多少超過 1 萬美元的,我們知道這是一個欺詐的情況,通過這個圖可以看出來。實際上很多帳號他們之間有很多相關的關系,我們是否可以來交給我們的機器看所有的事件,告 訴它們哪些是相似的。如果是發現這些問題,我們把數據發到客戶支持這里,我們會發現一些欺詐的內容,來交給我們的系統,什么是不好的情況,那些圖是不好 的,這樣我們有知道什么地方出了問題。如果說還想了解更多詳細內容,會后可以來找我。很多公司都在這么做,他們都想了解更多內容,因為這就是下一步的發展 的工作,可以通過不同的事情之間的關系。
你要做的足夠快的話,你需要用一個藍一模式,這樣計算的時候就比較容易,否則就太復雜了。編程的話,時間會很長。實際上他們也是有很多不同的地 方,比如說在 KE 層有很多區別。這是我們發現最相關的一些內容,我們發現有些圖它們可以達到 47% 的一個相似形,這樣我們有這么高的一個信息,這是兩個非常不一樣的事件。這就是事件的相關性,在過去很多人通過這個方法可以賺很多錢。現在已經比較平常 了,所以我可以告訴你們。過去有人在網上盜竊信用卡的信息,中國現在還不算糟糕,美國,還有加拿大有很大盜竊信用卡的問題,日本也開始出現這種情況。首先 他們在 Paypal 里面做一個注冊,然后把這個錢發到這個帳號里,然后把信用卡盜竊了。他們把這的錢轉入到另外一個帳戶,他們很有信心,他們會等。他們會把這些轉移到銀行帳 號里面,很多時候,Paypal 的系統并不知道發生什么,不知道信用卡偷掉了。我們會把這兩件事件相互進行聯系,放一個卡,方巾錢,然后把這個錢拿出來,這就是一個模式。然后我從卡里支 付,再取出錢,這都是一些模式。我們把這些情況和 CEP 引擎進行聯系,讓引擎知道有這個情況,就是欺詐。
我們怎么處理?有的時候我們從所有有的數據當中挖掘出一些價值,有的時候會建立自己的 Web,我會使用這些數據,在我們系統中的數據。我們很很多很大的社交媒體網站進行合作,從而可以更好的去獲取數據,來進行挖掘。現在有很多網站都很明 智,他們也建立了防火墻,有時候很難進入到他們網站上獲取數據。有一個很有意思的項目,你在下一個會議當中會看到,就是一個社交的聲譽的問題,大家知道是 什么意思嗎?你可能已經聽說過,比如說我們之前講到過圖形,在網站上,互聯網上,我們每個人都是在不同的網站上進行互動,比如說微博,還有人人網。你對這 些系統都在進行互動,或者說你的大學論壇,還有臉譜網,都在這些網上互動。我們把你當時一個個人,然后去觀察你所有互聯網上互動行為,根據這種互動行為, 我們會找到這些互動行為的質量,我們會看到你的網上朋友是什么,看看你朋友是好是壞,看看你朋友對你的評價是什么樣。如果你有一個很好的網絡,而且網絡里 面朋友都很好,那么你很有可能是一個好人,但也不是絕對的。
如果你的網絡是不好的話,你有很可能也是他們中的一分子,你也不是個好人。所以說這種社該的網絡性質是很重要的,根據社該網絡好壞的打分,我們 可以來審查你自己的好壞,這樣可以加速你交易的速度,我們可以幫助你把加以做的更快一些。在座有多少人打網游的?你們知道盈利的 Paypal 資源就是你在網上可以買武器,有很多公司和人在玩這些游戲,他們在建造這些武器,然后賣出去。所以 Paypal 在這個方面賺很多錢,如果你是一個很好的玩家的話,我們也知道你一直是準時支付,在我們這個交易里面,我讓你馬上可以購買到我們的武器,同意你可以延緩支 付。這是一個很好的例子。
總結一下,在你們去吃午飯之前,我還淺談極具。大數據是一個非常成熟的科學,我們 Paypal 也在對開放源和工具方面做一些貢獻,我們希望工具能變得更好。我相信谷歌、臉譜網的人員也在做這種工作。數據工程師是 IT 行業最熱門的工作,我覺得這是一門藝術,大家一定要對此重視。而且要注意到數據工程師在未來是一個很好的工作,你也可以考慮這個工作。信息在互聯網上越來 越多,如果考慮大數據的話,可以在互聯網上找到更多數據。數據工程師這個工作在中國市場上越來越多,很可能是我們未來的完美工作。
總結一下我們過去的做的一系列項目,也是和同濟大學合作的項目。如果大家注冊,看到我們網站的話,你也可以得到免費的蜻蜓,EBAY TECH,這是一些需要幫助的人士做的蜻蜓。我在美國、在美國、在中國,都有不同的工作經驗,在中國有 8 年工作經驗,工程這方面的經過是我在技術層面,以及在學習層面來說都是最好的工作經驗,而且真正可以滿足我的求知欲。在這里,我也想感謝大家,因為你們現 在都是我們的主流,是你們在改變我們互聯網的面貌。
現場提問:我想問一下風險監控體系是否需要認證類的產品,比如說證書類,或者報領類。還有你如何理解檢測和決策這兩個之間的關系?
Patrick Firouzian:這個是講到產品認證,證書的問題。
現場提問:現在風險監控,Paypal 有沒有用認證類的產品?
Patrick Firouzian:我們現在所使用的工具在我們前面演講當中已經看到了,我們所有的開放源的產品都沒有被認證過,除非我們有一些云里面,我們所有建立起 來的系統都是我們自己建造的。CEP 的產品,我們還沒有選擇特別的產品,CEP 的產品都是認證過的。有很多產品是公司內部的人知道,是自己打造的。監管和決策之間的關系,我們一直是在監管,我們也是一直在做決策,但是這個監管的結果 就是我們可以幫助我們達到一個很高的自信水平,可以給到我們一些警示。我們在上還有很大的一個團隊,他們都在撰寫原則,來決定到底哪個事件和哪個水平之間 相聯系。這是一個很大范圍的工作,要么你只是做監管而不做任何決策,或者說你會停止交易,你會給客戶服務量提升一些。
現場提問:第一個問題理解上有點偏差,我想問有沒有使用交校驗類的產品。我們在風險監控的時候,我們識別出來的風險,識別和我們最終決策,對這個用戶是接收還是拒絕?這兩個關系在我們實踐上有沒有分離?
Patrick Firouzian:第一個問題,如果你用這種短信方式去挑戰對方的話,我們確實是做了。對于現在交付方面,我們也會這么做。如果我們想知道是不是你在做 這個加以的話,我們有時候會用到你的手機,因為我知道你手機的號碼,我們會在線上問你號碼,把你手機接受的 PIN 碼輸入到網站。未來我們可以通過生物方法,當然還有短信,也是確認的好方法,所以我們用不同的方法,而且一切都是我們自己建立起來的方法。當然,我可能還 有些產品不知道,我相信有很多產品在用。一旦這些事件出現失誤的話,你有可能就是在欺詐,而且我們有很強的信息說你在欺詐的話,我們就不會讓你繼續交易。 這樣一來,我們讓你進入到另外一個界面,讓你填寫地址郵箱,這些都是我們流程里面做的。謝謝。