量化派基于Hadoop、Spark、Storm的大數據風控架構
量化派是一家金融大數據公司,為金融機構提供數據服務和技術支持,也通過旗下產品“信用錢包”幫助個人用戶展示經濟財務等狀況,撮合金融機構為用 戶提供最優質的貸款服務。金融的本質是風險和流動性,但是目前中國對于個人方面的征信行業發展落后于歐美國家,個人消費金融的需求沒有得到很好的滿足。按 照央行最新數據,目前央行征信中心的數據覆蓋人口達到8億人[1],但其中有實際征信記錄的只有3億人左右,有5億人在征信系統中只是一個身份證號碼。此 外,我國還有5億人跟銀行從來沒有信貸交易關系,這5億人對金融部門來說是陌生人。這樣算下來,有征信記錄的人只占到全國人口數的23.7%,遠低于美國 征信體系對人口的85%的覆蓋率。如何在信用記錄缺失的情況下,做好多個人用戶的風險定價,是個棘手的難題。量化派通過基于機器學習和互聯網化的風險定 價,整合互聯網及傳統數據源,對個人在消費金融應用場景里的信用風險進行評估。這篇文章就主要介紹一下量化派的大數據平臺,以及機器學習在量化派的應用。
一、互聯網化的風控創新
量化派及“信用錢包”的核心任務是讓用戶可以憑借其良好的信用,而無需抵押或者擔保就可以貸款。也就是說,用戶僅憑信用即可開啟財富之門。為了達 到這個目的,信用錢包需要把用戶個性化的需求與信貸產品信息精準匹配到一起。在幫助用戶找到合適自己的信貸產品的同時,也幫助信貸產品公司找到了最合適的 貸款用戶,從而實現信貸消費者和信貸產品提供者的雙贏。為了確保貸款的高成功率,為了更好的掌握用戶需求以及對個人進行信用評級,我們需要大數據平臺的支 持。
目前,可以接入央行征信中心的金融機構僅僅只有銀行、持牌照的第三方征信服務商以及部分地區的小貸公司,絕大多數的P2P平臺還無法接入央行的征 信數據,這無疑加大了P2P平臺的風控難度。在征信思路上,傳統征信是用昨天的信用記錄來判斷今天的信用價值,這未見得就是最合理的。在征信技術上,傳統 的方法是從線下采集信用數據,效率比較低。可以說,傳統的線下征信技術限制了數據來源和信用評估思路,而互聯網的技術、工具和思維則具備了改變這一切的可 能性。回歸到征信的本質,其實就在于解決兩方面問題:信用能力和信用意愿,換而言之,即解決個人的還款能力和還款意愿,再追根溯源一點,即解決壞賬和逾期 兩個問題[2]。量化派公司基于大數據的用戶征信和傳統征信殊途同歸,所不同的是,傳統征信中,數據依賴于銀行信貸數據,而大數據征信的數據并不僅僅包括 傳統的信貸數據,同時也包括了與消費者還款能力、還款意愿相關的一些描述性風險特征,這些相關性描述風險特征的抽取與篩選是量化派的技術核心。相比于傳統 征信數據的強相關性,這些大數據征信的數據與消費者的信用狀況相關性較弱,量化派就利用大數據技術,通過用戶授權等方法搜集了更多的數據維度來加強這些弱 相關數據的描述能力。這樣就使大數據征信不依賴于傳統信貸數據,就可以對傳統征信無法服務的人群進行征信,實現對整個消費者人群的覆蓋[3]。我們的數據 來源如下圖所示:
圖一 量化派的數據來源
二、量化派的大數據平臺架構
量化派的信用錢包每天都會獲取大量的用戶的注冊信息等結構化數據以及爬蟲抓取的非結構化數據,還有第三方的接入數據,系統運行產生的日志數據等 等,數據的形式多種多樣,如何保護好、利用好這些數據,是公司重中之重的任務。量化派的業務也決定了公司是數據驅動型的。為了更好的滿足公司日益增長變化 的業務,在大數據平臺建設中全面擁抱開源的基礎上,進行了不停迭代設計,對數據平臺中采用的開源軟件進行了深度應用開發,同時還開發了很多契合業務需求的 工具軟件,很好的支撐我們去實現普惠金融的理想。量化派公司的數據平臺架構如圖二所示。
圖二 量化派的數據平臺架構
相比我國的網民數量,信貸用戶只占其中的一小部分,所以我司產品的用戶基數并不是非常大,但是,為了給信貸用戶更準確的信用評級,對于每個信貸用 戶我們都會從多個渠道獲取大量的有效數據,這些數據聚合起來也是海量數據規模。公司發展伊始,幾乎將所有的數據都存放在Mysql關系數據庫中,工程師使 用標準SQL語句來存儲或者調用數據資源。Mysql很快就遇到了性能瓶頸,雖然可以通過不停地優化整個Mysql集群以應對數據的快速增長,但是面對復 雜的數據業務需求,Mysql顯然無法提供最優的解決方案。所以我司最終決定將數據遷移到大數據平臺上,Mysql僅用來存儲需要經常變化的狀態類數據。 除了系統運行日志直接存放在HDFS之中,大量的數據利用HBase來進行管理。HBase中的數據按照不同的數據源存放在不同的表中,每張表按照業務和 存儲需求對rowkey進行精心設計,確保海量數據中查詢所需數據毫秒級返回。
根據業務的不同特點,對于常規的數據ETL處理,我們使用MapReduce[4]框架來完成;BI和數據挖掘這些工作都放到了Spark[5] 上。這樣一來,依賴不同任務或不同計算框架間的數據共享情況在所難免,例如Spark的分屬不同Stage的兩個任務,或Spark與MapReduce 框架的數據交互。在這種情況下,一般就需要通過磁盤來完成數據交換,而這通常是效率很低的。為了解決這個問題,我們引入了Tachyon[6]中間層,數 據交換實際上在內存中進行了。而且,使用了Tachyon之后還解決了Spark任務進程崩潰后就要丟失進程中的所有數據的問題,因為此時數據都在 Tachyon里面了,從而進一步提升了Spark的性能。Tachyon自身也具有較強的容錯性,Tachyon集群的master通過 ZooKeeper[7]來管理,down機時會自動選舉出新的leader,并且worker會自動連接到新的leader上。
多維度的征信大數據可以使得量化派可以融合多源信息,采用了先進機器學習的預測模型和集成學習的策略,進行大數據挖掘。不完全依賴于傳統的征信體 系,即可對個人消費者從不同的角度進行描述和進一步深入地量化信用評估。公司開發了多個基于機器學習的分析模型,對每位信貸申請人的數千條數據信息進行分 析,并得出數萬個可對其行為做出測量的指標,這些都在數秒之內完成。
三、不同場景的機器學習方法
上部分說到量化派首先需要對用戶進行信用風險的評估,為了讓用戶可以僅憑信用,而無需抵押和擔保就可貸款成功。美國有著很完善的征信體系,以及成 熟的信用評估系統。通過幾十年的發展,美國的三大征信局[8]對85%的公民有著詳細的信用記錄:包括信用卡,房貸,以往的住址,工作等情況都有記錄在 案。而且在找工作,租房時候也會查詢個人信用記錄,如果有違約等不良行為也會反饋給征信局。Fair Issac公司的FICO評分是業界應用最為廣泛的 評分,是建立在詳細的個人征信記錄上的預測系統。FICO從最開始的用圖表畫出的評分,到后來演化為logistic regression類的回歸算 法,用來預測用戶在未來一段時間內違約的可能性。近年來,在predictive analytics 方面的發展,deep learning 在 supervised learning里面得到了廣泛應用。
中國由于在征信方面的數據缺失,需要通過更為自由的模式來創新和跨越式發展。宜信[9]作為國內最大的p2p機構,擁有多年的業務積累,以及一流 的風控團隊。傳統上是通過線下風控的手段,對用戶進行詳盡的背景調查。收集用戶的資料例如他們有的曾提交過信用報告、聯系人信息、教育水平、工資單、銀行 流水等一系列傳統征信數據。這樣的貸款審核流程耗時較長,貸款申請人往往需要少則幾天,多則數月的等待。時間成本過大,流程繁瑣,是用戶痛點所在,造成了 潛在貸款用戶的大量流失。提高審核效率,優化貸款流程,把申請人貸款體驗做到極致,最終做到極速放貸是大勢所趨。到目前,宜信也開始從傳統的線下業務,開 始往線上做業務拓展,宜信的瞬時貸通過大數據進行實時授信,用戶授權系統讀取信用卡賬單郵箱、電商、運營商相關記錄信息,得到有關你性格、消費偏好的個人 畫像。同時進行交叉驗證形成風控機制,進而計算出每一個用戶的風險評分,最終判斷是否應該放款,以及該用戶的授信額度、 還款周期等并最快達到10分鐘放 款。另外,螞蟻金服的芝麻信用[10],根據個人淘寶、支付寶等交易數據以及其他授權數據,對個人進行信用評分。芝麻信用綜合考慮了個人用戶的信用歷史, 行為偏好,履約能力,身份特質,人脈關系等五個緯度的信息得出的。于此同時,騰訊系的騰訊征信都會考慮到一些信貸之外的一些信息。除了微信支付、QQ錢包 綁定的銀行卡外,騰訊還能夠從更大范圍獲取數據,比如很多銀行都在微信上開通了公眾號,向用戶發送消費數據;微信的社交狀況也能夠對個人的資質進行有效的 評估。
量化派對用戶的信息整合也包括了用戶的社交信息,不光包含了用戶的畫像 (性別、職業、愛好等等),也包含了用戶之間的關系。如果說每個人是圖中 的一個節點,那么人與環境所形成的關系就是兩點間的線。當把“點和線”綜合起來分析時,我們對個人的性格特征、 信用狀況、財富屬性都會有更深層、更全面的理解。Google 的 PageRank 算法考慮到了web頁面的相關性來提高頁面的質量,例如權重高的頁 面指向鏈接的頁面對應的權重相對來說會比較高。類似來說,信貸風險低的用戶的常用聯系人的小圈子,個人資質的也應該是比較好的。
另一個方面,“信用錢包”需要把用戶個性化的需求與信貸產品信息精準匹配到一起。幫助用戶找到合適自己 的信貸產品,實現信貸消費者和信貸產品提供者的雙贏。我們對信貸產品向用戶做了基于協同過濾的和基于產品信息匹配的推薦。在對用戶做了較為準確的信用評價 之后,我們的分發平臺(如圖三所示)會根據貸款用戶的貸款需求來分派給相應的貸款產品,這樣就出現了一個客戶面對多款信貸產品的情況。我們會根據批貸額 度、貸款利率、承諾放款速度等因素在多個信貸產品中選出最適合用戶的產品。
圖三 分單平臺系統
四、美國的風控系統案例
打造一流的風控系統不是光靠數據分析師團隊能夠做到的,整個風控是需要在公司的DNA里面。美國的Capital One是最早利用大數據分析來 判斷個人借款還款概率的公司,本文的作者都曾經在Capital One 工作過,并在金融危機發生的時候也在那邊,目睹了他是如何發展壯大成第五大銀行 的。在危機開始的時候,非常果斷的把有潛在問題的GreenPoint Mortgage整體出售,并在危機發生的時候,謹慎挑戰風險政策來控制風險,并 在危機發生的時候以非常低廉的價格收購華盛頓地區的Chevy Chase 銀行, ING Direct, HSBC Card北美分部。并完善其 Local Banking, Global Lending的策略。
Capital One的風控系統是通過多年的積累和演變而形成的。Capital One 的 Analytics 部門里面分為幾個種 類,Data Analyst, Business Analyst, Statistician/Modeler. 不僅僅是分析師專注的做模型,做風 控來對模型進行大數據分析。所有的決策者,包括商務的總監,運營副總等,所有的決策都會有大量的數據分析,模型策略做支撐。
Capital One在各個業務部門都有很多的決策引擎和模型來支撐。在獲取用戶時,根據不同的業務線prime, subprime, 汽車 金融等,有專門的 customer model,risk model等。在用戶關系管理方面,有cross- sell model, customer contact model等。除此還有專門的反欺詐模型,包含identify- fraud model, payment fraud model等等。不同的業務線有著這么多種類的模型,對于這些模型的監管也都是有一套系統的流程 的。對于每個模型,模型開發人員會對模型開發寫出詳細的文檔,有著一套類似于code review, unit test的檢驗機制。公司層面,部門設 有專門的中高級別scoring officer (模型官), 負責定期對模型進行監管和監測。除了對于整體模型的效果的監管,整體評分的分布的穩定 性;還包括在變量層面的監管,監測模型的重要變量的穩定性。 Capital One 用到的大量征信局的數據和在自身平臺上沉淀的用戶數據,根據以往的 用戶的個人行為和違約記錄,建立的用戶風險決策模型對用戶進行評估,模型的效果會比FICO分數高40%以上。
面向個人消費的風控體系的搭建是一個長期的,系統的工程。在中國目前的市場情況,缺失的個人信用風險和高速發展的互聯網金融,以及未被滿足的普惠 金融需求是十分矛盾的。移動互聯網時代的到來,對個人風險評估帶來了嶄新的視角。大數據平臺和機器學習的結合能夠帶來多樣化的創新,量化派的使命就是通過 這兩者的結合來服務互聯網金融機構,降低全行業的風險。
- 王瑩,“央行征信數據單薄 難解P2P風控之渴”,第一財經日報,2014年09月24號
- 劉新海,丁偉,“大數據征信應用與啟示-以美國互聯網金融公司ZestFinance為例”,清華金融評論,2014年10
- 楊萬國,“量化派:讓吊絲一分鐘貸10萬”,新京報,2015年1月29日
- The Apache Software Foundation, http://hadoop.apache.org
- UC Berkeley AMP Lab, http://www.tachyon-project.org/index.html
- UC Berkeley research project, http://spark.apache.org/document-ation.html
- The Apache Software Foundation, http://zookeeper.apache.org
- 杜淼淼,“美國個人信用評分系統及其啟示”,南方金融,2008年8期
- 張小沛,“宜信大數據-大數據金融怎么做”,創業邦,2014年5月
- 祝劍禾,馬文婷,“螞蟻金服開評草根信用”,京華時報,2015年1月
關于作者 :王倪,量化派聯合創始人;于博,量化派大數據架構師 。