氪信資深資料科學家主講：如何構建基於AI的金融風控系統 | 硬創公開課

分類＼手機
時間＼2017-04-20

高風險、高收益是金融行業永恆的標籤。也因如此，金融行業非常重視風控。據多位資深金融人士表示，從事風控後，他們總是處於戰戰兢兢的憂慮中。他們上一次大規模的憂慮發生在十幾年前。世紀之交的美國缺乏對於風控意義的認知，明明借著互聯網的東風卻在半途摔了個七零八落。

新科技的出現必然會對原行業產生一定影響。技術無所謂利弊，問題在於人的使用。在風控得到足夠重視，AI成為最熱門科技的現在，諸多從業人士不由得開始思考AI的應用價值，如何將AI與風控相結合並發揮出其積極作用？

本期雷鋒網公開課邀請到氪信資深資料科學家朱敏來分享他的從業經驗，深度講解如何構建基於AI的金融風控系統。

嘉賓簡介：

朱敏，氪信資深資料科學家，深耕應用統計和資料採擷領域。復旦大學生物統計學碩士，曾任職PayPal高級分析師，負責核心風險控制資料變數、排序策略、評價指標的設計研發，並在反欺詐策略、行為特徵等方面擁有豐富的研究經驗。曾任職eBay資料分析師，負責AB測試與搜索演算法的評估。多年以來專注金融統計和風險評估演算法研究，在互聯網級別的機器學習演算法和統計理論商業應用領域有著豐富的理論研究和實踐經驗。

以下是本次公開課實錄，雷鋒網做了不改變原意的編輯：

今天給大家分享的主題是AI在金融風控領域的工業應用，我主要負責資料和模型，所以今天的公開課除了分享宏觀想法，在具體實踐方面也會比較偏模型和資料。其實這個主題是非常大的topic，所以會聚焦到金融尤其是消費金融領域，闡述我們氪信是怎樣利用互聯網、機器學習和人工智慧技術和經驗去解決實際問題的。

金融AI時代已到來？

首先我想跟大家分享三個數字——40萬億消費信貸、35%征信覆蓋以及44ZB資料。

有資料顯示，2019年中國的消費信貸市場會達到40萬億，而在2015年這個數字還只是20萬億，這幾年都保持著很高的增長速度。我們可以看到市場規模很大，並且在不斷變大。

而征信覆蓋率並沒有保持與市場規模的同步。第二個數字是35%，這是指消費金融領域只有35%的客戶是有征信記錄的，剩下65%沒有信用記錄，所以並不能用傳統、成熟的風險評估方法去評估這些人的風險。

第三個要分享的數字是44ZB。對於65%沒有傳統征信資料的這類人，我們可以收集其他相關資料去評估，這相關資料可能是申請資料、互聯網使用記錄、通信記錄等。而由於現在硬體的發展、資料收集的自動化，我們是可以收集到很多資料的，這個資料量也很龐大。大資料一方面是好事，另一方面也是一個難題，例如怎麼運用一些技術手段從大量的資料中提取資訊。而我們覺得消費金融是切入AI商業場景一個很好的契機。

大資料時代金融風控之痛

大資料時代金融風控市場規模大，需求旺盛，但要解決的問題很多。

從技術層面上來講，有三個問題。

第一是價值困境，雖然已經意識到了大資料的價值，但不知如何實踐，怎樣從資料中挖掘出有用的資訊。

第二是高維困境，對於65%未被傳統征信覆蓋的人群來說，他們的特徵維度非常高，往往會產生上千維變數，那麼該如何處理高位特徵，如何將其有效融合，形成1+1＞2效果？

第三，敏捷困境。在人工智慧和風險評估不斷發展的同時，我們的敵人的欺詐演變速度也非常快。一旦發現了業務上的一個漏洞，它就會去鑽模型的缺陷，利用缺陷來達到利益最大化。而單一的個體欺詐也正在演變成有組織、有規模的群體欺詐。

從戰略層面來說，以上問題帶來的後果是風控決策低效耗時，員工成本會很高，壞賬率則更高。在金融場景裡，一定需要人工智慧、機器學習去幫助解決問題。

構建基於AI的金融風控系統

上圖展示了一個理想的基於AI的金融風控系統。從左往右講，我們一開始會去收集各個層面的資料來源，這些資料來源裡包括交易資料、高價值黑名單，這些都是比較常見的傳統信用資料。此外，我們也會搜集互聯網行為、運營商數據、信貸申請資料等。

不同的資料來源融合到一起的時候也會借鑒知識圖譜技術，在知識圖譜之上再去構建高價值金融屬性的特徵。

資料融合後有上千維度特徵，接著我們會做一個基於深度學習的特徵加工工程。再下一步是構建模型，這裡列出了一些非常主流的機器學習、深度學習模型，像XGBoost或者是深度神經網路，這些模型再加上已經加工出的高價值金融特徵，我們覺得這樣就可以解決實際金融風控當中會遇到的問題。

而在解決問題過程中，經驗會被抽象化，所以我們也會把這些經驗轉變成一個產品。上圖列出了幾個風控引擎，包括把剛剛提到的金融特徵做成特徵引擎、模型引擎、規則引擎，這些產品會説明我們更好地積累資料，也更好地把已經積累的經驗應用到更多場景中去。

接下來的內容也會按照這個模型來講，首先是資料管理，關鍵字就是金融的知識圖譜。第二部分是基於深度學習的特徵工程。最後是集成模型，就是我們怎樣把這些資料特徵構建成一個分類模型來説明我們判斷。

知識圖譜：重新定義金融資料架構體系

首先看知識圖譜。知識圖譜是穀歌在2012年5月發展出來的可以將搜索結果進行知識系統化，任何一個關鍵字都能獲得完整的知識體系。本質是一個語義網路，是一個基於圖的資料結構。在知識圖譜當中，實體會被表示成一個節點，節點和節點之間會用關係來連接，所以這個構造方式和傳統關聯式資料網路是完全不同的。

在金融場景裡，相比于傳統的關係型數據庫，它存在一些優點。

首先，金融知識圖譜可擴展性更強。我們收集到的資料來源無論是從結構上還是內容上來說，其實都有很大差別。如何管理這些不同結構和內容的資料來源從來就是關聯式資料庫一個大問題。

但是如果把所有的資料和知識都表示成知識圖譜可以接受的結構，我們就可以把異質異構的資料統一融合在一起。無論是新的資料來源變化，還是原有資料來源的資料結構發生變動，都可以靈活地調整。這個靈活也是基於知識圖譜的特點，無論是對於節點還是對於關係而言，增加或者更改它的屬性都是非常靈活的。

從上圖中，我們可以看到在金融風控中用到的資料還是很多的，包括歷史積累資料、即時資料、協力廠商資料。分類方法當然有很多，但無論是怎麼去看資料格式、結構都會完全不一樣。

如果構建到統一的金融圖譜當中去，對於下游的特徵加工和模型其實會有很大説明。對於資料庫某一個資料結構的依賴就不是那麼強，我們只要優化金融知識圖譜的知識結構，工作中的相關問題都可以得到解決。

基於知識圖譜的社交網路分析

金融知識圖譜的第二個優點從上圖中就可以看出來，知識圖譜比較直接。用戶面對的關係型數據庫主要是表。而知識圖譜可以將這些關係構建成圖，更加視覺化。

反欺詐是很重要的一點，在反欺詐中我們經常會做交叉驗證。一個使用者有來自不同資料來源的特徵，如果它們描述的是同一件事情，那我可以去對它們做一個驗證。如果這個進程中出現了矛盾，我們會覺得這個人的風險等級偏高。我們設想了一個場景，在這個場景下單獨個體的資料來源比較單一，在這種情況下，交叉驗證是根本沒有辦法發現矛盾的。而知識圖譜可以幫助我們。

上圖兩個例子印證了知識圖譜的視覺化和表現力。先看左邊，我們要去判斷這幅圖中藍點這個人的風險等級，我們能夠拿到此人相關的資訊有手機號、郵箱等。從這個個體的單一資訊上面來看，其實很難判斷他的風險等級的高低，但是如果我們把他置於一個網路，比較個體和個體的話，我們會發現一個有意思的地方——他的郵箱和好幾個其他個體的郵箱是相同的，並且這幾個人在我們的判斷中已經是壞人，那麼對於這個申請使用者風險等級也就有了一個判斷。

右邊還有一個判斷用戶風險的例子。如果只看他的手機號或者郵箱，目前比較成熟的方法是去看郵箱是不是亂碼註冊的或者其他。而把他置於網路中後，我們會發現他的手機號和很多用戶的手機號都有聯繫，並且都是單向的聯繫。那這個其實是很明顯的特徵——騷擾電話，類似仲介或者是廣告騷擾。基於這一點，也可以形成對於這個人的風險等級判斷。

這兩個例子都很好展示了知識圖譜能夠包含更多的信息量。這個信息量是視覺化的，如果有專家人工去看這些案例的話，會從中找到一些特徵來判斷這個人的風險等級高低。而在一些先進演算法的作用下，可以自動地從社交網路中發現一些特徵，自動判斷哪些是好人哪些是壞人。

深度學習：超越人工定義的深度以窮盡風險

接下來討論一下特徵。資料量大，維度很高是消費金融風控必然會遇到的實際問題。此外，還會遇到很多非結構化資料，例如文本、圖像等。這些都不是傳統征信會遇到的問題，而這在深度學習領域會有一些很成熟的應用。

深度學習的本質是特徵學習的過程。對於人工難以加工的海量非結構化資料，基於深度學習的特徵生成框架自動生成特徵，能夠彌補人工定義特徵的局限性。

DNN文本類資料特徵提取框架

首先說文本類資料特徵提取框架。金融風控過程中其實會遇到很多這樣的非結構化資料，比方說申請資料的文本資訊，或者是經過授信和合規要求的通訊文本。對於這些文本的分析，NLP領域其實已經有一些很成熟的技術，比如說CNN。而在金融場景中也能提取一些特徵。如果這些特徵能進入接下來的分類網路中去，它也可以去學習到好人或者壞人的特徵。

實踐的第一步是文本資料預處理，提取分詞或者是關鍵字，並將每一個詞做向量化的表示，然後這些向量化表示會進入一個卷積神經網路，並從這個卷積神經網路中去提取特徵。下一步，這些特徵會進入一個全連接的神經網路去學習分類，做成分類器。

此外，嵌入學習在其中也展現了很大作用。雖然我們用小規模文本庫去學習詞向量來做特徵也不是不可以，但是我們發現如果使用業界比較成熟的大規模語料庫，能提升特徵提取的性能。

DNN時序類資料特徵提取框架

另一個例子是時序類資料特徵提取框架，一句話來說就是，合併學習不同週期和時序模式的迴圈神經子網路，有效捕捉時序資料的特徵隱含資訊及不同時序模式下的協同影響。

在實際中我們會遇到一些問題，比如並沒有那麼大的工作量去瞭解每一塊的資料具體是什麼樣子的，分佈是什麼樣的，特徵可以怎麼提取。所以時序類的特徵其實可以借鑒深度學習裡的長短時記憶技術來做相同的事情，去做時間序列的分析。它主要考慮就在NLP裡，用在文本比較多，就是說上下文之間是有關係的，根據這樣的關係來構建一個提取特徵的網路，我們把這樣的思路借鑒到了通訊記錄或者是交易記錄當中。

在實際應用中，時序類特徵可能是通話記錄或者交易記錄，所以它的特徵不只是在一個階段面上去提取，還在時間軸上去提取。金融場景中，我們把通話記錄分成了不同的週期，按照不同的週期構建了三個LSTM子網路，並且會對這三個時序模式LSTM子網路做一個混合，這樣能大大減少時序資料分析和提取特徵的工作量。

融合機器和專家經驗，實現全量價值提取

這裡還要提到一點，雖然剛才一直提深度學習特徵，但是專家的特徵也很重要。我們會融合機器和專家經驗，實現全量價值提取。因為我們相信專家多年積累下來的成熟的風險評估方法也很有效。基於深度學習的特徵智慧生成框架，使用不同網路結構擬合不同的資料類型，自動從龐雜、非結構化的資料中生成高品質的深度學習特徵，並且與專家人工特徵結合共同融入模型。融合特徵才會交給下一步模型去學習。

集成模型：最大化AI與現有業務的結合深度

前面已經說了資料和特徵，現在說集成模型。

集成學習模型的優勢表現在兩點：

不同維度/領域的資料具有不同的特點，需要使用不同的建模方法，集成學習框架可以支援不同類型模型演算法作為子模型。集成模型成果已經很多，所以用集成模型會説明提高模型的性能是毋庸置疑的。

此外，在實際做金融風控的時候，從一個用戶的角度來講，我們能看到很多金融產品，例如分期產品或者消費金融產品，不同產品額度上也會不同，客群不同，獲客管道也不同（線上獲客、地推獲客）。面對不同的業務方式時，我們最終要抓住的壞人也是完全不同的，所以這要求我們構建不同的模型。那麼這是不是要求我們面對不同業務場景都要從零開始去做資料、特徵、建模呢？

並非如此。單獨領域的子模型可以快速遷移應用到新業務領域，實現快速成型和持續優化。

這在實踐中最好的應用就是冷開機，對於一個新上的業務，所遇的壞人與以往的業務是完全不一樣的，壞人所採取的欺詐手段也是完全不同，但是因為用了集成模型，有些特徵、資料、模型經驗都是可以借鑒的，這會有很大的幫助。

集成學習模型在大型現金貸場景的實際應用

上圖對之前的內容做了一個匯總。資料有結構化、非結構化之分，並根據不同資料的特點進入不同的特徵提取框架。和關係比較近的資料，用網路關聯特徵的方法去提取；有些資料是文本、圖像，用卷積神經網路的方法去提取；時序類的資料，用LSTM方法去提取特徵；還有專家人工特徵提取框架。

綜合特徵提取框架，綜合評估產生三種風險評分：行為風險、社交風險、語義風險。

社交風險其實主要是從網路關聯特徵體系框架這一塊延伸上來的。

行為風險主要從互聯網的行為、運營商這一塊延伸上來。

語義風險主要從申請資料、通訊文本兩方面來評估。

最後根據這三塊風險做一個集成模型，然後給出違約概率。

集成模型能提高性能，氪信之前將集成模型應用到大型消費金融場景中。他們之前的風控用到的特徵也不多，判斷模型的分類性能的 KS值指標也比較一般。在和我們合作後，運用了剛才提到的技術和框架，模型的性能提升還是非常明顯的，KS值從0.19提升到0.35。從業務來看，他們的壞賬率直接下降了46%。

基於網路的反欺詐應對線上群體欺詐

接下來再說說基於網路的反欺詐。舉個虛假申請的例子。

某個人通過篡改個人資料，提出貸款的申請，這個可以通過交叉驗證來判斷此人的風險等級。

但是在另一個場景，比如有人申請資料時，用的完全是張三的資料，因為張三的風險評級很安全。這種情況下對於金融這風控機構而言，評估是比較困難的。如果沒有人工介入，這個人的風險評估都是基於張三的資訊來做的。對於這種虛假的申請，若只根據個體的資料去判斷，難度是相當大的。但是把他放到社交網路中情況會不同。不同的人共用了相同的屬性或者相同的資料，那麼我們就會有風險的疑慮。

還有群體欺詐。這主要是說在時間或者空間上的高頻率焦點，或是高頻率申請。一個簡單的例子，我們發現申請資料的數量大得超出歷史，然後這些申請資料，比方說手機定位的位置都來自於同一個地區，如果能排除線下獲客的可能，這會是很奇怪的一件事情，存在很高的群體欺詐風險。

前面也已經提及了兩個社交網路中交叉驗證的例子。這裡展示的是網路反欺詐流程。

首先收集資料，然後構建網路，基於這樣的特徵進行社交網路分析，構建反欺詐的規則。當然也會把這樣的視覺化展示給專家，專家會從視覺化的社交網路中發現一些規則，然後利用這些規則去做早期反欺詐預警，包括把這些規則當作一個特徵放到反欺詐模型當中。

一方面，社交網路分析可以去做規則、模型，另一方面是它的視覺化可以幫助我們融入專家的力量。所以這將構成一個閉環。我們從網路當中學習到了特徵、運用的規則，專家會從規則當中獲得啟發，並提出新的規則，規則回饋給網路，告訴網路什麼關係是值得懷疑的，這會是一個良性的迴圈。

我的分享就到這裡，謝謝大家。

雷鋒網公開課視頻實錄