一文看懂機器學習與大數據風控 | 硬創公開課
一個普遍的看法是,機器學習等人工智慧技術會最先在金融領域落地。金融行業是最早實現資訊化的行業,有豐富的資料積累,且對於用技術提升效率有更多的需求。
現在也有越來越多的公司開始使用機器學習技術實現自動風險管理與放貸。但機器學習在風控中的作用究竟如何,有哪些關鍵技術,其優勢與缺點又有哪些呢?
本期硬創公開課,雷鋒網邀請百融金服風險總監鄭宏洲,來講講機器學習與大資料風控的那些事。
嘉賓介紹:
鄭宏洲,百融金服風險總監。國內商業銀行模型團隊多年管理經驗,專注於大資料機器學習、信貸風險策略、模型評分管理等風控領域。從事大資料分析和信貸風險管理近十年,在金融行業的資料分析、平臺架構、模型研究和風險策略等方面有深刻的理解。帶領團隊搭建多家銀行風控體系,負責風控量化管理和風險策略優化多年。
公開課實錄:
雷鋒網:今年人工智慧很火,機器學習與深度學習等詞甚至被很多非業內人熟知,那金融行業對機器學習的態度是怎麼樣的?
鄭宏洲:講這個話題之前,我覺得我們需要把一些名詞稍微先界定一下。我們今天討論的金融行業,主要討論的是零售信貸行業。機器學習這個概念比較大,簡單說是利用電腦類比或實現人類的學習行為,解決實際過程在決策問題的方法論。深度學習屬於機器學習中的一種,包括信貸評分中採用的邏輯回歸等統計方法,也可以認為屬於機器學習中的一種。我們今天談的機器學習主要是狹義的概念,即基於非統計原理的資料採擷方法。
那麼信貸行業對機器學習的態度可以說既擁抱又謹慎。現代成熟的信貸企業,更多是依賴自動化的方式。例如:信貸風險管理,其核心是量化風險。在量化風險過程中,實際採用了相當多的統計分析技術。以信貸評分卡為例,方法論上和我們今天討論的機器學習有很多共通之處,它都是解決分類問題。只是金融信貸行業可能會從業務的角度去出發,關鍵是尋找解決問題的方法,對新方法和理論實際上有很多期待,因此金融信貸行業從來對機器學習是擁抱的態度。另外一方面,因為金融和貨幣掛鉤,這使得在很多關鍵技術上的使用上會比較謹慎,對安全性和規範性要求更高,因此從這個角度上看會表現為對新技術的謹慎態度。
雷鋒網:機器學習在金融中的應用有哪些?
鄭宏洲:機器學習在金融中的應用很廣,例如:投資領域會用來做量化投資、高頻交易;保險行業做行銷獲客和精算定損;信貸信用管理做信貸評分卡、風險策略等等;信貸反欺詐用它做人臉識別和語音辨識等等。機器學習幾乎在每一個有資料的場景都有應用。它主要是區別於純粹人工經驗去做決策。
雷鋒網:目前來說,機器學習在大資料風控中是怎麼樣的地位?作用多大?
鄭宏洲:我們知道,風控是信貸管理業務中的重要組成部分。風控按形式,可以分為傳統人工風控和量化風控。大資料風控是量化風控的一種新形式,出現主要的條件是,現代社會是一個資訊社會,資訊和資料極大的膨脹,這給我們一個更全面衡量一個人風險的機會。
大資料風控,這是依託于海量的資料去判斷借款人的信貸風險,這就決定了它比傳統方法更依賴於技術方法去處理,同時大資料的特點時常伴隨著高維稀疏性,這種特點決定了機器學習正是實現這一場景的核心方法。
區別于傳統風控技術,大資料風控是在方法論上做了相應的革新。風險,即不確定性。風險管理實際上就是做量化風險。大資料風控是將貸款主體各個方面的屬性維度做全面風險的量化。它的主流技術滲透到量化風險的整個流程中去,包括貸前、貸中、貸後以及行銷獲客等全生命週期的管理。機器學習作為大資料風控的顯著特徵出現,充當著重要的技術更新角色。通過它去解決傳統方法無法解決的問題,它是大資料價值變現的重要工具,機器學習的技術水準同時決定了一家大資料公司的核心競爭力。
雷鋒網:機器學習用於風控,有哪些較為成熟的技術方案嗎,主流的技術途徑又有哪些?
鄭宏洲: 機器學習按大類分監督學習和非監督學習。用於風控領域,實際上這兩種都用到了,其中監督學習通常作為主要手段解決問題,非監督學習主要做為輔助方法。對於監督學習中,分類器選擇不同又有很多不同的方法,目前成熟的技術方案包含決策樹、支援向量機、隨機森林、adboost、gbdt等技術方案。而主流的技術,像隨機森林、gbdt,目前仍然被廣泛的應用。它們適用於具體的資料情況,在特定的業務場景上會發揮奇效。
雷鋒網:您個人比較看好哪些機器學習技術(用於金融領域)嗎?
鄭宏洲:機器學習仍在發展中,個人比較看好深度學習。目前深度學習主要應用是解決非結構資料的分類問題。例如圖像識別、語音辨識等領域,包括我們熟悉的在人工智慧領域的AlphaGo。深度學習比其它機器學習能構造出更多的特徵層,更有效地發現模式和規律。
每項技術都伴隨業務產生最大價值。深度學習技術在業務上,對應到信貸領域,人臉識別、語音辨識被廣泛用在反欺詐驗真環節。在金融領域,反欺詐實際上有更多機器學習發揮的空間。反欺詐的特點在於行為的隱蔽性、稀釋性。群體小量但聚集,對傳統方法提出了很多挑戰,除了驗證環節,反欺詐模型上也更適合使用機器學習方法。它對模型的精准度和誤判率都有相當的要求,在穩定性上有挑戰。
雷鋒網:在考慮使用機器學習做風控時,有哪些評判指標及技術指標?
鄭宏洲:機器學習的方法有很多,在風控上的應用也有很多種場景。對於每一種機器學習技術,其評判的指標和技術標準都不一樣。我們下面來舉一個常見的應用場景,即風險評分,也就是預測一個事件在未來是否會發生。像這樣的場景實際上其評判的指標和傳統統計方法,如邏輯回歸,並沒有太大的差別。主要差異是分類器的差別(在分類問題上),區別的是變數,對於結果來講是類似的判斷標準。
這裡要講常見的一些誤區,比如凡是風險模型都看KS,AUC等指標。經常有人說,某模型KS達到50或60,而你的模型KS可能才40,並因此說你的模型不如別人。模型的區分度首先是和樣本很有關係,它很容易偽造效果。比如我將模型區分不准的樣本做剔除,那麼它可能突然可以從很低的KS提升到很高。又比如將大量的靜止客戶做剔除,KS也會有很大的變化。
舉這個例子是說,技術指標首先需要在相同的樣本下比較才有意義。另外一方面,KS並不是衡量一個模型好壞的關鍵要素,只是因為它最直觀,最能粗略知道模型的區分度,它的意義類似於IV值。很多時候模型的穩定性要比KS這些指標更為重要,同時還看你應用的範圍。
雷鋒網:機器學習應用於風控,優勢與弊端是什麼?
鄭宏洲:機器學習對於風控來說,優勢是帶來了新的技術革命。在自動化審批、區分精准度、技術方法效率等方面都比傳統的風控方法有更多的可能性,這是它的優勢。而弊端是,新技術在完備性上很多時候還不成熟,很多方法論仍處於探索階段,在解決方案上沒有形成完整的閉環。例如:風控模型的可解釋性。傳統模型入選若干變數,每個都有很好的解釋性,而機器學習會入選成百上千的變數,這些變數不是很直觀。這是任何新技術都會類似產生的問題,它需要時間去探索和修正,可以說道路是曲折的,前景是光明的。
雷鋒網:您對機器學習應用於風控模型時缺乏可解釋性怎麼看?這一問題又該如何解決?
鄭宏洲:機器學習應用於風控模型時,缺乏可解釋性是一個普遍的問題。
首先,為什麼會出現缺乏可解釋性?前面我們說了
機器學習風控模型區分度上往往有更好的表現,然而它的問題是複雜度遠要高於傳統方法,因為機器學習擬合進去更多非線性關係,人類去理解很多非線性規律交織在一起是有難度的,這就是我們說的缺乏可解釋性。
其次,這種缺乏可解釋性可不可取?這裡面實際可以再細分為兩個類型。
非線性關係其中一種可能只是噪音,而另外一種實際的非線性規律。
我們在做機器學習時,如果太迷信方法的本身,處理太粗糙可能會將更多的噪音擬合進來,這個問題也是很多科學家通過很多演算法不斷去調優機器學習演算法的初衷之一,並且隨著新技術的不斷更新會越來越優化。另外一種是實際的非線性規律,這就是某些機器學習方法在特定場景下會比傳統統計方法效果更優的主要原因。邏輯回歸本身是一個線性的模型,放棄了很多非線性的關係。傳統統計方法並不是不如機器學習,而是對建模的人水準要求更高,一個建模大師,他也許要費比機器學習更多的精力去做這件事情,但結果仍然可以和最好的機器學習分類方法媲美,並且具備機器學習不具備的優點。
那麼既然機器學習好像更容易更快的解決問題,傳統統計方法的意義又在哪裡?
傳統統計方法通過犧牲掉一小部分的區分度效果,換取資料的可解釋性
。實際上是將複雜問題簡單化,將複雜的現實世界分解為更為容易理解的模式,這和人理解複雜的現實世界方法是相符的。這種處理方式的好處是業務更容易調整和監控,並且容易避免資料噪音干擾。
部分技術專業人士會覺得把技術做得很好就行了,但如果能把模型做得特別好,一定是技術與業務兼顧。模型實際上是整個風險應用線條的節點,所有的規律和發現是服務於業務的,這導致不可解釋性會沒被採用,而會用更簡易的方法去把握風險。
機器學習的不可解釋性實際上無法根本的解決,一般會有兩種變通的方式:第一種,將機器學習作為傳統方法的輔助,幫忙人去發現資料上難以發現的非線性規律;第二種,分解到單一維度去理解非線性關係。
雷鋒網:機器學習做風控中,人工的地位與作用是怎麼樣的?
鄭宏洲:目前傳統的信貸企業,在規模還較小的結果,仍然存在很多通過人工審批和風控經驗去完成整個風控管理。然而當信貸規模龐大的情況下,特別是額度較小的信貸業務,純粹靠人工去做風控變得很艱難。一方面是成本效率上的問題,進件量大的時候要付出相當多人力成本和時間成本;另外一方面是人工匹配和主觀判斷容易導致出錯,並且在業務優化和積累難以傳承。
這些方面都會導致純人工的方式難以支撐現代的信貸管理模式。另外一個角度,人工的方式實際上也有它的優點,它能在業務開展過程中實現很多感性認識和經驗積累,是很多業務特徵和模式的發現來源。很多場景下,仍然需要人工去主導做決策。
雷鋒網:機器學習能在多大程度上替代人工的思考,在風控中是否會出現機器與人相衝突的情況?
鄭宏洲:機器學習在未來能夠在很多方面替代人工,但無法全面替代。機器學習是一種技術,實際上是對人工的一部分工作進行優化,這種優化會融合和促進很多人工搭配機器的方法。
風控中可能會存在機器和人相衝突的情況,這種情況需要分開去討論。在實際業務開展中,機器做的是發現歷史的規律,它有很多的適用範圍和噪音處理等問題,這時候就需要人去干預,不斷優化機器學習的方法和彌補其不足,所以說我們要求作風控的人才既要懂技術又要懂業務,是一種綜合的人才。
而另外一方面,人的行為本身有很多主觀的判斷,會隨著情緒等非理性的因素,使結果失真,這個時候,機器又能理性的協助人。所以這兩者實際是相輔相成的作用,而不是簡單的衝突。機器和人不一致的情況發生時,往往是發現業務價值的時刻。因此要求風控專家對資料和特徵有敏感度。
雷鋒網:從機器學習演算法到真正應用到產品中,其中需要跨越的挑戰會是什麼?
鄭宏洲:實際上目前很多機器學習已經應用到真正的產品中,而且被大家廣泛的使用。比如說人臉識別,比如說推薦演算法。而在信貸風控領域,非統計方法的機器學習真正深入人心和被人所接收,則還需要時間。主要的挑戰有以下幾點:
1、傳統統計風控仍然是主流的風控方法,業務應用模式根深蒂固。
2、新技術的不成熟性,新方法可能帶來的新問題需要完整的體系去解決。
推動技術更新和應用永遠是業務發展,傳統的很多方式可能無法滿足業務發展,會自然而然的被新方法所代替。像傳統方法建模時間長,對經驗依賴更多等問題,會被滿足更高效要求的機器學習所替代。
雷鋒網:百融金服在機器學習的應用上,有哪些實踐經驗可以分享?
鄭宏洲:
百融是一家金融大資料資訊服務公司,其服務的物件是金融企業。這就決定了在技術探索和業務分析上會有很多的嘗試。百融在很多前沿技術上都做過探索和創新,百融有自己的聯合建模實驗室和機器學習團隊。開發了百融100brain機器學習平臺,它是一個分散式的純R平臺,在這個平臺上做機器學習知識的傳承和分享。我們還舉辦了內部的信貸風險建模大賽,去驗證傳統統計方法和機器學習方法的效果優劣。百融在反欺詐領域,我們也採用機器學習的方法,去識別特徵異常的群體和規律。同時,我們信用風險領域構建完整的風險評分生態,全面去量化個體在各項信貸業務中的表現。應該說,探索一直在路上,保持不斷技術創新的初心。
精彩問答:
邏輯回歸可以實現評分分佈的好壞比校準,機器學習如何實現?
邏輯回歸評分的好壞比是一個準確性問題,回歸輸出的內容是預測概率,機器學習同樣是有預測概率,方法論上是類似的。可以做兩個都是在預測概率階段轉換成評分,因為校準是在評分刻度校準時實現的,兩者是同樣的方法論。
如果評分做得比較准,好壞的校準是不頻繁的,有較多的校準是存在過擬和的問題,這需要在機器學習在分析的初期,要做初期的判斷和修改,再用機器學習去做。
關於模型冷開機,一般在還沒有不良資料的時候,如何設置模型的初始參數?
這種情況下,一般依賴專家評分卡,較好的選擇是有一個類似模式經過驗證,如果是完全沒經過驗證,初始參數比較難以調整到符合業務。這種情況下,初始參數稍微沒那麼重要,關注的是風險維度更符合業務場景,讓初始冷開機模型具有排序性,這種的模型很難做到準確性,需要一個不斷反覆運算的過程。
對於風控團隊來說,模型人員和策略人員,哪個更重要呢?策略需要經常調整,而模型可以外包出去很久不更新,策略人員不需懂太多複雜高深的演算法等等,就可以完成審批、授信、反欺詐等日常業務,是不是風控團隊中只需策略人員就可以了呢?
實際上兩個角色都很重要,這種情況可能在於這種模式,即技術和業務是分開的兩個部門。一般架構上有兩種,一種是問題中那樣分開,另一種是模型和策略在一起。如果業務模式沒有太大變動,模型的排序性持續保持,那策略人員不需要太去瞭解演算法,可以完成審批和授信。
問題中風控的關注點是策略是否穩定,對模型的排序沒有變化,但準確性難保持在同樣水準,這樣需要關注策略上的調整。這種情況下,策略人員更重要。但現實中,很多業務發展中,很多模型因為模式的變化會而變化很多,這時調整策略不夠,需要兩者的整合。
這個問題分不同的階段,分公司模式與所處階段。處於群體風險表現穩定時,模型沒那麼重要,模型在風控中是一個節點,在一些場景下不一定處於非常重要的位置。