模型監控

模型監控不但包括模型樣本外評估的所有指標,還包括以下指標用於模型的事前和事後監控,及時發現問題。模型評估的作用在於查看模型在預測能力上是否有退化。模型監控主要用於發現數據問題和異常行為,比如外部端口數據缺失、策略漏洞或被繞過、平台是否被黑產攻擊中。
歡迎掃碼預約2月16日直播,觀看完整案例分享↓↓↓
01
前端監控—業務指標
業務指標中的通過率是監控的重點。產品准入政策變更、渠道引流策略的變化、數據源統計口徑或數據不穩定都可能導致通過率發生波動。過高的通過率會增大業務風險,這可能由於數據中的負分項變量返回了大量的缺失值,這在黑名單產品中會出現。過低的通過率則提示客群在變化或數據均置有明顯位移,如圖5-8所示。

圖5-8通過率監控
除此之外,日誌數據也是重要的監控數據源,比如數據端口返回值情況等。
02
前端監控—評分分布穩定性
評分分布穩定性報告的目的在於生成一個能夠代表總體的分值分布隨時間變化的指數,這種情況出現的原因在於評分卡開發時使用的是歷史數據,而新進客戶的數據得出的評分描述的是客戶的當前行為,比較當前行為和歷史行為的差異可以得到差異。一般來說,差異的產生可能在於:
1)客戶群體發生變化,新客戶進入,老客戶流失,都將使得客群發生變化;
2)市場發生變化,例如經濟周期、宏觀環境的變化;
3)行業發生變化,例如新的法律法規的出現。
為保證評分卡能夠被正確使用,需要監測評分分布穩定性。表5-3是評分穩定性示例。
表5-3評分穩定性示例
表中可以直觀觀察到分值區間下建模客戶和新進客戶在各個分值段上的差異,例如可以看出建模時高分值客戶正在往低分值進行移動。這裡PSI(群體穩定性係數)的計算方法為:
PSI指數越大說明不同時點評分分布差異越大,反之則小。一般來說,PSI小於0.1時說明不同時點評分差異小;在0.1~025之間時,說明有一定差異,需要注意;大於0.25時,說明差異較大,需要進行調整。
除此之外可以將每個時點監控的PSI指標繪製為時序圖,了解趨勢變化情況,如圖5-9所示。

圖5-9 PSI示例
03
前端監控-特徵分布穩定性
評分分布穩定性描述總評分穩定性,當評分穩定性較差時,一定是某些或全部變量的分布穩定性出現了異常,所以需要進行特徵分布穩定性監控以了解是哪些變量的分布差異導致了總評分穩定性差異。表5-4是特徵分布穩定性的一個示例。
表5-4特徵分布穩定性例
居住屬性變量中,計算出建模客戶與新進客分布差異,再乘以水平分值得到分數差異,匯總後可得到總差異。當變量差異為正時,說明較建模客戶,新進客戶分布往高分分布移動;當變量差異為負時,說明較建模客戶,新進客戶分布往低分分布移動。
04
後端監控-評分正確性
在監控模型穩定性的同時,模型對好壞客戶的預測正確情況也應納入到模型監控中。首先可對評分卡分數與好壞客戶率的關係進行分析。具體實施時,在新的時間段進件的客戶統計出其評分分值和定義的好壞客戶,形成如表5-5所示報表。
表5-5評分正確性報表例
在報表基礎上,繪製出好壞客戶分布,如圖5-10所示(此圖無需在系統中繪製)。

圖5-10好壞客戶在評分區間的分布例
圖中橫軸為評分區間,縱軸為好/壞客戶占比。上例中分值低代表壞客戶可能性大,而好壞客戶分布有着明顯的差別。上圖中,好壞客戶在不同分值下分布重疊得較少,說明模型對好壞客戶有着很好的區分能力;若重疊得較多,說明模型對好壞客戶區分能力不佳,需要對模型進行調整。
更多精彩案例敬請關注2月16日直播,現在掃碼免費預約~
直播預告
掃碼圖中二維碼
預約直播
點這裡👇關注我,記得標星哦~
推薦閱讀
CDA課程諮詢
