CDA數據分析師 - 在銀行擔任數據分析師是種什麼體驗？| CDA持證人專訪－鑽石舞台

CDA數據分析師出品

主持人：王海龍視頻製作：焦亞麗

採訪嘉賓：CDA持證人郭暢

編輯：Mika

採訪老師：

大家好，今天我們邀請到了郭暢來參加我們CDA持證人專訪！郭暢可以和大家打個招呼！

嘉賓：

大家好，我叫郭暢，安徽大學畢業，目前就職於徽商銀行總行大數據部，剛工作一年多，主要參與兩項跨部門項目建設，項目中主要負責模型開發，數據分析，模型運營優化等工作。

點擊下方視頻，先睹為快：

👇👇👇

問題 1：

我看您已經是CDA二級持證人了，您平時工作或者項目能和考證內容結合起來嗎？

嘉賓：

是的，可以的。

其實我是在讀研期間考的CDA，因為研究方向是機器學習、數據挖掘方面的，那段時間發現CDA二級建模分析師考試內容比較相符，加上有實操考試，就想邊學習邊考CDA可能更系統一點，也能檢測自己學習情況。而後來在找工作的途中也發現這方面知識還是比較熱門的，特別是在銀行數字化轉型的背景下。

現在是剛入職銀行一年多，由於所在的崗位比較對口，之前學習的內容還是比較有用的，比如說評分卡模型、邏輯回歸、隨機森林、GBDT、XGBOOST算法等等在當前的互聯網信貸上都常會用到。

而風控也一直是互聯網信貸的工作重心，剛剛提到的機器學習算法也都是在做逾期客戶以及「壞客戶」預測上會使用到的，然而在「算法」、「模型」之前還有最重要的，也是我們在工作中最費時的數據預處理以及特徵篩選的部分，工作中遇到的數據存在各種各樣的問題，如何處理缺失、異常；如何進行數據清洗、編碼？在特徵構建以及篩選的過程中如何構建有效特徵？如何進行特徵篩選？這些在我考證期間都有接觸到，並且和實際工作也都有所重合。

然而在工作的這一年中，也是僅僅通過書本無法學習的是在做模型設計、開發中的業務知識，畢竟模型是為業務賦能，會應用到具體的業務場景，所做的模型都需要結合不同的業務場景設計不同的指標，設計的指標也會根據業務場景、應用做篩選，具體問題具體分析。但是業務分析、數據獲取、數據預處理、建模、模型評估以及應用等流程重合度還是比較高的。

問題 2：

平時用什麼語言寫模型呢？可以簡單說說您的模型開發工作流程嗎？

嘉賓：

在數據提取方面用的最多的還是 SQL 語言，因為銀行數據大部分都在數據倉庫里；建模、模型運營分析方面一般用 Python。

我們進行模型開發時都是根據業務部門需求進行，所以需要先確定業務需求，明確了業務需求後，需要分析數據可用性、提好壞樣本、特徵構建、建模、評估等等。在實際工作中，我目前遇到的模型分為規則模型、機器學習模型以及兩種相結合的模型。

在工作之前我也覺得規則模型比較簡單，但是實際工作中就知道，針對特定場景、特定政策要求規則模型必不可少，針對規則模型，業務要求、監管及政策導向極其重要，如何量化指標、如何調優是及其重要的部分；而針對於機器學習模型，特徵篩選、模型構建調優中，模型本身、算法卻是重點之一。

問題 3：

模型優化是怎麼操作的，是長期的工作嗎或者是一定周期就要優化呢？

嘉賓：

模型優化其實應該是貫穿整個模型生命周期必不可少的環節，應該說是一個長期工作，但不能說是一定周期就一定要進行模型優化。

在我當前的工作中，模型優化有兩個原因：

1、業務需要；

2、模型需要。

對於前者，是指針對不同的業務場景和產品需要，結合業務或者產品的變動需要進行的模型優化。

對於後者是指在模型運營分析的過程中發現的問題進行優化，舉個例子，對於互聯網信貸模型，准入端、模型端、授信端都有各自的模型或規則，如果某些規則、特徵出現波動，針對波動出現的原因需要進行分析，如果確認是模型對當前的客群出現了偏差，則應該進行不同程度的調整。

所以，模型優化不是單獨進行的，需要和業務需要以及日常模型監控相結合。

問題 4：

可以舉一個模型優化的實際案例嗎？

嘉賓：

那我就從我參與的兩次模型優化入手簡單說一下。

剛才也說到模型優化不是獨立出來的過程，也是需要從好壞客戶定義、樣本提取、查看分布、優化調整、評估優化結果等方面進行的。

在實際的工作中，經常存在模型剛上線一段時間，壞樣本不充足的情況，此時做模型優化，需要把精力放在如何獲取壞客戶上，我們常遇到的解決辦法是找類似的場景去擴充壞樣本，對於上線時間較長的其他場景的逾期客戶在進行遷移率分析、進行客戶分布重合度的驗證後是否可以進行壞樣本擴充。

在好壞樣本定義和樣本提取之後，需要查看我們樣本在當前模型的表現，也就是在樣本上通過變量取值回測模型規則、評分以及額度策略等等，針對好壞樣本表現分布，結合前期調整要求，比如變量閾值、額度參數等等這種簡單層面的，最後將調整後的結果和之前進行對比、評估，在評估階段主要是從模型優化前後效果比對和風險分析方面，風險方面比如採用緊的變量調整方法，也就是控制壞客戶的進入，可能造成的客戶申請通過率低貸款放不出去，可能是業務無法接受的，如若採用松的變量調整方法，放進了大量客戶而導致壞客戶的進入以至於逾期率、不良率上升的風險，在實際的調整過程中需要和業務端共同協調來定，完成所有流程後撰寫優化報告以及測試報告就算完成了一次簡單的模型優化。

問題 5：

銀行怎樣把機器學習運用到智能風控上？

嘉賓：

其實，機器學習算法在銀行的應用越來越廣，分類、聚類、關聯等都可能用到，也會用到神經網絡、深度學習、圖算法等。

從應用方向上看，主要分為四類，分別是客戶管理、精準營銷、智能風控和運營管理。在四類應用方向中，客戶管理是基礎，通過機器學習可以實現精細化客戶管理，在此基礎之上，可以對精準營銷、智能風控等進行賦能。

我主要說一下智能風控方面的應用，一般銀行對智能風控的應用體現在互聯網信貸上，如何識別、預測「壞客戶」是重中之重。一般分為三大關卡：准入端、模型端、授信端，針對不同關卡設置不同的規則、模型、策略。其中用到的機器學習模型主要體現在評分卡模型以及各種分類預測算法，傳統的評分卡模型為了追求解釋性主要採用邏輯回歸，也就是一種複雜特徵工程與一種簡單模型結合的方法，然而現在為了增加預測精度更多結合一些先進算法來挖掘更多潛在風險，近幾年，對團伙以及關聯關係的挖掘也層出不窮，圖算法也是比較熱門的算法之一，我們項目中也在用，在與傳統的算法比較中也有比較突出的效果。

總之，機器學習算法在銀行數字化轉型的背景下越來越普遍的應用在各個業務場景中，神經網絡、深度學習的算法也不斷的被引用，作為職場新人的我也有很多要學習，希望和大家一起學習進步。

「

結語

感謝郭暢今天為大家帶來的分享，隨着互聯網時代信息技術的不斷發展，大數據逐漸被大眾熟悉和使用，並上升為國家戰略，在各行各業都得到廣泛應用。銀行因為其行業特性，在大數據應用之中有着得天獨厚的優勢。

以大數據為驅動，探索公司業務新增長模式，深入推進業務模式轉型，已成為商業銀行的共識。

讓我們下期再見！

點這裡👇關注我，記得標星哦~

鑽石舞台

鑽石鑽石亮晶晶

CDA數據分析師 - 在銀行擔任數據分析師是種什麼體驗？| CDA持證人專訪

歷史上的今天

留言列表

文章搜尋

最新文章

熱門文章

誰來我家

參觀人氣