- 智能風控與反欺詐:體系、算法與實踐
- 蔡主希
- 435字
- 2021-04-02 09:32:55
2.3.5 模型建立
確定了目標和變量后,就可以正式進入模型搭建的環(huán)節(jié)了。由于信貸場景下客戶只有正常和逾期兩種可能性,是一個典型的二分類問題,因此評分卡模型采用最經(jīng)典的邏輯回歸(Logistic Regression,LR),邏輯回歸的計算公式如下:

其中y是因變量,x是自變量,w和b是需要求解的模型參數(shù)。我們可以畫出y關于z(x)的曲線,如圖2-5所示。

圖2-5 邏輯回歸曲線
在圖2-5中,隨著橫軸z(x)的增加,y也在連續(xù)地增加,并且y始終落在[0,1]的區(qū)間內(nèi),因而邏輯回歸確實可以很好地滿足信貸場景下對于客戶正常和逾期兩種狀態(tài)的預測。
將邏輯回歸的公式稍作變換,可以得到如下公式:

這里ln y/(1-y)是關于y的對數(shù)概率(Log Odds,也被稱為Logit),因此邏輯回歸本質(zhì)上也就是y的Logit函數(shù)關于x的線性回歸。
關于如何求解模型參數(shù)w和b,這里利用極大似然估計(Maximum Likelihood Estimate,MLE),希望得到的模型預測每個樣本屬于其真實狀態(tài)的概率越大越好,似然函數(shù)如下:

對于公式(2-13),可以取對數(shù)后利用梯度下降法(Gradient Descent Method)或者牛頓法(Newton Method)求解,由于過程較為復雜且不是本書的重點,這里不再具體展開。