官术网_书友最值得收藏!

2.3.5 模型建立

確定了目標和變量后,就可以正式進入模型搭建的環(huán)節(jié)了。由于信貸場景下客戶只有正常和逾期兩種可能性,是一個典型的二分類問題,因此評分卡模型采用最經(jīng)典的邏輯回歸(Logistic Regression,LR),邏輯回歸的計算公式如下:

其中y是因變量,x是自變量,w和b是需要求解的模型參數(shù)。我們可以畫出y關于z(x)的曲線,如圖2-5所示。

圖2-5 邏輯回歸曲線

在圖2-5中,隨著橫軸z(x)的增加,y也在連續(xù)地增加,并且y始終落在[0,1]的區(qū)間內(nèi),因而邏輯回歸確實可以很好地滿足信貸場景下對于客戶正常和逾期兩種狀態(tài)的預測。

將邏輯回歸的公式稍作變換,可以得到如下公式:

這里ln y/(1-y)是關于y的對數(shù)概率(Log Odds,也被稱為Logit),因此邏輯回歸本質(zhì)上也就是y的Logit函數(shù)關于x的線性回歸。

關于如何求解模型參數(shù)w和b,這里利用極大似然估計(Maximum Likelihood Estimate,MLE),希望得到的模型預測每個樣本屬于其真實狀態(tài)的概率越大越好,似然函數(shù)如下:

對于公式(2-13),可以取對數(shù)后利用梯度下降法(Gradient Descent Method)或者牛頓法(Newton Method)求解,由于過程較為復雜且不是本書的重點,這里不再具體展開。

主站蜘蛛池模板: 晋城| 抚宁县| 公主岭市| 远安县| 亳州市| 龙川县| 三都| 昌邑市| 新津县| 叶城县| 蕉岭县| 江城| 苏尼特右旗| 吉木乃县| 封丘县| 大方县| 祁连县| 方城县| 德阳市| 疏附县| 台中市| 香河县| 松江区| 吉林省| 长海县| 丰镇市| 鸡东县| 宝坻区| 达尔| 和静县| 修文县| 越西县| 财经| 永靖县| 米泉市| 梓潼县| 津南区| 三门峡市| 龙井市| 出国| 巴南区|