官术网_书友最值得收藏!

2.3.5 模型建立

確定了目標和變量后,就可以正式進入模型搭建的環節了。由于信貸場景下客戶只有正常和逾期兩種可能性,是一個典型的二分類問題,因此評分卡模型采用最經典的邏輯回歸(Logistic Regression,LR),邏輯回歸的計算公式如下:

其中y是因變量,x是自變量,w和b是需要求解的模型參數。我們可以畫出y關于z(x)的曲線,如圖2-5所示。

圖2-5 邏輯回歸曲線

在圖2-5中,隨著橫軸z(x)的增加,y也在連續地增加,并且y始終落在[0,1]的區間內,因而邏輯回歸確實可以很好地滿足信貸場景下對于客戶正常和逾期兩種狀態的預測。

將邏輯回歸的公式稍作變換,可以得到如下公式:

這里ln y/(1-y)是關于y的對數概率(Log Odds,也被稱為Logit),因此邏輯回歸本質上也就是y的Logit函數關于x的線性回歸。

關于如何求解模型參數w和b,這里利用極大似然估計(Maximum Likelihood Estimate,MLE),希望得到的模型預測每個樣本屬于其真實狀態的概率越大越好,似然函數如下:

對于公式(2-13),可以取對數后利用梯度下降法(Gradient Descent Method)或者牛頓法(Newton Method)求解,由于過程較為復雜且不是本書的重點,這里不再具體展開。

主站蜘蛛池模板: 岗巴县| 星座| 额济纳旗| 资阳市| 岳阳县| 威海市| 康保县| 同仁县| 恩施市| 长治市| 遂溪县| 呼伦贝尔市| 莱阳市| 沿河| 伊川县| 富蕴县| 金山区| 衡阳市| 伊吾县| 辛集市| 进贤县| 贵阳市| 萨迦县| 伽师县| 大宁县| 星子县| 来凤县| 宜阳县| 石狮市| 伊川县| 平舆县| 扶风县| 苗栗县| 苍溪县| 九龙坡区| 黎平县| 文登市| 神池县| 仪征市| 闵行区| 澜沧|