官术网_书友最值得收藏!

2.3.6 模型評估

建立完模型后,下一步需要做的是評估模型效果,評估通過后才能正式上線并應用到風控策略中去。模型評估主要從準確性、區分度和穩定性這三個方面考慮。

(1)準確性

信貸場景是一個典型的樣本不均衡問題,業務性質決定了建模樣本中的逾期客戶數一定遠小于正常客戶數,因而采用ROC曲線下面積(Area Under ROC Curve,AUC)來衡量模型的整體準確性。與其他衡量準確性的指標相比,AUC具有較好的穩定性,不會受到正負樣本分布不均衡的影響。欲評估二分類模型的準確性,首先需要了解混淆矩陣(Confusion Matrix),它的作用是幫助我們了解模型預測的正負與實際正負之間的差異關系,混淆矩陣如表2-9所示。

表2-9 混淆矩陣

基于混淆矩陣,我們可以計算真陽率(True Positive Rate,TPR)和假陽率(False Positive Rate,FPR)。真陽率說明了模型預測對的正樣本占實際正樣本的比例,假陽率說明了模型沒有預測對的正樣本占實際負樣本的比例,計算公式分別如下:

我們將模型預測的結果從小到大排序,并計算不同閾值下對應的真陽率和假陽率。假設以預測結果的最大值作為閾值,則所有樣本預測為負,真陽率和假陽率均為0;假設以預測結果的最小值作為閾值,則所有樣本預測為正,真陽率和假陽率均為1。以此類推,可以得到若干個點及其對應的真陽率和假陽率。將假陽率作為橫軸,真陽率作為縱軸,可以繪制出感受性(Receiver Operating Characteristic,ROC)曲線,ROC曲線下的面積即為AUC。圖2-6為捷信客戶評分卡模型的ROC曲線,其中虛線代表隨機模型對應的AUC為0.5,計算該評分卡模型測試集上AUC為0.73,具有一定的準確性。

圖2-6 捷信客戶評分卡模型ROC曲線和AUC

(2)區分度

區分度(Kolmogrov-Smirnov,KS)主要衡量了模型對于正樣本和負樣本的最大間隔距離。某種意義上來說,在評分卡模型的評估指標中,區分度的重要性甚至更勝于準確性,因為區分度能夠更好地看出正常客戶和逾期客戶分布上的差異,是對于模型排序能力的綜合評估。繪制KS曲線,首先將樣本按照模型的預測結果從小到大排序,計算不同分數下好壞樣本的累積占比(Cumulative Distribution Function,CDF)曲線,CDF曲線間隔的最大值即為KS。圖2-7為捷信客戶評分卡模型的好壞樣本CDF曲線,該模型測試集上KS=0.34,具有較好的區分度。

圖2-7 捷信客戶評分卡模型CDF曲線和KS

在實際風控場景建模過程中,KS的上限與逾期定義具有很強的聯系,逾期定義越嚴格意味著本身好壞人差異較大,利用模型也更加容易把壞人區分出來。通常M1+的評分卡模型KS在0.3左右,M3+的評分卡模型KS能夠達到0.4。

(3)穩定性

與變量篩選時類似,對于最終模型的結果也要進行穩定性分析,評估指標與變量一樣也是PSI,小于0.1可以證明模型結果較為穩定。這里也能看出之前變量篩選階段穩定性分析的必要性,去除穩定性較差的變量可以大大提升最終模型的穩定性。

主站蜘蛛池模板: 隆尧县| 丽水市| 察哈| 灵璧县| 田林县| 湘潭市| 辽源市| 天津市| 蒙山县| 德惠市| 固阳县| 甘肃省| 广饶县| 甘肃省| 宁德市| 改则县| 朝阳县| 东兴市| 澄城县| 建昌县| 南安市| 眉山市| 石河子市| 灌阳县| 邯郸市| 荆州市| 康定县| 韩城市| 伽师县| 基隆市| 张家港市| 南丹县| 大英县| 巫溪县| 化州市| 内江市| 临朐县| 开原市| 景宁| 丹凤县| 安化县|