- 智能風控與反欺詐:體系、算法與實踐
- 蔡主希
- 402字
- 2021-04-02 09:32:54
2.3.2 樣本選取
確定了逾期定義之后,我們需要選取建模樣本來擬合得到評分卡模型。對于建模樣本的選取,如果距今時間較長,選取的客戶樣本特性可能與當前的新增客戶差異較大,導致用學習到的模型預測當前客戶效果不佳;如果距今時間較短,近期申請客戶的貸后表現還不充分,也會使得模型在學習過程中誤把潛在的逾期客戶當作正常客戶,導致總結出錯誤的客戶特性。因而我們需要定義觀察期和表現期,觀察期為建模樣本橫跨的歷史區間,表現期則為模型預測的時間長度,如圖2-1所示。

圖2-1 觀察期和表現期
為了找到最合理的觀察期和表現期,通常會利用賬齡分析(Vintage Analysis)的方法,觀察所有核準后的客戶在每個賬齡上的逾期表現,從而確定表現期的長度,如圖2-2所示。

圖2-2 某互聯網金融平臺賬齡分析曲線
我們仍然以某互聯網金融平臺的逾期樣本為例,觀察不同賬齡下逾期人數的變化,可以看到放款9個月后逾期人數的增長趨于平緩,說明9個月是賬戶的成熟期,可以作為該平臺客戶表現期的長度。