- 智能風(fēng)控:Python金融風(fēng)險管理與評分卡建模
- 梅子行 毛鑫宇
- 645字
- 2020-06-02 18:29:19
2.3.3 數(shù)據(jù)集切分
在時間窗口確定之后,數(shù)據(jù)集也隨之固定下來。數(shù)據(jù)集在建模前需要劃分為3個子集:開發(fā)樣本(Develop)、驗(yàn)證樣本(Valuation)、時間外樣本(Out Of Time,OOT)。其中開發(fā)樣本與驗(yàn)證樣本使用分層抽樣進(jìn)行劃分,以保證兩個數(shù)據(jù)集中的負(fù)樣本占比相同。通常開發(fā)樣本與驗(yàn)證樣本的比值為6:4。而時間外驗(yàn)證樣本通常使用整個建模樣本中時間切片最后的一段樣本。開發(fā)樣本對應(yīng)于機(jī)器學(xué)習(xí)訓(xùn)練過程中的訓(xùn)練樣本集(Train),而驗(yàn)證樣本與時間外樣本充當(dāng)測試樣本集(Test)的角色,用于檢驗(yàn)?zāi)P偷臄M合程度、泛化能力及穩(wěn)定性。有關(guān)機(jī)器學(xué)習(xí)的知識將在第3章介紹。
預(yù)測模型的本質(zhì)是使用歷史數(shù)據(jù)對未來的數(shù)據(jù)做預(yù)測,因此在實(shí)際應(yīng)用中,應(yīng)該更關(guān)注模型對未來樣本的預(yù)測能力,以及模型的跨時間穩(wěn)定性。在保證樣本充足的前提下,通常使用觀測點(diǎn)前的最后1個月的樣本作為時間外驗(yàn)證樣本。因?yàn)槟P蜋z測指標(biāo)需要大量數(shù)據(jù),以使得統(tǒng)計結(jié)果滿足基本統(tǒng)計學(xué)假設(shè),所以通常以每月度數(shù)據(jù)的整體進(jìn)行統(tǒng)計和呈現(xiàn)。建模人員期望的模型預(yù)估表現(xiàn)應(yīng)與模型上線后的第一次報表呈現(xiàn)有最大的相似度,因此使用與其時間距離最近的一整個月份的數(shù)據(jù)進(jìn)行評測。
當(dāng)然,時間外樣本的選擇也不是固定的。部分從業(yè)者認(rèn)為,當(dāng)貸款平臺的樣本隨時間變化較快時,應(yīng)選擇較早的時間切片作為時間外樣本。這是因?yàn)椋^新的樣本更符合模型上線后所應(yīng)用的客群分布,應(yīng)該將較新的樣本放入開發(fā)樣本中。
事實(shí)上,最終模型上線前,通常需要將開發(fā)樣本、驗(yàn)證樣本、時間外樣本三者合并重新訓(xùn)練,對模型的參數(shù)進(jìn)一步調(diào)整。具體原因可參考3.1.3節(jié)中有關(guān)于模型評價的介紹。
- 一本書讀懂互聯(lián)網(wǎng)支付(全彩圖解版)
- 偉大的轉(zhuǎn)型:金融個性化重塑全球銀行業(yè)
- 中國財富管理發(fā)展指數(shù)
- 中國科技金融生態(tài)年度觀察(2018)
- 金融的價值:改革、創(chuàng)新、監(jiān)管與我們的未來
- 螞蟻金服:科技金融獨(dú)角獸的崛起
- 基于深度學(xué)習(xí)的個人信用風(fēng)險預(yù)測與管理研究
- IPO公司風(fēng)險信息披露與資本市場資源配置效率研究
- 理財產(chǎn)品實(shí)戰(zhàn)
- 交易情緒密碼:大數(shù)據(jù)揭示投資群體心理
- 投資最重要的事
- 又是李書福
- 債券投資高級技術(shù)指南
- 無霸主的世界經(jīng)濟(jì):世界經(jīng)濟(jì)體系的崩潰和重建
- 預(yù)期投資:未來投資機(jī)會分析與估值方法