官术网_书友最值得收藏!

2.3.3 數(shù)據(jù)集切分

在時間窗口確定之后,數(shù)據(jù)集也隨之固定下來。數(shù)據(jù)集在建模前需要劃分為3個子集:開發(fā)樣本(Develop)、驗(yàn)證樣本(Valuation)、時間外樣本(Out Of Time,OOT)。其中開發(fā)樣本與驗(yàn)證樣本使用分層抽樣進(jìn)行劃分,以保證兩個數(shù)據(jù)集中的負(fù)樣本占比相同。通常開發(fā)樣本與驗(yàn)證樣本的比值為6:4。而時間外驗(yàn)證樣本通常使用整個建模樣本中時間切片最后的一段樣本。開發(fā)樣本對應(yīng)于機(jī)器學(xué)習(xí)訓(xùn)練過程中的訓(xùn)練樣本集(Train),而驗(yàn)證樣本與時間外樣本充當(dāng)測試樣本集(Test)的角色,用于檢驗(yàn)?zāi)P偷臄M合程度、泛化能力及穩(wěn)定性。有關(guān)機(jī)器學(xué)習(xí)的知識將在第3章介紹。

預(yù)測模型的本質(zhì)是使用歷史數(shù)據(jù)對未來的數(shù)據(jù)做預(yù)測,因此在實(shí)際應(yīng)用中,應(yīng)該更關(guān)注模型對未來樣本的預(yù)測能力,以及模型的跨時間穩(wěn)定性。在保證樣本充足的前提下,通常使用觀測點(diǎn)前的最后1個月的樣本作為時間外驗(yàn)證樣本。因?yàn)槟P蜋z測指標(biāo)需要大量數(shù)據(jù),以使得統(tǒng)計結(jié)果滿足基本統(tǒng)計學(xué)假設(shè),所以通常以每月度數(shù)據(jù)的整體進(jìn)行統(tǒng)計和呈現(xiàn)。建模人員期望的模型預(yù)估表現(xiàn)應(yīng)與模型上線后的第一次報表呈現(xiàn)有最大的相似度,因此使用與其時間距離最近的一整個月份的數(shù)據(jù)進(jìn)行評測。

當(dāng)然,時間外樣本的選擇也不是固定的。部分從業(yè)者認(rèn)為,當(dāng)貸款平臺的樣本隨時間變化較快時,應(yīng)選擇較早的時間切片作為時間外樣本。這是因?yàn)椋^新的樣本更符合模型上線后所應(yīng)用的客群分布,應(yīng)該將較新的樣本放入開發(fā)樣本中。

事實(shí)上,最終模型上線前,通常需要將開發(fā)樣本、驗(yàn)證樣本、時間外樣本三者合并重新訓(xùn)練,對模型的參數(shù)進(jìn)一步調(diào)整。具體原因可參考3.1.3節(jié)中有關(guān)于模型評價的介紹。

主站蜘蛛池模板: 枝江市| 秦皇岛市| 驻马店市| 汾西县| 班戈县| 南丹县| 晋中市| 亳州市| 璧山县| 高邑县| 昌邑市| 德庆县| 同德县| 西乌珠穆沁旗| 永寿县| 桦南县| 偃师市| 治县。| 大理市| 临夏县| 读书| 成武县| 天台县| 阿拉善左旗| 卢湾区| 财经| 丁青县| 济阳县| 天长市| 延吉市| 宜宾县| 兰考县| 桑日县| 区。| 庄河市| 景德镇市| 西贡区| 江西省| 青田县| 岳阳县| 勐海县|