- 智能風(fēng)控與反欺詐:體系、算法與實踐
- 蔡主希
- 793字
- 2021-04-02 09:32:58
3.3.1 無監(jiān)督學(xué)習(xí)
無監(jiān)督學(xué)習(xí)(Unsupervised Learning)是機器學(xué)習(xí)的一個分支,主要解決訓(xùn)練樣本在標(biāo)簽缺乏情況下的模式識別問題,這類算法主動學(xué)習(xí)的特性能夠很好地滿足互聯(lián)網(wǎng)金融機構(gòu)對于反欺詐場景的業(yè)務(wù)需求。聚類(Clustering)是無監(jiān)督學(xué)習(xí)中應(yīng)用最廣的一種算法,它的學(xué)習(xí)目標(biāo)是將樣本集劃分為若干個不相交的簇,每一個簇都具備特定的規(guī)律。在聚類的時候,我們希望簇內(nèi)相似度高,并且簇間相似度低,這樣才能使聚類后的結(jié)果區(qū)分度最優(yōu)。聚類有多種方式,可以基于距離、概率、密度等給出不同的計算結(jié)果。在反欺詐場景中,建模人員既可以觀察聚類結(jié)果,直接找出異常簇作為疑似欺詐客群,又可以利用簇內(nèi)相似性的原理,將與欺詐客群處于同一個簇的其他樣本打標(biāo),擴充標(biāo)簽數(shù)據(jù)后訓(xùn)練分類模型。
孤立森林(Isolation Forest)是另一種在反欺詐場景中被嘗試過的無監(jiān)督算法,于2008年被周志華教授團隊首先提出。與聚類算法通過距離、密度等量化指標(biāo)識別異常樣本不同,孤立森林基于二叉搜索樹原理,利用多棵樹的隨機劃分,找出最容易被孤立出來的樣本作為異常樣本。異常樣本到根節(jié)點的平均路徑長度,則可以看作是該樣本的異常程度,平均路徑長度越短,異常程度越高。由于原理不同,孤立森林可以與聚類相融合,從不同角度量化樣本的異常程度,從而提高召回樣本的準(zhǔn)確性。
在深度學(xué)習(xí)中也有一種無監(jiān)督學(xué)習(xí)算法,自編碼器(Autoencoder)。它通過神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)將原始樣本從高維空間壓縮到低維空間,從而最大化保留樣本的信息量。自編碼器分為兩部分:第一部分是編碼器(Encoder),它的作用是將樣本集通過多層網(wǎng)絡(luò)映射到一個低維空間;第二部分是解碼器(Decoder),在訓(xùn)練時通過反向傳播不斷優(yōu)化網(wǎng)絡(luò)參數(shù),使得模型的損失函數(shù)最小。編碼器留下信息量最大的維度,同時解碼器將低維空間還原到樣本集原始的高維空間,其中與原始分布差異較大的樣本,可以看作異常樣本。
自編碼器對于訓(xùn)練樣本的數(shù)量和維度有一定要求,在樣本量足夠大的情況下可以嘗試這種深度學(xué)習(xí)方法,找出疑似異常客戶。
- 下一波榮景的主題投資
- 歐債危機的終結(jié)
- 世界貿(mào)易戰(zhàn)簡史
- 企業(yè)合伙與股權(quán)設(shè)計實戰(zhàn)指南
- 區(qū)域金融穩(wěn)定及其預(yù)警問題研究
- 股票賣空機制的公司治理效應(yīng)研究:基于中國融資融券的自然實驗證據(jù)
- 證券投資實務(wù)(第二版)
- AI時代Python金融大數(shù)據(jù)分析實戰(zhàn):ChatGPT讓金融大數(shù)據(jù)分析插上翅膀
- 圖解理財:零基礎(chǔ)學(xué)理財
- 祖魯法則
- 中國銀行業(yè)專業(yè)人員職業(yè)資格考試真考題庫+押題試卷:個人理財
- 財富思維導(dǎo)圖
- 投資理財細(xì)節(jié)全書
- 金融心理學(xué):掌握市場波動的真諦
- 中國上市銀行年報分析(2013)