官术网_书友最值得收藏!

3.3.1 無監(jiān)督學(xué)習(xí)

無監(jiān)督學(xué)習(xí)(Unsupervised Learning)是機器學(xué)習(xí)的一個分支,主要解決訓(xùn)練樣本在標(biāo)簽缺乏情況下的模式識別問題,這類算法主動學(xué)習(xí)的特性能夠很好地滿足互聯(lián)網(wǎng)金融機構(gòu)對于反欺詐場景的業(yè)務(wù)需求。聚類(Clustering)是無監(jiān)督學(xué)習(xí)中應(yīng)用最廣的一種算法,它的學(xué)習(xí)目標(biāo)是將樣本集劃分為若干個不相交的簇,每一個簇都具備特定的規(guī)律。在聚類的時候,我們希望簇內(nèi)相似度高,并且簇間相似度低,這樣才能使聚類后的結(jié)果區(qū)分度最優(yōu)。聚類有多種方式,可以基于距離、概率、密度等給出不同的計算結(jié)果。在反欺詐場景中,建模人員既可以觀察聚類結(jié)果,直接找出異常簇作為疑似欺詐客群,又可以利用簇內(nèi)相似性的原理,將與欺詐客群處于同一個簇的其他樣本打標(biāo),擴充標(biāo)簽數(shù)據(jù)后訓(xùn)練分類模型。

孤立森林(Isolation Forest)是另一種在反欺詐場景中被嘗試過的無監(jiān)督算法,于2008年被周志華教授團隊首先提出。與聚類算法通過距離、密度等量化指標(biāo)識別異常樣本不同,孤立森林基于二叉搜索樹原理,利用多棵樹的隨機劃分,找出最容易被孤立出來的樣本作為異常樣本。異常樣本到根節(jié)點的平均路徑長度,則可以看作是該樣本的異常程度,平均路徑長度越短,異常程度越高。由于原理不同,孤立森林可以與聚類相融合,從不同角度量化樣本的異常程度,從而提高召回樣本的準(zhǔn)確性。

在深度學(xué)習(xí)中也有一種無監(jiān)督學(xué)習(xí)算法,自編碼器(Autoencoder)。它通過神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)將原始樣本從高維空間壓縮到低維空間,從而最大化保留樣本的信息量。自編碼器分為兩部分:第一部分是編碼器(Encoder),它的作用是將樣本集通過多層網(wǎng)絡(luò)映射到一個低維空間;第二部分是解碼器(Decoder),在訓(xùn)練時通過反向傳播不斷優(yōu)化網(wǎng)絡(luò)參數(shù),使得模型的損失函數(shù)最小。編碼器留下信息量最大的維度,同時解碼器將低維空間還原到樣本集原始的高維空間,其中與原始分布差異較大的樣本,可以看作異常樣本。

自編碼器對于訓(xùn)練樣本的數(shù)量和維度有一定要求,在樣本量足夠大的情況下可以嘗試這種深度學(xué)習(xí)方法,找出疑似異常客戶。

主站蜘蛛池模板: 云林县| 钦州市| 天柱县| 江安县| 库伦旗| 宁国市| 常山县| 定西市| 射洪县| 莱芜市| 邓州市| 射阳县| 于田县| 三穗县| 琼结县| 毕节市| 蓬安县| 伽师县| 筠连县| 阳西县| 噶尔县| 当雄县| 措美县| 安陆市| 锦州市| 观塘区| 望城县| 观塘区| 金昌市| 沂源县| 南平市| 明光市| 乌鲁木齐市| 江油市| 德化县| 平凉市| 上高县| 盖州市| 沙田区| 宣城市| 武穴市|