- 智能風控與反欺詐:體系、算法與實踐
- 蔡主希
- 793字
- 2021-04-02 09:32:58
3.3.1 無監督學習
無監督學習(Unsupervised Learning)是機器學習的一個分支,主要解決訓練樣本在標簽缺乏情況下的模式識別問題,這類算法主動學習的特性能夠很好地滿足互聯網金融機構對于反欺詐場景的業務需求。聚類(Clustering)是無監督學習中應用最廣的一種算法,它的學習目標是將樣本集劃分為若干個不相交的簇,每一個簇都具備特定的規律。在聚類的時候,我們希望簇內相似度高,并且簇間相似度低,這樣才能使聚類后的結果區分度最優。聚類有多種方式,可以基于距離、概率、密度等給出不同的計算結果。在反欺詐場景中,建模人員既可以觀察聚類結果,直接找出異常簇作為疑似欺詐客群,又可以利用簇內相似性的原理,將與欺詐客群處于同一個簇的其他樣本打標,擴充標簽數據后訓練分類模型。
孤立森林(Isolation Forest)是另一種在反欺詐場景中被嘗試過的無監督算法,于2008年被周志華教授團隊首先提出。與聚類算法通過距離、密度等量化指標識別異常樣本不同,孤立森林基于二叉搜索樹原理,利用多棵樹的隨機劃分,找出最容易被孤立出來的樣本作為異常樣本。異常樣本到根節點的平均路徑長度,則可以看作是該樣本的異常程度,平均路徑長度越短,異常程度越高。由于原理不同,孤立森林可以與聚類相融合,從不同角度量化樣本的異常程度,從而提高召回樣本的準確性。
在深度學習中也有一種無監督學習算法,自編碼器(Autoencoder)。它通過神經網絡結構將原始樣本從高維空間壓縮到低維空間,從而最大化保留樣本的信息量。自編碼器分為兩部分:第一部分是編碼器(Encoder),它的作用是將樣本集通過多層網絡映射到一個低維空間;第二部分是解碼器(Decoder),在訓練時通過反向傳播不斷優化網絡參數,使得模型的損失函數最小。編碼器留下信息量最大的維度,同時解碼器將低維空間還原到樣本集原始的高維空間,其中與原始分布差異較大的樣本,可以看作異常樣本。
自編碼器對于訓練樣本的數量和維度有一定要求,在樣本量足夠大的情況下可以嘗試這種深度學習方法,找出疑似異常客戶。