官术网_书友最值得收藏!

技術篇:可應用于金融的科技探索 Technology Part: Technology Exploration Applicable to Finance

第一章 大數據技術及其應用

沈志勇沈志勇,博士,百度云首席數據科學家,曾任百度研究院大數據實驗室副主任,高級數據科學家。進入百度前任惠普中國研究院研究員。兼任大數據分析技術國家工程實驗室學術委員會成員,大數據流通與交易技術國家工程實驗室專家委員。

摘要:本章首先介紹大數據技術的相關概念,簡要闡述了常見數據挖掘與機器學習的基礎技術與算法模型,包括基本的有監督學習算法、無監督學習算法以及大數據挑戰下的大規模數據分析、降維、增量、遷移等新的機器學習方法與模式。其次介紹了這些方法在金融領域的常規應用,即客戶管理、信用與風控以及量化投資中數據驅動方法的應用。


關鍵詞:大數據 數據分析 機器學習 客戶管理 另類數據

大數據在近年來受到了包括金融行業在內的各行各業的關注乃至熱炒,熱門概念往往會有“瞎子摸象”的效應——不同的人會有不同的理解。因此,在展開論述前有必要先對相關概念給出本章所依照的理解與定義,同時與一些易混淆的概念進行辨析。

數據。數據是信息化的產物,是計算機、傳感器等產生并被記錄的符號與信號。數據是信息的載體,包含量、準確性、完整性、時效性、描述粒度等維度特征,這些維度達到一定的指標,就形成了所謂的“大數據”。

結構化數據。主流數據的存儲方式是以表格(關系)的形式。表格有行有列,我們把每一行看作一個數據點,把每一列看作數據的一個維度或者特征,這樣的數據往往被稱為結構化數據。大部分大數據分析的算法,是以結構化數據作為輸入的。

大數據技術。大數據技術是指如何高效地采集、存儲大量數據,然后通過數據分析與挖掘技術從中提煉有效信息,服務乃至驅動生產生活。大數據技術綜合了信息科學中的統計學、數據庫、數據挖掘、信息檢索、機器學習、模式識別、自然語言處理等領域中與采集、處理、分析數據相關的方式和方法。

其中,數據庫和信息檢索技術是大數據技術中基礎架構層面的,包括海量數據的分布式存儲,數據需要高時效性處理時的流式數據處理架構,以及如何在海量數據下進行高效而準確的查詢等。

目前的數據分析技術,除了傳統的統計學外,更多地依賴近十年來蓬勃發展的機器學習以及數據挖掘等相關領域的技術。致力于讓機器在海量的數據中發現數據內在的規律,基于此獲得信息并做出預測等判斷。

模式識別更多地被用于圖像、語音的識別,自然語言處理則致力于自然文本數據的分析。將這些“非結構化”數據“結構化”,提高了多媒體和文本數據的可用性。大數據基礎架構層的相關技術一般由專業的IT技術人員完成,并且可以在云服務等市場上獲得標準化的服務,而多媒體數據以及自然文本的識別與分析技術則可歸于人工智能范疇。本報告側重對數據分析相關技術,也就是機器學習和數據挖掘技術進行梳理和介紹。當金融行業的業務邏輯經過信息化與數據化的抽象后,首先面對的將是這些數據分析技術的合理應用,因此,對于行業從業人員而言,需要重點介紹這一部分的大數據技術。

大數據分析技術整體上可以分成兩部分:一部分是基礎技術,包含從理論衍生出來的基礎的機器學習和數據挖掘算法與模型;另一部分是應用技術,針對具體的應用場景,對基礎算法與模型進行針對性開發和組合使用。

篇幅所限,本部分不對大數據算法與模型的具體理論進行推導與細數,更多地分析這些方法的基本邏輯、適用場景以及在大數據條件下的相應改進。

一 基礎技術部分

機器學習和數據挖掘算法與模型最基本的劃分方式,是根據是否有“監督信息”。如果把機器“學習”的過程和人的學習進行類比,有監督(Supervised)的算法,就是在一個有標準答案的習題集上進行學習,標準答案就是所謂的監督信息,學到的規律就是模型,我們希望學到的模型在開放應用中,得出盡量準確的目標結果;相對應的,無監督(Unsupervised)的算法是從數據中尋找本身存在的模式和規律。

(一)有監督的算法與模型

在實際具有明確目標的應用中,人們更偏好有監督的算法與模型,因為這類算法會對目標進行針對性優化,帶來低誤差、高效率的自動判斷。在金融大數據領域應用比較廣泛的典型有監督的算法,包括預測數值的回歸類的方法——線性回歸法、時間序列預測法等,預測離散值的分類算法——決策樹相關的算法、邏輯回歸法、最大熵法等。為了適應大數據應用的特點,這些算法還會有一些相應的用來提高預測穩定性以及針對大規模數據量等情況的改進。下面按照機器學習領域的劃分方式,對基礎模型做一個簡單的介紹,其詳細介紹在各類相關領域的書籍中都會提及,這里不再贅述。

線性模型(Linear Models)。線性模型用數據各個維度取值的線性組合(加權平均)來進行預測。最基本的線性模型包括線性回歸(Linear Regression)和邏輯回歸(Logistic Regression),前者可以用來預測數值,后者一般用來做分類。

決策樹(Decision Trees)。顧名思義,決策樹就是在數據的各個維度上建立判斷規則,以樹(一種數據結構)的形式將這些規則組織起來,形成預測的功能——每一條從樹的根節點到葉子節點的路徑,就是一條完整的預測規則。

支持向量機(Support Vector Machines)。支持向量機的核心思想是在數據的特征空間上找到幾何間隔最大的能把不同類型的數據點分離的超平面,用這個超平面去區分未知類別標簽的數據。

神經網絡(Neural Networks)。機器學習領域的神經網絡學習是指“由具有適應性的簡單單元組成的廣泛并互連的網絡,它的組織能夠模擬生物神經系統對真實世界物體所做出的交互反應”。

貝葉斯分類器(Bayes Classifier)。貝葉斯分類器是基于概率框架下的貝葉斯決策理論來實施決策的分類器。最典型的就是樸素貝葉斯分類器(Na?ve Bayes Classifier)。

(二)無監督的算法與模型

在實際應用中,無監督的算法與模型一般用來更好地歸納與刻畫數據,方便對數據做可視化等分析,也可用來生成新的數據特征,應用到監督學習中去。常見的無監督學習包括聚類分析、因子分析等。

聚類分析(Clustering)。聚類分析是將數據點自動根據某種標準分類到不同類的過程,所以同一個類中的對象有很大的相似性,而不同類間的對象有很大的相異性。最典型的聚類分析算法是K-均值(K-means)算法。

因子分析(Factor Analysis)。因子分析是針對數據維度(列)之間關系的分析,研究如何以最少的信息丟失,將眾多原始維度濃縮成少數幾個因子變量,以及如何使因子變量具有較強的可解釋性的一種方法。文本理解中常用的主題模型(Topic Models),可以看作在離散數據中的因子分析。

概率圖模型(Probabilistic Graphical Models)。概率圖模型是一類用圖來表達變量關系的概率模型,刻畫了數據各個維度之間的概率依賴關系,有向的概率圖模型可以用來表達因果關系。常見的概率圖模型有隱馬爾可夫模型(HMM)等。

復雜網絡分析(Complex Network Analysis)。復雜網絡分析主要研究網絡(由連邊和節點構成)的幾何結構、網絡的形成機制、網絡的演化規律、網絡的模型性質等問題。比較典型的復雜網絡是社交網絡(Social Networks)。

常用機器學習與數據挖掘方法示例見圖1-1。

(三)適用大數據場景的算法與模型

以上的算法與模型在應用到金融大數據場景中時會遇到一些挑戰,如數據的維度過大(列數過多)、數據點的數量過大(行數過多)、相對而言有標注的數據過少、模型不夠穩健等。因此,很多模型的改進方式不斷涌現,如針對行數過多的分布式模型訓練、抽樣等,針對列數過多的降維、特征選擇、稀疏學習等。其他提升模型性能的方式如集成學習(Ensemble Learning)等。這里挑選一些典型的方式進行簡要介紹。

分布式大規模機器學習算法。當數據量過大時,需要對數據進行分塊,在不同的計算節點上進行模型參數的估算。有些模型是天然可分的,如隨機森林等,可以在分塊數據上獨立訓練得到子模型,然后再集成得到整體模型,比較容易實現;大部分模型需要設計專門的算法與計算架構,前者從數學上保證算法的合理性,后者保證參數估算的可行性。

另外,充足的數據也為一些方法的奏效提供了條件。例如,深度學習作為一個多層神經網絡,有著復雜的模型結構與大量的參數,需要使用大量的數據訓練模型,大數據時代為此類算法提供了用武之地。還有一種方式是遷移學習(Transfer Learning),可以有效地利用多數據源對模型進行訓練。

圖1-1 常用機器學習與數據挖掘方法示例

降維(Dimension Reduction)、特征選取(Feature Selection)與稀疏學習(Sparse Learning)。大數據時代,經常會面臨數據過多的問題。針對那些數據維度過高、列數過多的場景,如個人信貸的大數據風控,很多時候面臨個人信息的維度過多,而真正對個人違約概率有影響的維度其實并不多。對數據維度進行壓縮,既有利于模型的效果,也能提高計算的可行性與效率。

降維是將數據映射到另一個空間的方法——在那里數據用盡量少的維度保留了足夠多的“有用信息”,最經典的降維方法是主成分分析(Principal Analysis)。

特征選取是通過制定一些標準,挑選那些對關心的目標起作用的維度(也叫相關特征)。最經典的標準包括信息增益、基尼系數等。

稀疏學習是直接在模型中引入正則的機制,讓模型自動確定相關變量,不相關變量的系數會被自動置為0。最典型的稀疏學習算法是線性回歸上增加了L1范數的改進模型——LASSO。

集成學習(Ensemble Learning)。集成學習通過構建并結合多個模型來完成一個預測任務,通常會比一個單一的模型取得顯著優越的效果。如果說降維方法、特征選取等體現了“如無必要,勿增實體”的“奧卡姆剃刀”的哲學思想,那么集成學習體現的則是另一種哲學思想——“多釋原則”,即主張保留與經驗觀察一致的所有假設。隨機森林(Random Forest)是應用比較廣泛的一種集成學習算法,以決策樹為基本的模型,對一個數據集建立多個在維度順序上有變化的簡單的決策樹,最后將結果融合,具有簡單、計算開銷小、易分布式實現、效果好的特點。

增量學習(Incremental Learning)。這種方式能不斷從新樣本中學習新的知識,并能保存大部分以前已經學習到的知識。增量學習主要表現在兩個方面:一方面,由于其無須保存歷史數據,因而減少了存儲空間的占用;另一方面,增量學習在當前的樣本訓練中充分利用了歷史的訓練結果,從而顯著地減少了后續訓練的時間。

深度學習(Deep Learning)。深度學習在形式上是多層的神經網絡。對數據進行表征學習,用非監督式或半監督式的特征學習和分層特征提取高效算法來替代手工獲取特征。目前主流的深度學習模型包括卷積神經網絡(CNN)、遞歸神經網絡(RNN)等。

遷移學習(Transfer Learning)。顧名思義,遷移學習就是把已訓練好的模型參數遷移到新的數據中來幫助新模型訓練。考慮到大部分數據或任務是存在相關性的,所以通過遷移學習我們可以將已經學到的模型參數進一步優化,同時如果新的數據不足,通過既有模型參數,也有效利用了其他數據的信息。

以上是對與大數據分析相關的數據挖掘與機器學習技術的簡單梳理和介紹,這些技術在后文金融領域的大數據應用技術中,或多或少地都會涉及。關于這些技術的具體內容,可以通過提到的名詞到相應的文獻中尋找。

二 應用技術部分

金融行業信息化程度高,從業人員的素質也高,尤其是數據思維完備,因此金融行業是大數據技術得到較好應用的領域。這里把大數據技術在金融行業的應用分為三部分:客戶管理、信用與風險管理、另類數據。

(一)客戶管理

與傳統客戶關系管理系統的功能不同,大數據條件下人們可以對客戶進行更加深入和全面的理解,從而更高效地獲得新客戶(營銷),提升客戶的活躍度,喚醒那些沉睡的老客戶。客戶管理涉及的相關技術包括用戶畫像、推薦系統等。

用戶畫像(User Profiling)。作為比較有代表性的大數據技術,將用戶碎片化的信息組織起來,通過一套標簽體系,刻畫用戶的固有屬性,如性別、年齡、職業、收入水平等,以及興趣與偏好屬性,如投資偏好、風險傾向等。

用戶畫像的構造,大部分標簽是離散值,主要采用前文的有監督的分類模型,如邏輯回歸法、樸素貝葉斯分類器、支持向量機、決策樹等;對于年齡以及收入水平等,可能會用到數值類的預測模型,如線性回歸法等。當數據中包含多媒體和自然語言文本數據時,深度學習也會被采用。除了前文提到的那些有監督的打標簽的方法外,還可以使用無監督的方法,如聚類方法,對客戶進行自動分組,根據人的理解,為每個組打上標簽。

用戶畫像的結果,可以作為一個基礎的數據資源,方便對用戶的管理與服務。在產品與服務的運營中,需要進行客群分析,用戶畫像是客群分析的一個直接依據。用戶畫像也可以直接作為數據管理平臺(Data Management Platform, DMP)的組成部分,對于拉新或者獲客的需求,可以在第三方的DMP中根據對自身客戶的理解,查找具備相應標簽(如“醫生”“商旅人士”)的候選對象,在法律允許的前提下進行營銷觸達(見圖1-2)。

圖1-2 利用用戶畫像進行用戶拉新示例

推薦系統(Recommendation System)。個性化推薦系統,可以為客戶或者潛在的客戶提供個性化的產品或進行服務推薦。推薦系統可以通過用戶畫像,以及用戶畫像中標簽與產品或服務之間的關聯來構造,也可以通過一些具體的技術來構建,如協同過濾(Collaborative Filtering)技術——本質上是一種猜測客戶對某個產品或服務喜好程度的有監督的預測算法。筆者也曾使用前文提到的概率圖模型構造的推薦系統并取得了很好的推薦效果。在了解社交網絡關系的前提下,也可以基于人際復雜網絡分析技術來做推薦,直觀的可以視為熟人間的營銷。當我們有跨領域的數據時,如對于擁有多渠道的金融企業來說,既擁有移動設備APP上的客戶行為數據,又擁有線下的理財與交易數據,可以采用遷移學習思想指導下的方法,來做跨領域的推薦系統。

推薦系統會為客戶提供個性化的服務,會讓用戶感受到尊享感,提升客戶體驗。對提升客戶活躍度、喚醒沉睡客戶具有重要的作用。

(二)信用與風險管理

隨著互聯網金融、普惠金融等領域的發展,基于大數據的征信與風控等,應該是近期最搶眼的大數據成功應用之一。征信為一個實體(個人或者企業)進行信用信息的采集、管理與評估,會對該實體進行信用評分或評級,通過報告的形式提供給需要參考的機構使用。風控是指對客戶逾期、違約或者欺詐等行為發生的可能性進行預測與評估。

大數據征信與風控在當前金融行業,尤其是在互聯網金融、普惠金融等場景需要快速為用戶提供貸款等金融服務時發揮了重要作用。對于傳統的征信與風控系統來說,是非常有益的補充。大數據時代,相關機構設法獲取行為主體的數據信息,使數據的覆蓋率大大提高。這些信息都被納入征信體系,并通過各種信用模型進行多角度分析,利用集成學習等思想,融合多種模型,可以使評價結果更加全面準確。

此外,大數據征信和風控的時效性更強,大數據時代的數據時刻更新,運用增量學習的思想,可以快速使用新增的數據,對實體進行高時效性的信用評估與預警。

在風控問題中,是否會逾期、違約或者欺詐,是典型的分類問題,因此邏輯回歸、隨機森林等方法以及它們的改進型是常用的大數據風控的算法。而一般在進行大數據風控時,會廣泛收集實體各個方面的數據,會有很高的維度,降維、特征選取與稀疏學習等方法也經常會被采用。在有用戶之間的社交網絡數據的前提下,復雜網絡分析的方法也會有助于提升風控的效果(見圖1-3)。

圖1-3 金融風控中復雜網絡分析應用示例

(三)另類數據

大數據,特別是另類數據(Alternative Data)的運用,極大地改變了投資領域的面貌。可能影響投資決策但又不屬于市場交易數據和公司財報這類傳統投資參考信息的數據都被稱為“另類數據”,如早年有些對沖基金使用的遙感數據,這些數據被用來分析某些企業的運行與經營情況,作為投資參考。

被用作另類數據的數據源有很多,除了前文提到的遙感數據外,互聯網上的新聞和用戶的各類行為數據也是重要來源。前幾年有些大型互聯網公司利用自己掌握的大量用戶行為大數據,與金融機構合作推出大數據指數型基金,產生了巨大的反響。

另類數據相對于傳統的金融交易數據與財報數據,具有以下特點:信噪比低、非結構化數據多、來源多、維度高。要想有效地應用另類數據,需要對另類數據進行準確的理解與分析,需要用到大量的機器學習與數據挖掘模型。以新聞數據為例,假設我們要準確地理解一個財經新聞,需要做兩個判斷:該新聞對哪只股票有影響?在情緒上是看多還是看空?前者需要采用知識圖譜方法,后者則基于情感分析(Sentimental Analysis)——一般是使用有監督的分類模型。下面簡單介紹一下知識圖譜。

知識圖譜(Knowledge Graph)。知識圖譜可以理解成一個由知識點(實體)相互連接(關系)而成的語義網絡,知識點上有屬性值,連邊上也有關系類型的值,在這個網絡上可以進行語義推理。知識圖譜可以幫助理解自然語言的文本,以iPhone6發布的新聞為例,我們可以根據iPhone6的屬性——屏幕采用的是大猩猩玻璃,再通過大猩猩玻璃的生產廠商關系,推斷相應的生產廠商如果是上市公司,股價可能會上漲——雖然那個新聞上沒有任何文字提到大猩猩玻璃的生產廠商。又如將企業知識圖譜應用于個人征信中的關系推理(見圖1-4)。

圖1-4 知識圖譜及其應用示例

知識圖譜的構造會使用大量的基礎算法,其中大部分是分類算法,用以從自然語言文本里做實體的抽取與識別以及做關系的抽取與分類。

此外,另類數據還可以被加工成量化方法中常用的因子和金融指數,其間會用到回歸分析、因子分析等方法。對于風險投資等一級市場,如何在海量的新聞數據,尤其是高新科技類新聞數據里,讓機器自動發現行業熱點,也會用到文本聚類、主題模型等文本挖掘的方法。互聯網的用戶行為數據作為另類數據,有很強的時空特性,在這些數據上抽取有價值的投資信息,可能要用到序列建模的方法,如隱馬爾可夫模型等。

本章簡略分析了大數據分析技術和方法在金融領域的應用。隨著金融行業的不斷創新,以及大數據技術的持續發展,相信在將來會有更多的成功應用場景不斷涌現。


參考文獻


周志華:《機器學習》,清華大學出版社,2016。

孫亮、黃倩:《實用機器學習》,人民郵電出版社,2017。

李航:《統計學習方法》,清華大學出版社,2012。

主站蜘蛛池模板: 车险| 仁怀市| 桃园市| 营口市| 囊谦县| 宜城市| 通化县| 田林县| 田东县| 崇信县| 五家渠市| 颍上县| 钟山县| 水城县| 大关县| 朝阳市| 金坛市| 政和县| 威海市| 建水县| SHOW| 丹东市| 鄂温| 奉新县| 鄱阳县| 含山县| 鄂温| 青神县| 潍坊市| 吉水县| 富顺县| 河北省| 柳林县| 临泽县| 阜南县| 施秉县| 临安市| 百色市| 蒙自县| 响水县| 体育|