- 征信大數據:理論與實踐(中國金融四十人論壇書系)
- 姚前 謝華美 劉松靈 劉新海
- 4244字
- 2021-04-25 16:45:16
三、大數據算法新趨勢
(一)深度學習(Deep Learning)
深度學習是機器學習中一種利用空間相對關系對數據進行表征學習的新型機器學習模式,通過構建深層人造神經網絡,組合多層硬件和軟件在層級間移動大量數據,每層都要根據學習內容提供自己的數據表示方法,再將學習結果傳遞到下一層。當前,人工智能=深度學習+大數據,是一個最具時代精神、也最被普遍接受的認識。人工神經網絡受1943年首創的人類神經網絡計算模型的影響而開發,并在1957年面世的感知器(Perceptron)系統中得到第一次軟件體現——一種基于雙層網絡的模式識別算法。但因計算能力有限而被棄,近年由于互聯網和大數據技術的出現而再度引起關注。互聯網經濟時代,金融服務會更多體現在場景模式的應用中。機器深度學習通過在大數據中尋找“模式”,在這些模式的基礎上運用一定算法再次統計分析,在毋須過多人工介入和人為干涉的情況下,利用分析所得預測事件結果。通過分析持續產生的越來越多的數據,構建并不斷完善預測消費者行為的各種數學模型,在此基礎上進一步生成“深度”計算模型,如此不斷深化及復雜化學習結果,從而使預測結果越來越趨近現實情況的演變。
深度學習將從一個輸入中產生一個輸出所涉及的計算可以通過一個流向圖(Flow Graph)來表示:流向圖是一種能夠表示計算的圖,在這種圖中每一個節點表示一個基本的計算以及一個計算的值,計算的結果被應用到這個節點的子節點的值。考慮這樣一個計算集合,它可以被允許在每一個節點和可能的圖結構中,并定義了一個函數族。輸入節點沒有父節點,輸出節點沒有子節點。

圖5 包含多個隱層的深度學習模型
這種流向圖的一個特別屬性是深度(depth):從一個輸入到一個輸出的最長路徑的長度。
最近幾年以深度學習為代表的人工智能在應用層面取得突破性的進展一個重要原因就是大數據時代的到來,越來越多的數據產生了,這些數據中蘊含著很多經驗和模式。為了教給人工智能新的技巧,需要將大量的數據輸入模型,用以實現可靠的輸出。目前,人工智能的突破主要依賴于基于神經網絡的機器學習。機器學習主要在大數據尋找一些“模式”,然后在沒有過多的人為解釋下,用這些模式來預測結果。在這種方法之下,隨著數據量的積累,系統會越來越好。相比過去人工智能的方法很難受益于數據量的提升,新的方法之下,20%的貢獻來自方法的改進,80%來自數據量的提升,從而實現依靠數據量推動的,系統從量變到質變的飛躍。
大量數據(特別是標識數據)的支持是人工智能最核心的需求。無論是模式識別還是神經網絡,不管是機器學習訓練還是算法優化,都需要大量數據的“喂養”。例如,AlphaGo的成功之處就在于其載有十幾萬份人類6~9段職業棋手的對弈棋譜的數據庫,AlphaGo利用其模仿人類常見的落子方式。通過大數據學習,人工智能算法發揮越來越重要的作用,尤其是近期深度學習的進展對感知智能(包括圖像和語音識別)的精度提升貢獻巨大。
大數據蘊含了豐富的信息維度,可以比喻為提供了必須的血液和能量,人工智能就好像“大腦”,對這些信息進行分析識別和知識發現,具體的行業應用則好像“軀干”,基于信息執行決策。國內外知名的互聯網公司對人工智能都顯示出高度的關注,認為人工智能和互聯網大數據的結合會產生很多創新點,是驅動未來技術和商業模式的引擎。這些互聯網公司都投入大量的人力和物力進行一些前沿性的研究和探索。在過去的5年中,有超過30家人工智能(AI)企業被包括谷歌、IBM、雅虎、英特爾以及近期活躍起來的蘋果和Salesforce等商業巨頭收購。
國內外金融領域已經開始探索深度學習的應用。其中在個人生物識別方面,例如人臉識別和語音識別等應用近年取得較大進展。國外的大數據公司和征信機構也在研發深度學習工具和接口來提升目前的消費者信用評分的性能。
雖然如今深度學習科技已經進一步點燃了人工智能(AI)之火,但這項技術卻常因需要大量的數據而備受詬病。人們也一直在爭論,究竟深度學習需要多少數據才足夠呢?根據谷歌的資深研究人員表示,那些至少擁有數以萬計或是十萬計的客戶群體的公司才需要考慮是否使用深度學習技術的問題,如果只有十個樣本,那與深度學習無關。可見深度學習是典型的大數據算法。
(二)復雜網絡分析(Complex Network Analysis)
復雜網絡是指由數量巨大的節點和節點之間錯綜復雜的關系共同構成的網絡結構。復雜網絡是復雜系統的抽象,現實中許多復雜系統都可以用復雜網絡的相關特性進行描述和分析。
復雜網絡簡而言之即呈現高度復雜性的網絡。其復雜性主要表現在以下幾個方面:(1)結構復雜:表現在節點數目巨大,網絡結構呈現多種不同特征。(2)網絡進化:表現在節點或連接的產生與消失。例如World - wide Network,網頁或鏈接隨時可能出現或斷開,導致網絡結構不斷發生變化。(3)連接多樣性:節點之間的連接權重存在差異,且有可能存在方向性。(4)動力學復雜性:節點集可能屬于非線性動力學系統,例如節點狀態隨時間發生復雜變化。(5)節點多樣性:復雜網絡中的節點可以代表任何事物,例如,人際關系構成的復雜網絡節點代表單獨個體,萬維網組成的復雜網絡節點可以表示不同網頁。(6)多重復雜性融合:即以上多重復雜性相互影響,導致更為難以預料的結果。例如,設計一個電力供應網絡需要考慮此網絡的進化過程,其進化過程決定網絡的拓撲結構。當兩個節點之間頻繁進行能量傳輸時,他們之間的連接權重會隨之增加,通過不斷的學習與記憶逐步改善網絡性能。
復雜網絡一般具有以下特性:
第一,小世界。復雜網絡以簡單的措辭描述了大多數網絡盡管規模很大但是任意兩個節(頂)點間卻有一條相當短的路徑的事實。以日常語言看,它反映的是相互關系的數目可以很小但卻能夠連接世界的事實,例如,在社會網絡中,人與人相互認識的關系很少,但是卻可以找到很遠的無關系的其他人。正如麥克盧漢所說,地球變得越來越小,變成一個地球村,也就是說,變成一個小世界。
第二,集群即集聚程度(Clustering Coefficient)的概念。例如,社會網絡中總是存在熟人圈或朋友圈,其中每個成員都認識其他成員。集聚程度的意義是網絡集團化的程度;這是一種網絡的內聚傾向。連通集團概念反映的是一個大網絡中各集聚的小網絡分布和相互聯系的狀況。例如,它可以反映這個朋友圈與另一個朋友圈的相互關系。
第三,冪律(Power Law)的度分布概念。度指的是網絡中某個頂(節)點(相當于一個個體)與其他頂點關系(用網絡中的邊表達)的數量;度的相關性指頂點之間關系的聯系緊密性;介數是一個重要的全局幾何量。頂點u的介數含義為網絡中所有的最短路徑之中,經過u的數量。它反映了頂點u(即網絡中有關聯的個體)的影響力。無標度網絡(Scale - free Network)的特征主要集中反映了集聚的集中性。
在大數據時代,可以研究的實體數據對象(例如金融機構或者是公司)的數量越來越多,這些數據實體之間的關聯性也增強,而且會動態變化,這些特點利用傳統的數據分析方法中的特征向量空間無法準確描述。復雜網絡成為大數據時代對于復雜系統問題建模的利器,而且網絡可視化效果更能幫助決策者快速理解實際問題。
近年來,用復雜網絡的概念來理解和解釋金融市場中的各種現象的研究也受到了廣泛關注。國外金融機構和中央銀行、金融監管機構已經將復雜網絡技術運用于研究系統性風險、防欺詐、金融穩定性和危機蔓延等問題上。這種新研究用來滿足迫切的市場需求:理解金融市場的結構和動態變化;解釋和預測不同金融實體可能產生的相互作用的結果。2013年3月國際一流的學術期刊Nature Physics推出了題為“Complex Network in Finance”的專輯,其動因在于,2008年金融危機的爆發暴露了金融系統和經濟系統建模過程中存在明顯的缺陷,在這次危機中宏觀經濟模型忽略了對系統性風險的綜合考慮,不僅不能預測這次經濟危機,而且也不能很好地解釋經濟危機,專業人士希望通過復雜網絡和金融交叉學科的研究提供對于經濟和金融網絡的更加基礎性的理解,同時增強政策制定者實際的洞察力。
復雜網絡分析方法對評估金融穩定發揮至關重要的作用。以企業之間的信貸擔保關系為例,這是一種非常重要的關聯關系。信貸擔保關系與企業的違約風險以及區域的系統性風險密切相關。近年來,在該領域的研究工作取得初步成效,結果如圖6所示。

圖6 利用復雜網絡給東部某地區的企業擔保圈建模
(三)自然語言處理與文本挖掘
在大數據時代,大部分數據都是結構化的數據。非結構化數據包含了文本、圖象、聲音、影視、超媒體等典型信息,在互聯網上的信息內容形式中占據了很大比例。隨著“互聯網+”戰略的實施,將會有越來越多的非結構化數據產生,據預測,非結構化數據將占據所有各種數據的70%~80%以上。非結構化數據的分析算法是大數據價值挖掘的重點和難點。自然語言處理(Natural Language Processing,簡稱NLP)和文本挖掘(Text Mining)的算法就是用來解決非結構數據分析問題。
自然語言處理是計算機科學領域與人工智能領域中的一個重要方向。它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數學于一體的科學。
從研究內容來看,自然語言處理包括語法分析、語義分析、篇章理解等。從應用角度來看,自然語言處理具有廣泛的應用前景。特別是在信息時代,自然語言處理的應用包羅萬象,例如:機器翻譯、手寫體和印刷體字符識別、語音識別及文語轉換、信息檢索、信息抽取與過濾、文本分類與聚類、輿情分析和觀點挖掘等,它涉及與語言處理相關的數據挖掘、機器學習、知識獲取、知識工程、人工智能研究和與語言計算相關的語言學研究等。
自然語言處理的困難可以羅列出來很多,不過關鍵在于消除歧義問題,如詞法分析、句法分析、語義分析等過程中存在的歧義問題,簡稱為消歧。而正確的消歧需要大量的知識,包括語言學知識(如詞法、句法、語義、上下文等)和世界知識(與語言無關)。
自然語言處理算法在大數據應用中已經取得重要成果。作為自然語言處理的重要應用,搜索引擎逐漸成為人們獲取信息的重要工具,涌現出以百度、谷歌等為代表的搜索引擎巨頭;機器翻譯也從實驗室走入尋常百姓家,谷歌、百度等公司都提供了基于海量網絡數據的機器翻譯和輔助翻譯工具;基于自然語言處理的中文(輸入法如搜狗、微軟、谷歌等輸入法)成為計算機用戶的必備工具;帶有語音識別的計算機和手機也正大行其道,協助用戶更有效地工作學習。
同時對于非結構化大數據的處理也面臨著挑戰,如何有效利用海量非結構化數據已成為制約信息技術發展的一個全局性瓶頸問題。單純依靠統計方法已經無法快速有效地從海量數據中學習語言知識,只有同時充分發揮基于規則的理性主義方法和基于統計的經驗主義方法的各自優勢,兩者互相補充,才能夠更好、更快地進行自然語言處理,更好發掘非結構化大數據的價值。