- 中國金融科技運行報告(2019)
- 楊濤 賁圣林主編
- 4859字
- 2025-04-07 18:44:00
技術篇:可應用于金融的科技探索
Technology Part:Technology Exploration Applicable to Finance
第一章 大數據技術及其應用
沈志勇[1]
摘要:2018年,大數據技術在金融領域的應用更加成熟,但也遇到了一些挑戰。本章圍繞數據的生產與流轉等簡單介紹了大數據技術近期的進展,并針對大數據技術面臨的隱私強監管背景,介紹了相應的技術舉措與技術突破方向。
關鍵詞:大數據技術 數據隱私 企業知識圖譜
2018年,金融科技受到了前所未有的關注,其中大數據技術也越來越受到金融機構與相關企業的重視,不僅體現在對大數據技術的理解與掌握越來越深刻,而且其應用范圍也越來越廣泛。然而,在大數據技術在金融領域的應用漸漸走向成熟與落地的同時,也遇到了更多的挑戰。具體而言,一方面,如何擴展數據來源,打通數據孤島,提升數據流轉效率,高時效、高收益地利用數據成為業界最關心的問題,因此在整合數據以及促進數據流通方面有很多新的技術理念應運而生。另一方面,數據隱私成為廣大用戶日益關心的問題,各國政府紛紛立法保護公民的數據隱私,企業也日益珍視自身擁有的數據的價值,數據作為核心資產受到更加嚴密的保護以防控濫用與流傳。
上述沖突,即獲取和挖掘數據的技術能力的提升與企業及個人日益增強的數據權益和隱私保護意識之間的矛盾,在包括金融業在內的全行業都在發生。金融業數字化程度高,從業人員的數據素養也高,是大數據技術應用的先行領域,也是企業與用戶更加重視隱私的領域,因此技術的發展與產生的反思相較于其他領域表現得更加突出。本章主要圍繞看似沖突的兩個方面展開闡述,有關大數據技術的基本介紹及其在金融領域的應用在上一年度的報告中已經做過簡單的介紹,此處不再贅述。
一 金融科技領域大數據處理與分析技術的進展
我們先簡單介紹一下大數據技術在金融領域的最新應用趨勢,主要包括數據生產技術、數據流轉技術、數據存儲與計算技術、數據分析技術等。
(一)數據生產技術的進展
人工智能與物聯網技術的發展大大拓展了數據獲取的廣度和深度,提升了多媒體與文本數據的可用性,為金融領域提供了更多的所謂“另類數據”(Alternative Data)。
金融信息載體如市場信息披露文件、財務報告等,往往是以PDF等電子文檔格式發布的,識別、提取和分析海量的金融文檔需要用到人工智能中的光學字符識別(OCR)技術,將圖像化的信息轉化為表格或者文字等更容易被機器利用的數據類型,提供給數據驅動的諸如量化投資、風險管控之類的系統。
人工智能中的自然語言處理(NLP)技術,尤其是知識圖譜(Knowledge Graph)分析,能將海量的以自然文本為載體的信息,如新聞、專利、評論等,結構化為投資模型所需的各類因子,甚至做成指數產品或者發行大數據指數型基金等。
物聯網(IoT)技術在近年來得到了突飛猛進的發展,通過傳感器采集物理世界的數據,對交通物流、園區辦公等場景進行監控,并對后期的數據進行分析,為供應鏈金融、園區金融等新的金融模式提供了數據支撐。
(二)數據流轉技術的進展
數據孤島現象的存在是大數據技術應用與發展的障礙。金融領域由于監管政策以及其他客觀因素的存在,更容易形成數據孤島。孤島間的數據流轉主要有三種方式:一是通過紙質的單據票據流轉再由人比對與錄入,二是由專人進行輪詢采集發布信息,三是填報某些電子單據。這幾種方式都降低了已經高度數字化的金融行業的效率,也帶來了繁復的勞動。
前文提到的OCR技術,除了可以提升數據的可用性外,還可以通過對單據票據的識別,提升數據流轉的效率,同時通過自動比對紙質單據票據上的信息與系統內的電子信息,提升數據的可靠性。
機器人流程自動化(RPA)技術近年來發展迅速,它并不是一個真實的、肉眼可見的機器人,而是流程自動化服務軟件產品,可模擬人在電腦上不同系統之間的操作行為,替代人在電腦前執行有規律且重復性高的辦公流程。
以證券業中的數據月報業務為例,它是對其他券商的財務情況進行分析的業務。每月初,員工需要輪詢同行券商披露的上月財務報告,從中提取上月末的收入、凈利潤、凈資產等數據,按照既定的格式進行匯總整理并制成報表。這可以理解為從各個證券公司的財報“數據孤島”中,“人肉”搬運數據,整個過程機械、枯燥而乏味,甚至有時因為數據更新不及時,需要人“值守”等待,而且人為操作難免會發生差錯。如果用一個不知疲倦、7×24小時待命且不易犯錯的機器人來完成上述任務,可以大大減少工作量甚至減少人力投入。RPA就是這樣一種技術。
(三)數據存儲與計算技術的進展
近年來金融數據的存儲在硬件層面沒有太大發展。而在軟件層面,隨著“互聯網+”概念的深入人心,銀行等業態的業務越來越零售化(更重視C端客戶),投資等領域越來越重視多源異構數據的采集與分析,以及各類有高時效性要求的數據流式計算的場景需求。金融領域開始越來越多地利用互聯網,選用諸如Hadoop等分布式數據存儲與分析架構,以及StreamSet等流式數據處理框架,以滿足新的大數據分析的需求。
在數據的計算方面,基于GPU以及GPU集群等硬件加速方法的多媒體與自然文本數據的分析技術,在深度學習建模與應用中起了很大的作用。FPGA等元件因其靈活性,以及ARM架構憑借其相較于傳統X86架構的低能耗與出色的多核性能,在提升數據的計算效率上發揮著越來越重要的作用。
(四)數據分析技術的進展
數據分析的基礎技術,尤其是機器學習的基礎技術在短期內沒有大的進展。在提升機器學習技術的易用性方面,出現了越來越多的自動機器學習技術,如谷歌的AutoML、百度的EasyML等,這類技術針對用戶數據能夠自動獲得最優模型和最優超參數組合,進而基于少量數據就能獲得出色性能和模型效果。這讓金融領域非機器學習相關專業的技術人員甚至業務人員也能方便地進行高階的大數據分析。
二 個人數據強監管背景下的技術發展新趨勢
大數據圈流行一句話,“關于個人的數據越來越私密,關于企業的數據越來越透明”。這句話形象地反映了數據技術發展的兩大趨勢。下面要介紹的技術,不全是最新的技術,但在當前數據隱私保護的態勢下,顯得日益重要。
(一)針對個體隱私保護的大數據技術
除了簡單的將個體ID通過散列技術等方式匿名化以外,還有更多高階的保護數據隱私的數據分析技術。
1.隱私保護數據挖掘技術
隱私保護數據挖掘(Privacy Preserving Data Mining,PPDM)是指采用數據擾亂、數據重構、密碼學等技術手段,在保證足夠精度和準確度的前提下,使數據挖掘者在不觸及實際隱私數據的同時,仍能進行有效的挖掘工作。其目的就是通過對原始數據或者挖掘算法進行某種改進,在不向外界泄露隱私信息的同時,發現原始數據的某些統計規律或隱含的知識和規則。
2.差分隱私技術
假設一個受信任的金融機構或者金融服務機構持有涉及眾多個人信息(如銀行交易、證券賬戶余額或定位等)的數據集,要想提供一個全局性的統計數據,令人難以想象,因為即使提供有關數據的綜合性統計也可能揭示一些涉及個人的信息。此外,只是將姓名等采取亂碼化、匿名化手段處理也會遭遇隱私挑戰,通過鏈接兩個或多個分別進行無害化處理的數據庫來識別個人信息時,各種匿名化的特殊方法都會失效。而差分隱私(Differential Privacy)就是為防護這類統計數據庫脫匿名技術而形成的一個隱私框架。舉例來說,在Netflix等著名推薦系統大賽的訓練數據中,所有客戶ID已用隨機分配的ID替代。有人將Netflix匿名化的訓練數據庫與IMDb數據庫(根據用戶評價日期)相連,能夠部分反匿名化Netflix的訓練數據庫,危及部分用戶的身份信息。還有人將匿名化的GIC數據庫(包含每位患者的出生日期、性別和郵政編碼)與選民登記記錄相連,找到了美國馬薩諸塞州州長的病歷。
上述反隱私的攻擊被稱作“差分攻擊”,簡單來說,就是對發布的100個人的信息以及另外99個人的信息進行比對之后獲取第100個人的信息。差分隱私的核心思想是:對于差別只有一條記錄的兩個數據集,查詢它們獲得相同值的概率非常接近。這樣就保護了第100個人的隱私。
3.安全多方計算與聯邦學習
安全多方計算(Secure Multi-Party Computation)最早由華裔圖靈獎獲得者姚期智教授表達為百萬富翁問題:兩個百萬富翁想知道他們兩個誰更富有,但誰都不想讓對方知道自己財富的任何信息。在雙方都不提供真實財富信息的情況下,如何比較兩個人的財富多少?
解決參與各方在無可信第三方的情況下保護隱私的協同計算問題,安全多方計算能夠在得到正確計算結果的同時不泄露各輸入值給其他成員。每個參與方除了計算結果外得不到其他方的任何私有信息。安全多方計算在電子選舉、電子投票、電子拍賣、秘密共享、門限簽名等場景中有著重要的作用。主流安全多方計算框架的核心采用了加密電路和不經意傳輸等密碼學技術,近年來也引入了區塊鏈技術。
針對復雜的跨多方機器學習問題,微眾銀行提出了聯邦學習(Federated Learning)的概念。在現有法規下,不同的金融機構是很難將雙方數據加以合并并針對風控、營銷任務進行大數據和機器學習建模的。聯邦學習希望做到各個企業的自有數據不出本地,通過加密機制下的參數交換方式,即在不違反數據隱私法規的情況下,建立一個虛擬的共有模型。這個虛擬模型就像大家把數據聚合在一起建立的最優模型一樣。但是在建立虛擬模型的時候,數據本身不移動,也不泄露隱私和影響數據合規。最終建好的模型在各方僅為本方的目標服務。在這樣一個聯邦機制下,各個參與者的身份和地位相同,而聯邦系統幫助大家建立了“共同富裕”的策略,因此叫作“聯邦學習”。
(二)企業大數據技術的進展
隨著個體隱私保護越來越嚴格,營銷、風控等大數據技術的資源和能力被更多地遷移到與之相似的企業大數據分析上,包括企業與相關實體間的關系分析、生產要素知識的圖譜化刻畫、企業的監管合規等。
1.企業相關的知識圖譜
知識圖譜是一種基于圖的數據結構,由節點(Point)和邊(Edge)組成。在知識圖譜里,每個節點表示現實世界中存在的“實體”,每條邊表示實體與實體之間的“關系”。知識圖譜是關系的最有效的表示方式。通俗地講,知識圖譜就是把所有不同種類的信息(Heterogeneous Information)連接在一起而得到的一個關系網絡。知識圖譜提供了從“關系”的角度去分析問題的能力。
以企業以及企業的“董監高”等核心人員為實體節點的圖譜是最典型的企業知識圖譜。這類圖譜的構建通常基于工商部門的公開信息,以及從公開網頁上利用信息抽取(Information Extraction)技術分析得到的企業和相關個人信息及其相互關系。另外,企業相關的涉訴以及輿情也會補充到企業知識圖譜中,作為更豐富的企業畫像與刻畫。實體類型也可以是生產要素,如原材料、零配件等其他更豐富的類型。
企業相關度知識圖譜在金融領域得到了廣泛的應用,已經成為很多金融機構必備的大數據工具,被廣泛地應用于風控、投資等領域。
2.監管與合規科技中的大數據技術
監管與合規科技也是近年來的熱點。金融機構越來越多地利用數據驅動的風險管理、合規管理,運用大數據技術評估和量化風險。
利用大數據的存儲與計算能力,能夠拓寬數據覆蓋的深度與廣度,降低監管成本,主要用于監管的全面風險管理、反洗錢、內控等領域。基于大數據的全面風險管理包括金融機構在市場風險、流動性風險、操作風險、信用風險、聲譽風險等傳統風險領域進行的以數據為基礎的管理。
結合流式數據處理技術,不僅能夠提升金融機構對異常交易監控、反欺詐等風險的決策效率,而且能夠提高對突發輿情等風險反饋的時效性。交易所可運用大數據平臺、實時流數據處理技術重構市場監察系統,在業務數據實時監控、風險預警指標構建、歷史數據統計分析、客戶持倉行為分析、交易行為模式分析、監察報告編撰等方面實現實時風險計量與管控,確保事前、事中風控的時效性。
利用企業知識圖譜等大數據技術,還可以進行更加復雜的穿透式與全面性監管。例如,證監會提出實施資本市場大數據戰略,推動建立人力和科技深度融合的監管新模式。利用大數據、人工智能等技術,在行政審批、打擊違法違規行為、上市公司監管等工作環節提質增效。提升金融風險的甄別能力,實現實際控制人檢測等穿透式監管以及輿情風險管控等全面性監管。
參考文獻
Mendes et al.,“Privacy-Preserving Data Mining:Methods,Metrics,and Applications”,IEEE Access,June 2017.
Vijay et al.,“Optical Character Recognition(OCR)”,International Journal of Research in Engineering,Science and Management,Vol.1,Issue 9,September 2018.
Wang et al.,A Brief Survey on Secure Multi-Party Computing in the Presence of Rational Parties,Springer JAIHC,December 2015.
[1] 沈志勇,博士,招商局金融科技有限公司副總經理兼首席創新官,曾任百度云首席數據科學家,百度研究院大數據實驗室副主任,惠普中國研究院研究員。長期從事大數據與人工智能技術在各領域的研發與應用。