- 中國金融科技運行報告(2020)
- 楊濤 賁圣林主編
- 23字
- 2025-04-08 21:17:00
技術(shù)篇:可應(yīng)用于金融的科技探索
Technology Part:Technology Exploration Applicable to Finance
第一章 大數(shù)據(jù)技術(shù)及其應(yīng)用
王強 邱艷娟 李曼[1]
摘要:數(shù)據(jù)是數(shù)字經(jīng)濟時代的生產(chǎn)要素,基于大數(shù)據(jù)的生產(chǎn)變革和業(yè)務(wù)模式創(chuàng)新驅(qū)動全球范圍內(nèi)經(jīng)濟社會各個領(lǐng)域的數(shù)字化、智能化轉(zhuǎn)型。合規(guī)合法、有效利用大數(shù)據(jù)技術(shù)開展創(chuàng)新應(yīng)用,成為金融機構(gòu)高質(zhì)量發(fā)展的核心競爭指標之一。2019年,大數(shù)據(jù)整體呈理性合規(guī)發(fā)展的趨勢,大數(shù)據(jù)產(chǎn)業(yè)發(fā)展進入一個全新的環(huán)境。在國家重視數(shù)據(jù)資源、部委強化大數(shù)據(jù)合規(guī)發(fā)展監(jiān)管的整體態(tài)勢下,金融機構(gòu)對數(shù)據(jù)資產(chǎn)管理與治理也更加重視,同時積極提升大數(shù)據(jù)實時計算能力,以數(shù)據(jù)中臺戰(zhàn)略提升大數(shù)據(jù)分析能力,更好地支撐精準營銷、信貸風控、交易預(yù)警、反欺詐等金融大數(shù)據(jù)應(yīng)用。
關(guān)鍵詞:數(shù)據(jù)治理 個人信息保護 金融大數(shù)據(jù) 實時計算分析 數(shù)據(jù)中臺
一 大數(shù)據(jù)發(fā)展整體態(tài)勢
2019年是大數(shù)據(jù)發(fā)展值得銘記的重要一年。黨中央、國務(wù)院持續(xù)推進大數(shù)據(jù)、互聯(lián)網(wǎng)、人工智能與實體經(jīng)濟深度融合,加大數(shù)字經(jīng)濟發(fā)展支持力度,明確數(shù)據(jù)資源在經(jīng)濟制度中的重要地位,可謂大數(shù)據(jù)發(fā)展歷程中的又一里程碑。2019年1~12月,貫穿全年的高壓監(jiān)管工作將大數(shù)據(jù)技術(shù)公司從幕后推向臺前,從部委的個人信息保護監(jiān)管舉措到地方的數(shù)據(jù)管理辦法,國家關(guān)于數(shù)據(jù)治理的態(tài)度逐步明朗化,大數(shù)據(jù)行業(yè)正全面邁向合規(guī)合法的發(fā)展道路。雙重關(guān)鍵因素的疊加,使得大數(shù)據(jù)在2019年幾近重生。
(一)數(shù)據(jù)資源的地位實現(xiàn)歷史性跨越
近年來,數(shù)字經(jīng)濟成為全球經(jīng)濟增長的關(guān)鍵動力,也成為我國經(jīng)濟發(fā)展的新引擎。黨中央、國務(wù)院高度重視數(shù)字經(jīng)濟發(fā)展。習近平總書記多次強調(diào)要構(gòu)建以數(shù)據(jù)為關(guān)鍵要素的數(shù)字經(jīng)濟,在創(chuàng)新、協(xié)調(diào)、綠色、開放、共享的新發(fā)展理念指引下,推進數(shù)字產(chǎn)業(yè)化、產(chǎn)業(yè)數(shù)字化,引導(dǎo)數(shù)字經(jīng)濟和實體經(jīng)濟深度融合。李克強總理指出,要壯大數(shù)字經(jīng)濟,堅持包容審慎監(jiān)管,支持新業(yè)態(tài)、新模式發(fā)展,促進平臺經(jīng)濟、共享經(jīng)濟健康成長。2019年,我國數(shù)字經(jīng)濟增加值規(guī)模達到35.8萬億元,占GDP的比重達到36.2%,對經(jīng)濟增長的貢獻率為67.7%[2],數(shù)字經(jīng)濟成為構(gòu)建現(xiàn)代化經(jīng)濟體系的重要內(nèi)容。
為貫徹落實黨中央、國務(wù)院關(guān)于數(shù)字經(jīng)濟發(fā)展的戰(zhàn)略部署,2019年11月國家發(fā)展改革委、中央網(wǎng)信辦聯(lián)合印發(fā)《國家數(shù)字經(jīng)濟創(chuàng)新發(fā)展試驗區(qū)實施方案》,圍繞解決數(shù)字經(jīng)濟發(fā)展關(guān)鍵問題,發(fā)揮一些地區(qū)在數(shù)字經(jīng)濟發(fā)展中的示范帶動作用,探索數(shù)字經(jīng)濟發(fā)展和產(chǎn)業(yè)轉(zhuǎn)型升級的路徑與模式,并啟動了浙江省、河北省(雄安新區(qū))、福建省、廣東省、重慶市、四川省6個國家數(shù)字經(jīng)濟創(chuàng)新發(fā)展試驗區(qū)的建設(shè)工作。
數(shù)字經(jīng)濟最鮮明的特點是以數(shù)據(jù)為關(guān)鍵要素,在數(shù)據(jù)經(jīng)濟蓬勃發(fā)展的當下,黨中央更是創(chuàng)新性地提出數(shù)據(jù)也是社會主義基本經(jīng)濟制度的生產(chǎn)要素。黨的十九屆四中全會提出,要健全勞動、資本、土地、知識、技術(shù)、管理、數(shù)據(jù)等生產(chǎn)要素由市場評價貢獻、按貢獻決定報酬的機制。這是黨中央首次提出將數(shù)據(jù)作為生產(chǎn)要素參與收益分配,提升了數(shù)據(jù)資源的地位,充分體現(xiàn)了我國社會主義基本經(jīng)濟制度的與時俱進,以及黨中央對數(shù)字經(jīng)濟發(fā)展的重視。
(二)行業(yè)高壓監(jiān)管,加強數(shù)據(jù)治理
隨著移動互聯(lián)網(wǎng)的快速發(fā)展,大眾出行、社交娛樂、通信購物、教育醫(yī)療等日常生活越來越離不開各類手機App。從線下到PC線上,從PC線上到手機線上,個人信息采集獲取的渠道更廣、難度更低,數(shù)據(jù)資源也變得維度更豐富、規(guī)模更龐大。但與此同時,App用戶隱私協(xié)議不規(guī)范、強制授權(quán)、過度索權(quán)、超范圍收集個人信息的現(xiàn)象大量存在,大數(shù)據(jù)公司違法違規(guī)使用個人信息的問題十分突出。個人信息濫采濫用的一系列問題,影響和制約了我國數(shù)字經(jīng)濟的持續(xù)健康發(fā)展。
2019年伊始,國家就釋放出加強數(shù)據(jù)治理、規(guī)范個人信息收集使用的強信號。2019年1月,由中央網(wǎng)信辦、工業(yè)和信息化部、公安部、國家市場監(jiān)管總局四部門聯(lián)合發(fā)布《關(guān)于開展App違法違規(guī)收集使用個人信息專項治理的公告》,打響了2019年數(shù)據(jù)專項治理的第一槍。2019年12月,四部門又聯(lián)合印發(fā)了《App違法違規(guī)收集使用個人信息行為認定方法》,旨在為監(jiān)督管理部門認定App違法違規(guī)收集使用個人信息行為提供參考,為App運營者自查自糾和網(wǎng)民社會監(jiān)督提供指引。2019年,公安部加大了App違法違規(guī)采集個人信息集中整治力度,共查處違法違規(guī)采集個人信息的App 683款。[3]2019年11月,工業(yè)和信息化部發(fā)布了《關(guān)于開展App侵害用戶權(quán)益專項整治工作的通知》,自查自糾階段共有8000多款A(yù)pp完成整改,并于2020年1月通報了56款尚未完成整改的App。[4]此外,中國人民銀行重點關(guān)注個人金融信息保護,于2019年10月下發(fā)了《個人金融信息(數(shù)據(jù))保護試行辦法(初稿)》,表示將加大對違規(guī)采集、使用個人征信信息的懲處力度。
高壓監(jiān)管之下,多家爬蟲技術(shù)與大數(shù)據(jù)風控機構(gòu)接連被查,大數(shù)據(jù)行業(yè)重新洗牌。2019年9月6日,第三方數(shù)據(jù)風控公司魔蝎數(shù)據(jù)和新顏科技的相關(guān)負責人在同一天被警方帶走調(diào)查。之后,聚信立、天翼征信、公信寶、同盾科技子公司、51信用卡等諸多公司也相繼被查。2019年11月20日,江蘇淮安警方依法打擊了7家涉嫌侵犯公民個人信息犯罪的公司,涉嫌非法緩存公民個人信息1億多條。上述大數(shù)據(jù)公司被查與其開展的爬蟲業(yè)務(wù)有關(guān),而這些爬蟲業(yè)務(wù)主要服務(wù)于互聯(lián)網(wǎng)金融機構(gòu)。作為互聯(lián)網(wǎng)金融業(yè)大數(shù)據(jù)風控的關(guān)鍵一環(huán),提供數(shù)據(jù)支撐的這些第三方大數(shù)據(jù)公司在經(jīng)歷了前幾年的輝煌之后,終于迎來了最強監(jiān)管浪潮。
數(shù)據(jù)治理之網(wǎng)已經(jīng)打開,大數(shù)據(jù)發(fā)展和利用進入正規(guī)化管理的新階段。隨著戰(zhàn)略地位的拔高、監(jiān)管的深度介入、從業(yè)門檻的陡然提升,大數(shù)據(jù)產(chǎn)業(yè)發(fā)展進入一個全新的環(huán)境,大數(shù)據(jù)技術(shù)與應(yīng)用也在不斷應(yīng)對新的變化,需要持續(xù)創(chuàng)新。
二 大數(shù)據(jù)基礎(chǔ)技術(shù)
大數(shù)據(jù)技術(shù)體系發(fā)展至今,不斷得到充實與完善,與互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、人工智能等其他信息通信技術(shù)融合交匯,現(xiàn)已較為成熟。圍繞數(shù)據(jù)資源的全生命周期過程,大數(shù)據(jù)基礎(chǔ)技術(shù)包含大數(shù)據(jù)采集技術(shù)、大數(shù)據(jù)預(yù)處理技術(shù)、大數(shù)據(jù)存儲與計算技術(shù)、大數(shù)據(jù)分析技術(shù)等。
(一)大數(shù)據(jù)采集技術(shù)
大數(shù)據(jù)采集是大數(shù)據(jù)生命周期的第一個環(huán)節(jié)。隨著各類技術(shù)和應(yīng)用的發(fā)展,數(shù)據(jù)來源多種多樣,除了傳統(tǒng)的關(guān)系型數(shù)據(jù)庫外,還包括眾多非結(jié)構(gòu)化數(shù)據(jù)庫,以及互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等。數(shù)據(jù)類型也越來越豐富,包括原有的結(jié)構(gòu)化數(shù)據(jù),但更多的是半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。按照數(shù)據(jù)來源不同,大數(shù)據(jù)采集技術(shù)和方法也存在較大差異,下面按照數(shù)據(jù)庫數(shù)據(jù)采集、網(wǎng)絡(luò)數(shù)據(jù)采集、物聯(lián)網(wǎng)數(shù)據(jù)采集分類說明。
1.數(shù)據(jù)庫數(shù)據(jù)采集
數(shù)據(jù)庫數(shù)據(jù)采集因數(shù)據(jù)庫類型不同以及其中存儲的數(shù)據(jù)類型是結(jié)構(gòu)化還是非結(jié)構(gòu)化而有所不同。
針對傳統(tǒng)關(guān)系型數(shù)據(jù)庫,數(shù)據(jù)采集一般采用ETL(數(shù)據(jù)抽取、轉(zhuǎn)換和加載)工具、SQL編碼、ETL工具與SQL編碼相結(jié)合三種方式。ETL工具經(jīng)過多年的發(fā)展,已經(jīng)形成了相對成熟的產(chǎn)品體系,尤其是針對傳統(tǒng)關(guān)系型數(shù)據(jù)庫,典型代表包括Oracle的OWB、IBM的Datastage、Microsoft的DTS、Informatica的PowerCenter等。借助ETL工具可以實現(xiàn)數(shù)據(jù)庫數(shù)據(jù)的快速采集及預(yù)處理,屏蔽復(fù)雜的編碼任務(wù),也可提高速度、降低難度,但是缺乏靈活性。通過SQL編碼方式實現(xiàn)數(shù)據(jù)庫數(shù)據(jù)采集,相較于使用ETL工具更加靈活,可以提高數(shù)據(jù)采集及預(yù)處理的效率,但是編碼復(fù)雜,對技術(shù)的要求比較高。ETL工具與SQL編碼相結(jié)合可以綜合前兩種方式的優(yōu)點,極大地提高數(shù)據(jù)采集及預(yù)處理的速度和效率。
針對非結(jié)構(gòu)化數(shù)據(jù)庫采集以及不同類型數(shù)據(jù)庫之間的數(shù)據(jù)傳遞,目前用得比較多的是一些開源項目提供的ETL工具,典型代表包括Sqoop、Kettle和Talend等,專為大數(shù)據(jù)而設(shè)計,可兼顧離線和實時數(shù)據(jù)采集,實現(xiàn)主流非結(jié)構(gòu)化數(shù)據(jù)庫(如HDFS、HBase及其他主流NoSQL數(shù)據(jù)庫)與傳統(tǒng)關(guān)系型數(shù)據(jù)庫(如MySQL、Oracle、PostgreSQL等)之間的數(shù)據(jù)雙向傳遞。
相對來說,數(shù)據(jù)庫數(shù)據(jù)的價值密度較大,主要通過日志文件、系統(tǒng)接口函數(shù)等方式采集,采集技術(shù)規(guī)范,可用工具較多,面向不同類型數(shù)據(jù)庫的統(tǒng)一采集技術(shù)將成為未來的重要發(fā)展趨勢。
2.網(wǎng)絡(luò)數(shù)據(jù)采集
網(wǎng)絡(luò)數(shù)據(jù)采集根據(jù)采集的數(shù)據(jù)類型不同可以分為互聯(lián)網(wǎng)內(nèi)容數(shù)據(jù)采集和網(wǎng)絡(luò)日志采集兩類。
互聯(lián)網(wǎng)內(nèi)容數(shù)據(jù)采集主要是利用網(wǎng)絡(luò)爬蟲技術(shù)和網(wǎng)站公開的應(yīng)用編程接口(Application Programming Interface,API)等方式,輔以分詞系統(tǒng)、任務(wù)與索引系統(tǒng)的綜合運用實現(xiàn)從網(wǎng)站上獲取內(nèi)容數(shù)據(jù)的過程。這種方式可將互聯(lián)網(wǎng)上的半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁中提取出來,并以結(jié)構(gòu)化的方式將其存儲為統(tǒng)一的本地數(shù)據(jù)文件,支持圖片、音頻、視頻等文件或附件的采集以及自動關(guān)聯(lián)。網(wǎng)絡(luò)爬蟲是一種按照一定規(guī)則,自動抓取互聯(lián)網(wǎng)內(nèi)容的程序或者腳本。網(wǎng)絡(luò)爬蟲技術(shù)最早主要運用在搜索引擎中,互聯(lián)網(wǎng)搜索引擎與網(wǎng)頁持有者之間通過Robots協(xié)議約定哪些信息可以被爬取、哪些信息不該被爬取。
網(wǎng)絡(luò)日志采集目前用得比較多的是開源日志采集系統(tǒng),典型代表包括Flume、Scribe、Logstash、Fluentd等。Flume是Cloudera貢獻給Apache的一個開源日志采集系統(tǒng)項目,具有高可用性、高可靠性和分布式的特點,可以實現(xiàn)海量日志的實時動態(tài)采集、聚合和傳輸。Scribe是Facebook的開源日志采集系統(tǒng)項目,具有可擴展性和高容錯的特點,可以實現(xiàn)日志的分布式采集和統(tǒng)一處理。Logstash部署使用相對簡單,更加注重日志數(shù)據(jù)的預(yù)處理,可以為后續(xù)日志解析做好鋪墊。Fluentd的部署與Flume比較相似,擴展性非常好,應(yīng)用也相當廣泛。
隨著大數(shù)據(jù)時代的到來,一些大數(shù)據(jù)公司不再受Robots協(xié)議的約束,利用網(wǎng)絡(luò)爬蟲技術(shù)爬取一切可爬取的內(nèi)容,包括電商、外賣、地圖、共享單車等各類平臺的用戶個人信息,以及用戶的通信錄、上網(wǎng)地址、收貨地址、聊天記錄、搜索記錄、支付記錄等信息。大數(shù)據(jù)公司利用爬取到的用戶個人信息進行精準用戶畫像,開展精準營銷和廣告推送,產(chǎn)生了良好效益。但也有一些大數(shù)據(jù)公司通過直接銷售用戶個人信息以獲利,造成了巨大的不良影響。上述違法違規(guī)行為的大量存在終于在2019年迎來了行業(yè)監(jiān)管的重錘,多部門聯(lián)合開展違法違規(guī)采集個人信息集中整治,逐步推進網(wǎng)絡(luò)爬蟲技術(shù)的合規(guī)使用和大數(shù)據(jù)采集的規(guī)范發(fā)展。
3.物聯(lián)網(wǎng)數(shù)據(jù)采集
無論是消費物聯(lián)網(wǎng)、產(chǎn)業(yè)物聯(lián)網(wǎng),還是智慧城市物聯(lián)網(wǎng),都可能涉及RFID電子標簽、定位裝置、紅外感應(yīng)裝置、激光雷達以及多種傳感器等裝置,可以說物聯(lián)網(wǎng)終端設(shè)備的作用就是采集物聯(lián)網(wǎng)數(shù)據(jù),可能涉及對聲音、光照、熱度、電流、壓力、位置、生物特征等各類數(shù)據(jù)的采集。物聯(lián)網(wǎng)數(shù)據(jù)涉及范圍廣,數(shù)據(jù)相對分散,數(shù)據(jù)類型差異巨大,數(shù)據(jù)采集方法和采集手段也存在較大差異。
金融行業(yè)大數(shù)據(jù)應(yīng)用對物聯(lián)網(wǎng)數(shù)據(jù)利用較少,主要還是借助外部網(wǎng)絡(luò)數(shù)據(jù)與內(nèi)部數(shù)據(jù)庫系統(tǒng)數(shù)據(jù)融合實現(xiàn)眾多金融大數(shù)據(jù)應(yīng)用創(chuàng)新。例如,金融機構(gòu)通過采集互聯(lián)網(wǎng)用戶的微博內(nèi)容數(shù)據(jù)、社交媒體數(shù)據(jù)、電商交易數(shù)據(jù)等對用戶的信用等級進行綜合評估;證券分析機構(gòu)通過采集新聞、股票論壇信息、上市公司公告、行業(yè)研究報告、股票交易數(shù)據(jù)、市場行情數(shù)據(jù)等,構(gòu)建分析模型,分析挖掘各類事件對股市以及某只股票價格走向的影響;監(jiān)管機構(gòu)通過采集社交媒體數(shù)據(jù)、網(wǎng)絡(luò)新聞數(shù)據(jù)、網(wǎng)絡(luò)輿情數(shù)據(jù)等,與監(jiān)管機構(gòu)自有數(shù)據(jù)庫數(shù)據(jù)進行對比分析,可發(fā)現(xiàn)潛在風險,向投資者發(fā)布風險提示,并采取適當監(jiān)管措施以維持金融市場穩(wěn)定。隨著個人信息保護力度的逐步加大和大數(shù)據(jù)監(jiān)管體系的日益完善,金融相關(guān)大數(shù)據(jù)的采集也將逐步走上合規(guī)化道路。
(二)大數(shù)據(jù)預(yù)處理技術(shù)
大數(shù)據(jù)分析與挖掘所需的數(shù)據(jù)往往是通過多個渠道采集的多種類型的數(shù)據(jù),通過上述大數(shù)據(jù)采集技術(shù)采集到的數(shù)據(jù)往往存在數(shù)據(jù)冗余、數(shù)據(jù)缺值、數(shù)據(jù)沖突等數(shù)據(jù)質(zhì)量問題,需要通過大數(shù)據(jù)預(yù)處理技術(shù)提高數(shù)據(jù)質(zhì)量,使數(shù)據(jù)更符合分析挖掘需要,以保證大數(shù)據(jù)分析的正確性和有效性,獲得高質(zhì)量的分析挖掘結(jié)果。大數(shù)據(jù)預(yù)處理技術(shù)可以對采集到的原始數(shù)據(jù)進行清洗、填補、平滑、合并、規(guī)格化以及一致性檢查等操作,將雜亂無章的原始數(shù)據(jù)轉(zhuǎn)化為相對單一且便于處理的結(jié)構(gòu)類型,為后期的大數(shù)據(jù)分析挖掘奠定基礎(chǔ)。大數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換以及數(shù)據(jù)歸約四大部分。
1.數(shù)據(jù)清理
數(shù)據(jù)清理主要是通過檢測數(shù)據(jù)中存在的冗余、錯誤、不一致等問題,利用各種清洗技術(shù)去除噪聲數(shù)據(jù),形成一致性數(shù)據(jù)集合,包括清除重復(fù)數(shù)據(jù)、填充缺失數(shù)據(jù)、消除噪聲數(shù)據(jù)等。清除重復(fù)數(shù)據(jù)一般采用相似度計算等統(tǒng)計分析方法。針對缺失數(shù)據(jù)的處理方式有兩種:一種是忽略不完整數(shù)據(jù),即清除缺失數(shù)據(jù);另一種是通過統(tǒng)計學(xué)方法、分類或聚類方法填充缺失數(shù)據(jù),以確保數(shù)據(jù)可用。在實際應(yīng)用中,數(shù)據(jù)采集過程中還會由于多種原因產(chǎn)生大量的噪聲數(shù)據(jù)(在合理的數(shù)據(jù)域之外),如果不加以處理,會造成后續(xù)分析挖掘結(jié)果不準確、不可靠。常用的消除噪聲數(shù)據(jù)的方法包括分箱、聚類、回歸等統(tǒng)計學(xué)方法和數(shù)學(xué)方法。
主要的數(shù)據(jù)清洗工具包括前文所述的Sqoop、Kettle、Talend以及Apache Camel、Apache Kafka、Apatar、Heka、Scriptella等開源ETL工具。此外,Potter’s Wheel應(yīng)用也較多,此款數(shù)據(jù)清理工具交互性強,還集成了偏差檢測和數(shù)據(jù)變換功能。
2.數(shù)據(jù)集成
數(shù)據(jù)集成是指將來源于多個數(shù)據(jù)源的異構(gòu)數(shù)據(jù)合并,存放到一個一致的數(shù)據(jù)庫中。這一過程主要涉及模式匹配、數(shù)據(jù)冗余、數(shù)據(jù)值沖突的檢測與處理,主要工具仍是上文提到的開源ETL工具。模式匹配主要用于發(fā)現(xiàn)并映射兩個或多個異構(gòu)數(shù)據(jù)源之間的屬性對應(yīng)關(guān)系,樸素貝葉斯、Stacking等機器學(xué)習算法在模式匹配中應(yīng)用較為廣泛。數(shù)據(jù)冗余可能源于數(shù)據(jù)屬性命名的不一致,可以利用皮爾遜積矩相關(guān)系數(shù)(Pearson Product-moment Correlation Coefficient)來衡量數(shù)據(jù)屬性命名的一致性,其絕對值越大表明兩者之間的相關(guān)性越強。數(shù)據(jù)值沖突主要表現(xiàn)為來源不同的同一實體具有不同的數(shù)據(jù)值,針對數(shù)據(jù)值沖突問題有時需要輔以人工確定規(guī)則加以處理。
3.數(shù)據(jù)變換
數(shù)據(jù)變換就是處理采集上來的數(shù)據(jù)中存在的不一致的過程,既包括數(shù)據(jù)名稱、顆粒度、規(guī)則、數(shù)據(jù)格式、計量單位等的變換,也包括對新增數(shù)據(jù)字段進行組合、分割等變換。數(shù)據(jù)變換實際上也包含了數(shù)據(jù)清洗的相關(guān)工作,需要根據(jù)業(yè)務(wù)規(guī)則對不一致數(shù)據(jù)進行清洗,以保證后續(xù)分析結(jié)果的準確性。數(shù)據(jù)變換的主要目的在于將數(shù)據(jù)轉(zhuǎn)換成適合分析挖掘的形式,選用何種數(shù)據(jù)變換方法取決于大數(shù)據(jù)分析和挖掘算法。常用的數(shù)據(jù)變換方法包括:函數(shù)變換,使用數(shù)學(xué)函數(shù)對每個屬性值進行映射;對數(shù)據(jù)進行規(guī)范化,按比例縮放數(shù)據(jù)的屬性值,使其盡量落入較小的特定區(qū)間。規(guī)范化既有助于各種分類、聚類算法的實施,又避免了對度量單位的過度依賴,同時還可規(guī)避權(quán)重不平衡問題。
4.數(shù)據(jù)歸約
數(shù)據(jù)歸約是指在盡可能保持數(shù)據(jù)原貌的前提下,尋找最有用特征以縮小數(shù)據(jù)規(guī)模,最大限度地精減數(shù)據(jù),其涉及的技術(shù)和方法主要包括高維數(shù)據(jù)降維處理方法(維歸約)、實例歸約、離散化技術(shù),以及不平衡學(xué)習等機器學(xué)習算法。數(shù)據(jù)歸約技術(shù)可以用來得到數(shù)據(jù)集的歸約表示,使得數(shù)據(jù)集變小,但同時仍然近于保持原數(shù)據(jù)的完整性,可以在保證分析挖掘準確性的前提下提高分析挖掘的效率。目前基于海量數(shù)據(jù)的數(shù)據(jù)歸約技術(shù)已經(jīng)成為大數(shù)據(jù)預(yù)處理的重要問題之一。
(三)大數(shù)據(jù)存儲與計算技術(shù)
大數(shù)據(jù)存儲與計算技術(shù)是整個大數(shù)據(jù)系統(tǒng)的基礎(chǔ)。2004年,谷歌公司率先提出一套分布式數(shù)據(jù)存儲與計算的技術(shù)體系,即分布式文件系統(tǒng)谷歌文件系統(tǒng)GFS、分布式計算系統(tǒng)MapReduce和分布式數(shù)據(jù)庫BigTable,以較低的成本很好地解決了大數(shù)據(jù)面臨的困境,奠定了大數(shù)據(jù)技術(shù)的基礎(chǔ)。受谷歌公司論文啟發(fā),Apache Hadoop實現(xiàn)了自己的分布式文件系統(tǒng)HDFS、分布式計算系統(tǒng)MapReduce和分布式數(shù)據(jù)庫HBase,并將其開源,這是大數(shù)據(jù)技術(shù)開源生態(tài)體系的起點。隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展與應(yīng)用,大數(shù)據(jù)存儲與計算技術(shù)呈現(xiàn)以下新特征。
1.基礎(chǔ)框架逐漸成熟,滿足批處理與流處理場景需求
大數(shù)據(jù)存儲與計算技術(shù)已形成了以開源為主導(dǎo)、多種技術(shù)架構(gòu)并存的技術(shù)生態(tài)體系。Apache Hadoop最初定義了基礎(chǔ)的分布式批處理架構(gòu),打破了傳統(tǒng)數(shù)據(jù)庫一體化的模式,將計算與存儲分離,解決了海量數(shù)據(jù)的低成本存儲與規(guī)?;嬎銌栴}。近年來,隨著大數(shù)據(jù)分析時效性的需求愈加突出,Apache Flink、Spark Structured Streaming、Kafka Streams等流計算基礎(chǔ)框架技術(shù)備受關(guān)注,為滿足流處理場景需求打下了基礎(chǔ)。其中,最熱門的Apache Flink使用了流處理的思想來實現(xiàn)批處理,是能夠同時支持流處理和批處理的計算引擎,包括阿里巴巴、騰訊、百度、字節(jié)跳動、Uber、Lyft、Netflix等在內(nèi)的國內(nèi)外公司都是Apache Flink的使用者。除了開源的存儲與計算框架之外,還有一些成熟的閉源產(chǎn)品,如亞馬遜的Redshift、阿里巴巴的MaxCompute等。
隨著金融領(lǐng)域數(shù)據(jù)量和分析應(yīng)用數(shù)量的快速增長,傳統(tǒng)的數(shù)據(jù)倉庫平臺并發(fā)能力差、擴展能力受限等問題凸顯,技術(shù)架構(gòu)逐漸向分布式架構(gòu)遷移,除了大型央企外,監(jiān)管機構(gòu)、股份制銀行、農(nóng)商行等金融機構(gòu)也都開始使用分布式架構(gòu)構(gòu)建大數(shù)據(jù)平臺。
2.大數(shù)據(jù)存儲與計算技術(shù)逐漸云化
在公有云方面,各大云廠商紛紛構(gòu)建各類大數(shù)據(jù)產(chǎn)品以滿足用戶需求,眾多大數(shù)據(jù)技術(shù)被搬到了云上,計算和存儲資源的使用更加彈性,其運維方式和運行環(huán)境也發(fā)生了較大變化。云廠商提供的多種類型的云產(chǎn)品方便用戶選擇合適的方案云化遷移,如阿里云將其自身的大數(shù)據(jù)計算服務(wù)開放MaxCompute,提供PB級數(shù)據(jù)倉庫解決方案,同時還推出E-MapReduce(EMR)——構(gòu)建在阿里云云服務(wù)器ECS上的開源Hadoop、Spark、HBase、Hive、Flink生態(tài)大數(shù)據(jù)PaaS產(chǎn)品。
在私有云方面,私有部署的大數(shù)據(jù)技術(shù)也逐漸采用容器、虛擬化等技術(shù),更加精細化地利用存儲與計算資源。
大數(shù)據(jù)存儲與計算解決方案向云化演進,可以更加專注于數(shù)據(jù)和業(yè)務(wù)邏輯,不必操心如何維護底層的硬件、網(wǎng)絡(luò)以及存儲與計算框架,在很大程度上降低了大數(shù)據(jù)技術(shù)的學(xué)習成本和使用門檻。值得一提的是,早期的大數(shù)據(jù)存儲與計算云化產(chǎn)品大部分是對已有本地產(chǎn)品的云化改造,而現(xiàn)在越來越多的產(chǎn)品從設(shè)計之初就遵循了云原生的概念,生于云長于云,更適合云上生態(tài)。
3.引入異構(gòu)計算滿足場景多樣性需求
隨著大數(shù)據(jù)應(yīng)用的逐步深入,應(yīng)用場景越來越豐富,大數(shù)據(jù)存儲與計算平臺開始承載人工智能、物聯(lián)網(wǎng)、視頻轉(zhuǎn)碼、高性能計算等多樣性的任務(wù),以CPU為底層硬件的傳統(tǒng)大數(shù)據(jù)技術(shù)性能瓶頸凸顯,已經(jīng)無法有效滿足新業(yè)務(wù)需求。以CPU為調(diào)度核心,協(xié)同GPU、FPGA、ASIC及各類用于AI加速“xPU”的異構(gòu)算力平臺成為行業(yè)熱點解決方案,以GPU為代表的計算加速單元能夠極大地提升新業(yè)務(wù)計算效率。
英特爾、英偉達、AMD等多家廠商都在提供異構(gòu)計算的產(chǎn)品,并提出不同的應(yīng)用技術(shù)方案。由AMD、高通、ARM、三星、聯(lián)發(fā)科、Imagination等公司發(fā)起的全球異構(gòu)系統(tǒng)架構(gòu)聯(lián)盟(HSA聯(lián)盟),是異構(gòu)計算領(lǐng)域最大的國際化標準和產(chǎn)業(yè)組織,強調(diào)生態(tài)共建、資源共享。該聯(lián)盟成員包括中國電子技術(shù)標準化研究院、華夏芯、華為、CEVA等全球80多家芯片公司、高校及科研院所。
此外,產(chǎn)業(yè)界也在嘗試從統(tǒng)一軟件開發(fā)平臺和開發(fā)工具層面實現(xiàn)底層不同硬件體系的融合,如英特爾在2019年超級計算大會上發(fā)布了全新軟件行業(yè)計劃oneAPI及其開發(fā)者測試版本,旨在完善統(tǒng)一軟件平臺搭建,并以生態(tài)系統(tǒng)培養(yǎng)為主推動產(chǎn)業(yè)的進步。oneAPI支持跨CPU、GPU、FPGA和其他加速器等多架構(gòu)開發(fā)的編程模型,提供一套統(tǒng)一的編程語言和開發(fā)工具集實現(xiàn)對多樣性算力的調(diào)用,從根本上簡化開發(fā)模式,針對異構(gòu)計算形成一套全新的開放標準。截至2019年11月,支持oneAPI的企業(yè)和研究機構(gòu)已經(jīng)超過30家[5],包括高性能計算領(lǐng)域的領(lǐng)導(dǎo)者、人工智能領(lǐng)域的創(chuàng)新者、硬件廠商、獨立軟件開發(fā)商、云服務(wù)商、高校等。
(四)大數(shù)據(jù)分析技術(shù)
大數(shù)據(jù)分析需要從紛繁復(fù)雜的數(shù)據(jù)中發(fā)現(xiàn)規(guī)律并提取新的知識,是大數(shù)據(jù)價值挖掘的關(guān)鍵。數(shù)據(jù)分析主要有兩條技術(shù)路線:一是憑借先驗知識,由人工建立數(shù)學(xué)模型來分析數(shù)據(jù);二是通過建立人工智能系統(tǒng),使用大量樣本數(shù)據(jù)進行訓(xùn)練,讓機器代替人工獲得從數(shù)據(jù)中提取知識的能力。傳統(tǒng)數(shù)據(jù)挖掘?qū)ο蟠蠖嗍墙Y(jié)構(gòu)化、單一對象的小數(shù)據(jù)集,挖掘側(cè)重于根據(jù)先驗知識預(yù)先由人工建立模型,然后依據(jù)既定模型進行分析。對非結(jié)構(gòu)化、多源異構(gòu)大數(shù)據(jù)集的分析往往缺乏先驗知識,很難建立顯式的數(shù)學(xué)模型,這就需要發(fā)展更加智能的數(shù)據(jù)挖掘技術(shù)。近年來,大數(shù)據(jù)分析技術(shù)呈現(xiàn)以下新特征。
1.融合AI能力實現(xiàn)大數(shù)據(jù)分析智能化升級
用智能化的手段來分析數(shù)據(jù)是釋放數(shù)據(jù)價值的高階之路,當前出現(xiàn)了TensorFlow、Caffe、CNTK、Torch等獨立的機器學(xué)習平臺,但用戶往往不希望在大數(shù)據(jù)平臺和機器學(xué)習平臺之間不斷地搬運數(shù)據(jù),因此兩個平臺深度整合是大勢所趨,大數(shù)據(jù)平臺除了支持機器學(xué)習基礎(chǔ)算法之外,還將通過與AI平臺融合以支持更多的AI類應(yīng)用。例如,以Spark為代表的計算平臺開始積極探索如何支持深度學(xué)習能力,TensorFlowOnSpark等解決方案實現(xiàn)了TensorFlow與Spark的無縫連接,更好地解決了兩者數(shù)據(jù)傳遞的問題。Spark的商業(yè)化公司Databricks在解決方案中還提供“一站式”的分析平臺Data Science Workspace,Cloudera也推出了相應(yīng)的分析平臺Cloudera Data Science Workbench。
2.數(shù)據(jù)中臺模式推動數(shù)據(jù)分析應(yīng)用
隨著大數(shù)據(jù)的工具和技術(shù)棧逐步成熟,以阿里巴巴、騰訊、京東等為代表的互聯(lián)網(wǎng)頭部企業(yè)從集團層面推動以搭建中臺為目標的組織架構(gòu)變革,圍繞工具與數(shù)據(jù)的生產(chǎn)鏈條、數(shù)據(jù)的管理和應(yīng)用等逐漸形成了能力集合,并通過“數(shù)據(jù)中臺”這一概念來統(tǒng)一數(shù)據(jù)資產(chǎn)的視圖和標準,提供通用數(shù)據(jù)的加工、管理和分析能力。此外,數(shù)據(jù)領(lǐng)域的一批創(chuàng)業(yè)公司也紛紛提出中臺戰(zhàn)略,越來越多的企業(yè)開始關(guān)注中臺。
數(shù)據(jù)中臺是一個由多種工具和能力組合而成的數(shù)據(jù)應(yīng)用引擎、數(shù)據(jù)價值化的加工廠,用以連接下層的數(shù)據(jù)和上層的數(shù)據(jù)應(yīng)用團隊,從而形成敏捷的數(shù)據(jù)驅(qū)動精細化運營模式,為數(shù)據(jù)分析提供“一站式”支持。數(shù)據(jù)中臺打破了原有企業(yè)內(nèi)的復(fù)雜數(shù)據(jù)結(jié)構(gòu),使數(shù)據(jù)和業(yè)務(wù)更貼近,并能更快地使用數(shù)據(jù)驅(qū)動決策。數(shù)據(jù)中臺能夠有針對性地解決三個問題:提高數(shù)據(jù)獲取的效率、打通數(shù)據(jù)共享的通道、提供統(tǒng)一的數(shù)據(jù)開發(fā)能力。
3.借助數(shù)據(jù)可視化技術(shù)強化數(shù)據(jù)分析
數(shù)據(jù)可視化技術(shù)的基本思想是將數(shù)據(jù)庫中每一個數(shù)據(jù)項作為單個基本圖形元素表示,大量的數(shù)據(jù)集構(gòu)成數(shù)據(jù)圖像,同時將數(shù)據(jù)的各個屬性值以多維數(shù)據(jù)的形式表示,可以從不同的維度觀察數(shù)據(jù),從而對數(shù)據(jù)進行更深入的觀察和分析,為人們提供一個直覺的、交互的和反應(yīng)靈敏的可視化環(huán)境。
通過可視化圖像對數(shù)據(jù)進行分析,可迅速掌握不同數(shù)據(jù)之間的關(guān)系,使數(shù)據(jù)顯示更加直觀。首先,通過豐富的可視化功能,幫助用戶從不同角度分析數(shù)據(jù)、縮小答案的范圍、展示數(shù)據(jù)的不同影響。除了餅狀圖、柱形圖、熱圖、地理信息圖等數(shù)據(jù)展現(xiàn)方式,還可以通過圖像的顏色、亮度、大小、形狀、運動趨勢等多種方式在一系列圖形中對數(shù)據(jù)進行分析。其次,通過不斷改善分析的功能和可操作性,讓前端布局自定義搭配,讓業(yè)務(wù)人員隨心所欲地布置,為不同用戶提供個性化的分析體驗。此外,將每一項數(shù)據(jù)在不同維度指標下交互聯(lián)動,展示數(shù)據(jù)在不同維度的走勢、比例、關(guān)系,發(fā)現(xiàn)數(shù)據(jù)背后的知識與規(guī)律,并支持數(shù)據(jù)的上鉆下探、多維并行分析,利用數(shù)據(jù)推動決策。
三 金融大數(shù)據(jù)場景及實踐
大數(shù)據(jù)與金融領(lǐng)域的融合,是一個彼此成就、實現(xiàn)更大價值的過程。從數(shù)據(jù)資源的角度看,經(jīng)過多年積淀,金融領(lǐng)域龐大的系統(tǒng)內(nèi)積累了大量高價值的數(shù)據(jù),擁有用于數(shù)據(jù)分析的基礎(chǔ)資源,金融領(lǐng)域是大數(shù)據(jù)技術(shù)應(yīng)用落地最早也是最成熟的領(lǐng)域之一。從金融業(yè)發(fā)展的內(nèi)在需求看,當前整個金融業(yè)的運作模式正在重構(gòu),行業(yè)競爭日益激烈,依托大數(shù)據(jù)開展精細化運營、創(chuàng)新金融產(chǎn)品的需求日益迫切,大數(shù)據(jù)是應(yīng)用最早、效果最顯著的金融科技之一。
2019年,在國家重視數(shù)據(jù)資源、部委強化大數(shù)據(jù)合規(guī)發(fā)展監(jiān)管的整體態(tài)勢下,金融機構(gòu)對數(shù)據(jù)資產(chǎn)管理與治理也更加重視,加大了在數(shù)據(jù)治理項目中的投入,高效地管控數(shù)據(jù)資產(chǎn),從而提升自身的核心競爭力。同時,積極提升大數(shù)據(jù)實時計算能力,以數(shù)據(jù)中臺戰(zhàn)略提升大數(shù)據(jù)分析能力,更好地支撐精準營銷、信貸風控、交易預(yù)警、反欺詐等金融大數(shù)據(jù)應(yīng)用。
(一)數(shù)據(jù)管理與治理解決方案
2019年,銀行業(yè)在數(shù)據(jù)管理與治理方面開展了積極且有成效的探索。
銀行業(yè)是典型的數(shù)據(jù)驅(qū)動行業(yè),具備數(shù)字化轉(zhuǎn)型的先天優(yōu)勢。大數(shù)據(jù)在銀行業(yè)細分領(lǐng)域有很多成功的應(yīng)用案例,但在向數(shù)字化快速轉(zhuǎn)型的同時,銀行業(yè)仍存在需要突破的瓶頸:數(shù)據(jù)分布零散化,缺乏全口徑和全生命周期性的管理;數(shù)據(jù)標準度不高,取數(shù)規(guī)則各異;數(shù)據(jù)挖掘與數(shù)據(jù)應(yīng)用力度不足,與外部數(shù)據(jù)隔離;數(shù)據(jù)治理人才儲備不足,未建立專門針對數(shù)據(jù)治理的專業(yè)隊伍以及與之匹配的激勵機制。相關(guān)數(shù)據(jù)顯示,目前超過85%的中小銀行將數(shù)據(jù)治理納入公司治理范疇[6],但是中小銀行數(shù)據(jù)治理處于萌芽期,亟須提高數(shù)據(jù)的管理與治理能力,強化數(shù)據(jù)資產(chǎn)理念,構(gòu)建數(shù)字化經(jīng)營能力,這樣才有可能盤活數(shù)據(jù)所具有的巨大的潛在價值。
近年來,金融主管部門也逐漸加大對銀行業(yè)金融機構(gòu)數(shù)據(jù)治理工作的引導(dǎo)力度。2018年5月,中國銀保監(jiān)會發(fā)布了《銀行業(yè)金融機構(gòu)數(shù)據(jù)治理指引》,首次將數(shù)據(jù)治理提升到銀行常規(guī)管理的戰(zhàn)略高度,明確要求銀行將數(shù)據(jù)治理工作常態(tài)化、持久化。2019年10月,中國人民銀行向部分銀行下發(fā)了《個人金融信息(數(shù)據(jù))保護試行辦法(初稿)》,廣泛征求意見。
在政府的引導(dǎo)下,國內(nèi)銀行業(yè)金融機構(gòu)加快數(shù)據(jù)管理與治理的探索應(yīng)用節(jié)奏。
一是建立數(shù)據(jù)治理架構(gòu)。建立組織架構(gòu)健全、職責邊界清晰的數(shù)據(jù)治理架構(gòu),明確董事會、高級管理層、監(jiān)事會和相關(guān)部門的職責分工,建立多層次、相互銜接的運行機制。例如,中國銀行建立了集團數(shù)據(jù)治理架構(gòu)體系,制定并發(fā)布了數(shù)據(jù)治理框架政策、管理指引和操作流程,為全行數(shù)據(jù)管理和應(yīng)用提供了重要組織保障。華夏銀行針對外部數(shù)據(jù)資源的引入,成立了專業(yè)的外部數(shù)據(jù)引入委員會,整合需求、集約采購,實現(xiàn)了外部數(shù)據(jù)引入的共享與價值提升。
二是健全數(shù)據(jù)治理體系。圍繞數(shù)據(jù)的全生命周期管理,從數(shù)據(jù)質(zhì)量、數(shù)據(jù)流轉(zhuǎn)、數(shù)據(jù)權(quán)屬等方面入手,確立詳細的數(shù)據(jù)標準,建立一套完整的、動態(tài)調(diào)整的數(shù)據(jù)治理體系,保證數(shù)據(jù)的統(tǒng)一性、完整性、真實性和可用性。例如,中國工商銀行建立了統(tǒng)一的企業(yè)級數(shù)據(jù)標準,能夠覆蓋當事人、產(chǎn)品、協(xié)議、賬戶、介質(zhì)等十大標準主題,為大數(shù)據(jù)體系下的數(shù)據(jù)共享奠定了基礎(chǔ)。同時,建立了國內(nèi)金融行業(yè)首個全行級信息標準管理服務(wù)平臺,實現(xiàn)了數(shù)據(jù)標準的建立、變更、發(fā)布、查詢、廢止等全生命周期管理。
三是形成企業(yè)級數(shù)據(jù)治理解決方案。已有金融科技服務(wù)商開始輸出銀行數(shù)據(jù)治理解決方案,面向中小銀行提供全面服務(wù)。解決方案包括:“一行一策”,建立全行數(shù)據(jù)標準規(guī)范;開展元數(shù)據(jù)管理,梳理數(shù)據(jù)資產(chǎn)和數(shù)據(jù)關(guān)系;開展數(shù)據(jù)質(zhì)量監(jiān)控,全方位提升數(shù)據(jù)質(zhì)量;制定數(shù)據(jù)安全管理策略,保障數(shù)據(jù)資源安全。企業(yè)級數(shù)據(jù)治理解決方案全面提升了銀行業(yè)數(shù)據(jù)管理的效率。
案例1 金融壹賬通:基于大數(shù)據(jù)平臺的全流程數(shù)據(jù)治理方案[7]
中國平安旗下深圳壹賬通智能科技有限公司于2019年8月推出加馬數(shù)據(jù)治理解決方案。
該方案基于大數(shù)據(jù)平臺,打造六個模塊,構(gòu)建了全流程的數(shù)據(jù)治理方案。模塊一,開展數(shù)據(jù)標準檢索,幫助銀行制定一整套適合自身的數(shù)據(jù)標準規(guī)范,包含基礎(chǔ)類數(shù)據(jù)標準、分析類數(shù)據(jù)標準兩大類型,利用自然語言技術(shù)及知識圖譜技術(shù)幫助工作人員快速定位到相關(guān)的數(shù)據(jù)標準;模塊二,開展元數(shù)據(jù)管理,通過數(shù)據(jù)地圖等功能梳理出數(shù)據(jù)和數(shù)據(jù)之間的關(guān)系,可視化展示數(shù)據(jù)資產(chǎn)視圖,同時自動化分析數(shù)據(jù)流向及上下游血緣關(guān)系;模塊三,開展數(shù)據(jù)質(zhì)量監(jiān)控,提供變動異常掃描、標準質(zhì)量監(jiān)控等工具,一鍵生成質(zhì)量分析報告,幫助銀行實現(xiàn)智能數(shù)據(jù)質(zhì)量監(jiān)控;模塊四,開展數(shù)據(jù)安全管理,通過智能掃描識別敏感數(shù)據(jù)一鍵配置脫敏的方式解決大數(shù)據(jù)平臺上的海量數(shù)據(jù)識別脫敏問題,有效降低大數(shù)據(jù)平臺操作及數(shù)據(jù)泄露風險;模塊五,開展治理監(jiān)控分析,運用自然語言技術(shù)、維度自助下鉆技術(shù)等,自動了解用戶分析意圖,呈現(xiàn)數(shù)據(jù)治理相關(guān)監(jiān)控結(jié)果,方便進行自助探索分析;模塊六,開展智能數(shù)據(jù)報送,通過圖形化工具實現(xiàn)零代碼開發(fā)接入外部數(shù)據(jù),智能檢測外部數(shù)據(jù)質(zhì)量,提示風險預(yù)警。
該解決方案將無序數(shù)據(jù)關(guān)聯(lián)化、隱性數(shù)據(jù)顯性化、靜態(tài)數(shù)據(jù)動態(tài)化,部署時間比傳統(tǒng)的產(chǎn)品縮短1~2個月。經(jīng)過3個月在銀行真實數(shù)據(jù)治理環(huán)境中的落地檢驗后,該解決方案已被證明能夠降本增效,并與多家中小銀行達成合作意向。
案例2 聯(lián)通大數(shù)據(jù):數(shù)據(jù)聚合管控平臺解決方案[8]
聯(lián)通大數(shù)據(jù)有限公司于2019年為某省級農(nóng)商銀行推出數(shù)據(jù)聚合管控平臺解決方案。
該方案由“4平臺+1體系”組成,采用混合云大數(shù)據(jù)訪問服務(wù)模式,滿足先進性、易用性、安全性、可靠性、可擴展性等元組建設(shè)開發(fā)設(shè)計要求?!?平臺”是指數(shù)據(jù)接入管理平臺、數(shù)據(jù)服務(wù)發(fā)布平臺、數(shù)據(jù)服務(wù)管理平臺、數(shù)據(jù)服務(wù)計費平臺,“1體系”是指一套數(shù)據(jù)安全管控體系。該方案實現(xiàn)了外部合作數(shù)據(jù)資源的統(tǒng)一接入、集中管控和安全靈活服務(wù),有效進行了外部數(shù)據(jù)資源的集約化管理、規(guī)范化應(yīng)用。項目團隊基于搭建的銀行數(shù)據(jù)聚合管控平臺,接入聯(lián)通大數(shù)據(jù)數(shù)盾風控產(chǎn)品等多項成熟應(yīng)用以及銀行外部數(shù)據(jù)資源池,封裝后以可視化系統(tǒng)實現(xiàn)友好交互。
該方案推出后全面支撐某省級農(nóng)商銀行及其二級單位共56套業(yè)務(wù)系統(tǒng),在保障外部數(shù)據(jù)質(zhì)量和數(shù)據(jù)管控能力的基礎(chǔ)上,大大提升了銀行管理和運營效率,有效支撐了各部門的橫向協(xié)作,促進了數(shù)據(jù)與業(yè)務(wù)流程的整合。
(二)實時計算大數(shù)據(jù)解決方案
實時計算分析能力,正不斷成為衡量金融大數(shù)據(jù)應(yīng)用性能高低的核心指標。目前,信貸風控、精準營銷、交易預(yù)警和反欺詐等金融機構(gòu)最常見的大數(shù)據(jù)應(yīng)用都需要實時計算的強有力支撐。
以信貸風控為例,近年來隨著金融監(jiān)管力度的不斷加大,風控規(guī)則越來越多,風控計算復(fù)雜度越來越高,對實時計算分析能力的要求也隨之提高。信貸風控需要實時分析海量的用戶行為數(shù)據(jù),根據(jù)既定的規(guī)則計算出相應(yīng)的指標,并與風險模型進行匹配,第一時間判斷風險等級、發(fā)現(xiàn)異常事件,并采取相應(yīng)的風險控制措施,發(fā)出自動告警通知,改變業(yè)務(wù)流程。在金融交易場景中,風控系統(tǒng)如果不能實時觀察每一個賬戶的行為動態(tài),就可能因為1秒的延遲遺漏風險,造成重大損失。
以精準營銷和交易預(yù)警為例,精準營銷要求在客戶短暫的訪問與咨詢時間內(nèi)發(fā)現(xiàn)客戶的投資傾向,為其推薦適合的產(chǎn)品。交易預(yù)警場景要求大數(shù)據(jù)解決方案在秒級完成從事件發(fā)生到感知變化,再到輸出計算結(jié)果的整個過程,識別客戶行為的異常,并做出交易預(yù)警。
2019年,實時計算大數(shù)據(jù)解決方案得到更廣泛的應(yīng)用,滿足了低延時復(fù)雜應(yīng)用場景的需求。從性能來看,實時計算大數(shù)據(jù)解決方案能夠?qū)崟r處理海量數(shù)據(jù),打破傳統(tǒng)數(shù)據(jù)庫信息范圍限制,為模型的精準計算提供強有力的數(shù)據(jù)支持;能夠有效消除傳統(tǒng)數(shù)據(jù)庫對硬件資源的依賴,實現(xiàn)軟硬件的松耦合、存儲與計算等資源的在線靈活擴展;能夠?qū)崿F(xiàn)從采集到模型的全流程秒級實時響應(yīng),抵御超大規(guī)模行情的沖擊。
案例3 金仕達科技:基于流式計算的大數(shù)據(jù)異常交易管理系統(tǒng)[9]
上海金仕達軟件科技有限公司于2019年10月上線大數(shù)據(jù)異常交易智能管理系統(tǒng)。
該系統(tǒng)以分布式流式計算引擎為核心,抽取海量數(shù)據(jù)構(gòu)建監(jiān)控模型,使用機器學(xué)習訓(xùn)練模型,通過實時計算管理平臺,監(jiān)控分析客戶全業(yè)務(wù)交易行為,一網(wǎng)打盡事中、事后的異常交易行為,在證券公司內(nèi)部形成合規(guī)宣導(dǎo)長效機制。該系統(tǒng)部署靈活、周期短,可在不影響系統(tǒng)使用的前提下,與異常交易監(jiān)控系統(tǒng)V8版本無縫銜接,在模型精準性、監(jiān)控結(jié)果有效性及可視化展現(xiàn)方面取得了較大突破。
目前,金仕達大數(shù)據(jù)異常交易智能管理系統(tǒng)已在招商證券等多家證券公司順利上線并穩(wěn)定運行,獲得了客戶的積極反饋。該系統(tǒng)已實現(xiàn)高度精準的監(jiān)控結(jié)果預(yù)警,在500萬客戶規(guī)模的券商中每天預(yù)警數(shù)在5條以內(nèi)。系統(tǒng)在某券商再次取得監(jiān)控結(jié)果精準度的數(shù)量級提升,實現(xiàn)了預(yù)警內(nèi)容對函件范圍的100%覆蓋,徹底突破了大量無效預(yù)警結(jié)果造成的工作量瓶頸,在真正意義上實現(xiàn)了工作效率的大幅提升。
(三)數(shù)據(jù)中臺服務(wù)體系
2019年,數(shù)據(jù)中臺的概念從互聯(lián)網(wǎng)行業(yè)一路火到了金融領(lǐng)域。數(shù)據(jù)中臺為金融領(lǐng)域數(shù)據(jù)體系注入了新活力,正成為金融領(lǐng)域?qū)崿F(xiàn)共享服務(wù)、支撐業(yè)務(wù)創(chuàng)新的有效舉措,也是未來的發(fā)展趨勢。構(gòu)建數(shù)據(jù)中臺服務(wù)體系,對金融企業(yè)與金融科技企業(yè)都大有裨益。
對于金融企業(yè)來說,數(shù)據(jù)中臺是鏈接前臺業(yè)務(wù)系統(tǒng)和后臺數(shù)據(jù)系統(tǒng)之間數(shù)據(jù)和能力的一條快速通道。數(shù)據(jù)中臺將前臺中的共性需求進行抽象,打造為平臺化、組件化的技術(shù)能力,歸并下沉到中臺層,以接口、組件等形式共享給各前臺業(yè)務(wù)單元使用,以“小前臺”提供靈活多變的業(yè)務(wù)。同時,數(shù)據(jù)中臺將后臺中的共用技術(shù)能力歸并上浮到中臺層,獨立強化發(fā)展,實現(xiàn)對前端多業(yè)務(wù)服務(wù)線的靈活賦能。數(shù)據(jù)中臺為前臺的業(yè)務(wù)團隊、客戶經(jīng)理、財富顧問與后臺的數(shù)據(jù)專家、算法模型專家、人工智能專家架起了一座強有力的支撐橋梁,基于這種模式,業(yè)務(wù)團隊專注于產(chǎn)品的具體邏輯與業(yè)務(wù)管理流程,數(shù)據(jù)專家則專注于加速從數(shù)據(jù)到價值的過程,提高對業(yè)務(wù)的響應(yīng)能力。
對于金融科技企業(yè)來說,數(shù)據(jù)中臺是開發(fā)標準化產(chǎn)品的重要契機。金融科技企業(yè)一般以提供定制化解決方案為主,根據(jù)金融企業(yè)的實際業(yè)務(wù)需求,有針對性地開展合作?;跀?shù)據(jù)中臺的模式,金融科技企業(yè)開始嘗試輸出包含標準化平臺與個性化功能模塊在內(nèi)的成熟產(chǎn)品,既可有效降低企業(yè)的邊際開發(fā)成本,提高企業(yè)利潤,又能提升產(chǎn)品性能。
案例4 民生銀行:數(shù)據(jù)中臺體系[10]
民生銀行于2019年公開了數(shù)據(jù)中臺體系建設(shè)與實踐過程。
民生銀行結(jié)合自身技術(shù)積累與業(yè)務(wù)經(jīng)營需求,對數(shù)據(jù)中臺建設(shè)從技術(shù)平臺和數(shù)據(jù)交付兩個層面制定目標。技術(shù)平臺方面,民生銀行建立了由4大功能體系、12個子系統(tǒng)構(gòu)成的金融數(shù)據(jù)中臺體系,數(shù)據(jù)中臺核心運轉(zhuǎn)模式由Engine引擎體系、Service服務(wù)體系、Open路由體系、Plus管理體系核心組件協(xié)同運轉(zhuǎn)完成。數(shù)據(jù)交付方面,民生銀行提出了一套“場景分區(qū)+技術(shù)分級”的數(shù)據(jù)中臺場景服務(wù)管理方案,形成了由11項業(yè)務(wù)場景、4級服務(wù)組成的數(shù)據(jù)服務(wù)管理矩陣,其中4級服務(wù)包括對客服務(wù)類、客戶經(jīng)理類、內(nèi)部管理類、監(jiān)控查控類。通過技術(shù)平臺的技術(shù)分區(qū)和數(shù)據(jù)內(nèi)容的服務(wù)分級建設(shè)思路,數(shù)據(jù)中臺在為各業(yè)務(wù)場景快速提供在線數(shù)據(jù)價值輸出的同時,也能夠做到數(shù)據(jù)使用的管控和跟蹤。
目前,民生銀行數(shù)據(jù)中臺體系取得了較好的成效。支撐小微3.0新模式探索,全技術(shù)架構(gòu)實現(xiàn)了中臺化,實現(xiàn)了多項業(yè)務(wù)領(lǐng)域創(chuàng)新性應(yīng)用的落地。助力互聯(lián)網(wǎng)金融數(shù)字化運營,打通了管理駕駛艙和線上服務(wù)平臺的數(shù)據(jù)鏈路,已完成首家分行試點,試點行在2019年第一季度實現(xiàn)理財資產(chǎn)增加20余億元,代發(fā)目標客群資金留存率提升3.41個百分點,累計帶來行外資產(chǎn)40余億元。
參考文獻
陳晨:《一篇文章讓你了解大數(shù)據(jù)采集技術(shù)》,CSDN網(wǎng)站,2018年11月1日,https://blog.csdn.net/cqacrh2798/article/details/83617134。
陳純:《流式大數(shù)據(jù)實時處理技術(shù)、平臺及應(yīng)用》,《大數(shù)據(jù)》2017年第4期。
陳永堅:《大數(shù)據(jù)技術(shù)與金融行業(yè)的深度融合研究》,《中國商論》2020年第4期。
丁曉平:《大數(shù)據(jù)時代商業(yè)銀行數(shù)據(jù)治理》,《中國銀行業(yè)》2019年第11期。
杜小勇、陳躍國、范舉、盧衛(wèi):《數(shù)據(jù)整理——大數(shù)據(jù)治理的關(guān)鍵技術(shù)》,《大數(shù)據(jù)》2019年第3期。
高尚:《從金融科技創(chuàng)新到金融模式變革——流式計算在信用卡實時大數(shù)據(jù)應(yīng)用領(lǐng)域的研究》,《國際金融》2018年第6期。
何鵬、周禮、羅京:《民生銀行數(shù)據(jù)中臺體系建設(shè)實踐》,《金融電子化》2019年第7期。
孔欽、葉長青、孫赟:《大數(shù)據(jù)下數(shù)據(jù)預(yù)處理方法研究》,《計算機技術(shù)與發(fā)展》2018年第5期。
潘光偉:《提升數(shù)據(jù)治理能力 構(gòu)筑共治共享行業(yè)新生態(tài)》,《中國銀行業(yè)》2019年第12期。
《企業(yè)數(shù)字化轉(zhuǎn)型的加速引擎——2019年中國數(shù)字中臺行業(yè)研究報告》,艾瑞咨詢系列研究報告,2019年11月。
孫冰:《數(shù)據(jù)隱私保衛(wèi)戰(zhàn) 爬蟲背后的灰色大生意》,《中國經(jīng)濟周刊》2019年第20期。
謝瑋、宋杰:《“爬蟲”怎么成了“害蟲”?》,《中國經(jīng)濟周刊》2019年第20期。
《一文梳理大數(shù)據(jù)四大方面十五大關(guān)鍵技術(shù)》,CDA數(shù)據(jù)分析師網(wǎng)站,2016年11月30日,http://cda.pinggu.org/view/20910.html。
中國信息通信研究院:《大數(shù)據(jù)白皮書(2019年)》,2019年12月。
中國信息通信研究院:《中國金融科技生態(tài)白皮書(2019年)》,2019年7月。
[1] 王強,中國信息通信研究院人工智能與數(shù)據(jù)治理研究中心副主任,主要從事大數(shù)據(jù)、人工智能、區(qū)塊鏈等領(lǐng)域的研究與咨詢。邱艷娟,中國信息通信研究院主任工程師,主要從事人工智能、大數(shù)據(jù)、數(shù)字經(jīng)濟等領(lǐng)域的研究與咨詢。李曼,中國信息通信研究院工程師,主要從事大數(shù)據(jù)、人工智能等領(lǐng)域的研究與咨詢。
[2] 中國信息通信研究院:《中國數(shù)字經(jīng)濟發(fā)展白皮書(2020年)》,2020年7月。
[3] 《公安機關(guān)開展App違法采集個人信息集中整治》,人民網(wǎng),2019年12月4日。
[4] 數(shù)據(jù)來源于工業(yè)和信息化部網(wǎng)站。
[5] 《英特爾oneAPI:一個針對異構(gòu)計算以開發(fā)者為中心的平臺》,驅(qū)動中國網(wǎng)站,2019年11月22日。
[6] 中小銀行互聯(lián)網(wǎng)金融(深圳)聯(lián)盟、金融壹賬通:《中小銀行數(shù)據(jù)治理研究報告》,2019年11月。
[7] 《中國數(shù)字銀行論壇桂林論壇召開 國內(nèi)首個全流程數(shù)據(jù)治理方案亮相》,新華網(wǎng),2019年8月14日。
[8] 《聯(lián)通大數(shù)據(jù)助力某省級農(nóng)商銀行打造“數(shù)據(jù)聚合管控”標桿案例》,C114通信網(wǎng),2019年8月20日。
[9] 《金仕達實時大數(shù)據(jù)產(chǎn)品——異常交易智能管理系統(tǒng)全新上線》,網(wǎng)易號,2019年10月28日。
[10] 何鵬、周禮、羅京:《民生銀行數(shù)據(jù)中臺體系建設(shè)實踐》,《金融電子化》2019年第7期。
- 玩的就是信用卡
- 投資人看世界:數(shù)智時代投資新賽道
- 打開對沖基金的黑箱(原書第2版)
- 融資有道:中國中小企業(yè)融資財務(wù)運作與經(jīng)典案例解析(精華版Ⅲ)
- 互聯(lián)網(wǎng)+融資必讀
- 如何投資數(shù)字貨幣
- 共富時代的大國金融
- 基金定投:投資小白盈利指南
- 中國對外直接投資:戰(zhàn)略、機制與挑戰(zhàn)
- PPP投融資模式下的操作流程的合規(guī)性分析
- 保險營銷實務(wù)技能訓(xùn)練
- 操盤手記:KDJ指標技術(shù)分析入門與實戰(zhàn)精解
- 私人財富保障與傳承實務(wù)全書
- 石油產(chǎn)業(yè)發(fā)展的組織社會學(xué)分析
- 投資大師講的理財課