官术网_书友最值得收藏!

技術(shù)篇:可應(yīng)用于金融的科技探索
Technology Part:Technology Exploration Applicable to Finance

第一章 大數(shù)據(jù)技術(shù)及其應(yīng)用

王強(qiáng) 邱艷娟 李曼[1]

摘要:數(shù)據(jù)是數(shù)字經(jīng)濟(jì)時(shí)代的生產(chǎn)要素,基于大數(shù)據(jù)的生產(chǎn)變革和業(yè)務(wù)模式創(chuàng)新驅(qū)動(dòng)全球范圍內(nèi)經(jīng)濟(jì)社會(huì)各個(gè)領(lǐng)域的數(shù)字化、智能化轉(zhuǎn)型。合規(guī)合法、有效利用大數(shù)據(jù)技術(shù)開展創(chuàng)新應(yīng)用,成為金融機(jī)構(gòu)高質(zhì)量發(fā)展的核心競(jìng)爭(zhēng)指標(biāo)之一。2019年,大數(shù)據(jù)整體呈理性合規(guī)發(fā)展的趨勢(shì),大數(shù)據(jù)產(chǎn)業(yè)發(fā)展進(jìn)入一個(gè)全新的環(huán)境。在國家重視數(shù)據(jù)資源、部委強(qiáng)化大數(shù)據(jù)合規(guī)發(fā)展監(jiān)管的整體態(tài)勢(shì)下,金融機(jī)構(gòu)對(duì)數(shù)據(jù)資產(chǎn)管理與治理也更加重視,同時(shí)積極提升大數(shù)據(jù)實(shí)時(shí)計(jì)算能力,以數(shù)據(jù)中臺(tái)戰(zhàn)略提升大數(shù)據(jù)分析能力,更好地支撐精準(zhǔn)營(yíng)銷、信貸風(fēng)控、交易預(yù)警、反欺詐等金融大數(shù)據(jù)應(yīng)用。

關(guān)鍵詞:數(shù)據(jù)治理 個(gè)人信息保護(hù) 金融大數(shù)據(jù) 實(shí)時(shí)計(jì)算分析 數(shù)據(jù)中臺(tái)

一 大數(shù)據(jù)發(fā)展整體態(tài)勢(shì)

2019年是大數(shù)據(jù)發(fā)展值得銘記的重要一年。黨中央、國務(wù)院持續(xù)推進(jìn)大數(shù)據(jù)、互聯(lián)網(wǎng)、人工智能與實(shí)體經(jīng)濟(jì)深度融合,加大數(shù)字經(jīng)濟(jì)發(fā)展支持力度,明確數(shù)據(jù)資源在經(jīng)濟(jì)制度中的重要地位,可謂大數(shù)據(jù)發(fā)展歷程中的又一里程碑。2019年1~12月,貫穿全年的高壓監(jiān)管工作將大數(shù)據(jù)技術(shù)公司從幕后推向臺(tái)前,從部委的個(gè)人信息保護(hù)監(jiān)管舉措到地方的數(shù)據(jù)管理辦法,國家關(guān)于數(shù)據(jù)治理的態(tài)度逐步明朗化,大數(shù)據(jù)行業(yè)正全面邁向合規(guī)合法的發(fā)展道路。雙重關(guān)鍵因素的疊加,使得大數(shù)據(jù)在2019年幾近重生。

(一)數(shù)據(jù)資源的地位實(shí)現(xiàn)歷史性跨越

近年來,數(shù)字經(jīng)濟(jì)成為全球經(jīng)濟(jì)增長(zhǎng)的關(guān)鍵動(dòng)力,也成為我國經(jīng)濟(jì)發(fā)展的新引擎。黨中央、國務(wù)院高度重視數(shù)字經(jīng)濟(jì)發(fā)展。習(xí)近平總書記多次強(qiáng)調(diào)要構(gòu)建以數(shù)據(jù)為關(guān)鍵要素的數(shù)字經(jīng)濟(jì),在創(chuàng)新、協(xié)調(diào)、綠色、開放、共享的新發(fā)展理念指引下,推進(jìn)數(shù)字產(chǎn)業(yè)化、產(chǎn)業(yè)數(shù)字化,引導(dǎo)數(shù)字經(jīng)濟(jì)和實(shí)體經(jīng)濟(jì)深度融合。李克強(qiáng)總理指出,要壯大數(shù)字經(jīng)濟(jì),堅(jiān)持包容審慎監(jiān)管,支持新業(yè)態(tài)、新模式發(fā)展,促進(jìn)平臺(tái)經(jīng)濟(jì)、共享經(jīng)濟(jì)健康成長(zhǎng)。2019年,我國數(shù)字經(jīng)濟(jì)增加值規(guī)模達(dá)到35.8萬億元,占GDP的比重達(dá)到36.2%,對(duì)經(jīng)濟(jì)增長(zhǎng)的貢獻(xiàn)率為67.7%[2],數(shù)字經(jīng)濟(jì)成為構(gòu)建現(xiàn)代化經(jīng)濟(jì)體系的重要內(nèi)容。

為貫徹落實(shí)黨中央、國務(wù)院關(guān)于數(shù)字經(jīng)濟(jì)發(fā)展的戰(zhàn)略部署,2019年11月國家發(fā)展改革委、中央網(wǎng)信辦聯(lián)合印發(fā)《國家數(shù)字經(jīng)濟(jì)創(chuàng)新發(fā)展試驗(yàn)區(qū)實(shí)施方案》,圍繞解決數(shù)字經(jīng)濟(jì)發(fā)展關(guān)鍵問題,發(fā)揮一些地區(qū)在數(shù)字經(jīng)濟(jì)發(fā)展中的示范帶動(dòng)作用,探索數(shù)字經(jīng)濟(jì)發(fā)展和產(chǎn)業(yè)轉(zhuǎn)型升級(jí)的路徑與模式,并啟動(dòng)了浙江省、河北省(雄安新區(qū))、福建省、廣東省、重慶市、四川省6個(gè)國家數(shù)字經(jīng)濟(jì)創(chuàng)新發(fā)展試驗(yàn)區(qū)的建設(shè)工作。

數(shù)字經(jīng)濟(jì)最鮮明的特點(diǎn)是以數(shù)據(jù)為關(guān)鍵要素,在數(shù)據(jù)經(jīng)濟(jì)蓬勃發(fā)展的當(dāng)下,黨中央更是創(chuàng)新性地提出數(shù)據(jù)也是社會(huì)主義基本經(jīng)濟(jì)制度的生產(chǎn)要素。黨的十九屆四中全會(huì)提出,要健全勞動(dòng)、資本、土地、知識(shí)、技術(shù)、管理、數(shù)據(jù)等生產(chǎn)要素由市場(chǎng)評(píng)價(jià)貢獻(xiàn)、按貢獻(xiàn)決定報(bào)酬的機(jī)制。這是黨中央首次提出將數(shù)據(jù)作為生產(chǎn)要素參與收益分配,提升了數(shù)據(jù)資源的地位,充分體現(xiàn)了我國社會(huì)主義基本經(jīng)濟(jì)制度的與時(shí)俱進(jìn),以及黨中央對(duì)數(shù)字經(jīng)濟(jì)發(fā)展的重視。

(二)行業(yè)高壓監(jiān)管,加強(qiáng)數(shù)據(jù)治理

隨著移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展,大眾出行、社交娛樂、通信購物、教育醫(yī)療等日常生活越來越離不開各類手機(jī)App。從線下到PC線上,從PC線上到手機(jī)線上,個(gè)人信息采集獲取的渠道更廣、難度更低,數(shù)據(jù)資源也變得維度更豐富、規(guī)模更龐大。但與此同時(shí),App用戶隱私協(xié)議不規(guī)范、強(qiáng)制授權(quán)、過度索權(quán)、超范圍收集個(gè)人信息的現(xiàn)象大量存在,大數(shù)據(jù)公司違法違規(guī)使用個(gè)人信息的問題十分突出。個(gè)人信息濫采濫用的一系列問題,影響和制約了我國數(shù)字經(jīng)濟(jì)的持續(xù)健康發(fā)展。

2019年伊始,國家就釋放出加強(qiáng)數(shù)據(jù)治理、規(guī)范個(gè)人信息收集使用的強(qiáng)信號(hào)。2019年1月,由中央網(wǎng)信辦、工業(yè)和信息化部、公安部、國家市場(chǎng)監(jiān)管總局四部門聯(lián)合發(fā)布《關(guān)于開展App違法違規(guī)收集使用個(gè)人信息專項(xiàng)治理的公告》,打響了2019年數(shù)據(jù)專項(xiàng)治理的第一槍。2019年12月,四部門又聯(lián)合印發(fā)了《App違法違規(guī)收集使用個(gè)人信息行為認(rèn)定方法》,旨在為監(jiān)督管理部門認(rèn)定App違法違規(guī)收集使用個(gè)人信息行為提供參考,為App運(yùn)營(yíng)者自查自糾和網(wǎng)民社會(huì)監(jiān)督提供指引。2019年,公安部加大了App違法違規(guī)采集個(gè)人信息集中整治力度,共查處違法違規(guī)采集個(gè)人信息的App 683款。[3]2019年11月,工業(yè)和信息化部發(fā)布了《關(guān)于開展App侵害用戶權(quán)益專項(xiàng)整治工作的通知》,自查自糾階段共有8000多款A(yù)pp完成整改,并于2020年1月通報(bào)了56款尚未完成整改的App。[4]此外,中國人民銀行重點(diǎn)關(guān)注個(gè)人金融信息保護(hù),于2019年10月下發(fā)了《個(gè)人金融信息(數(shù)據(jù))保護(hù)試行辦法(初稿)》,表示將加大對(duì)違規(guī)采集、使用個(gè)人征信信息的懲處力度。

高壓監(jiān)管之下,多家爬蟲技術(shù)與大數(shù)據(jù)風(fēng)控機(jī)構(gòu)接連被查,大數(shù)據(jù)行業(yè)重新洗牌。2019年9月6日,第三方數(shù)據(jù)風(fēng)控公司魔蝎數(shù)據(jù)和新顏科技的相關(guān)負(fù)責(zé)人在同一天被警方帶走調(diào)查。之后,聚信立、天翼征信、公信寶、同盾科技子公司、51信用卡等諸多公司也相繼被查。2019年11月20日,江蘇淮安警方依法打擊了7家涉嫌侵犯公民個(gè)人信息犯罪的公司,涉嫌非法緩存公民個(gè)人信息1億多條。上述大數(shù)據(jù)公司被查與其開展的爬蟲業(yè)務(wù)有關(guān),而這些爬蟲業(yè)務(wù)主要服務(wù)于互聯(lián)網(wǎng)金融機(jī)構(gòu)。作為互聯(lián)網(wǎng)金融業(yè)大數(shù)據(jù)風(fēng)控的關(guān)鍵一環(huán),提供數(shù)據(jù)支撐的這些第三方大數(shù)據(jù)公司在經(jīng)歷了前幾年的輝煌之后,終于迎來了最強(qiáng)監(jiān)管浪潮。

數(shù)據(jù)治理之網(wǎng)已經(jīng)打開,大數(shù)據(jù)發(fā)展和利用進(jìn)入正規(guī)化管理的新階段。隨著戰(zhàn)略地位的拔高、監(jiān)管的深度介入、從業(yè)門檻的陡然提升,大數(shù)據(jù)產(chǎn)業(yè)發(fā)展進(jìn)入一個(gè)全新的環(huán)境,大數(shù)據(jù)技術(shù)與應(yīng)用也在不斷應(yīng)對(duì)新的變化,需要持續(xù)創(chuàng)新。

二 大數(shù)據(jù)基礎(chǔ)技術(shù)

大數(shù)據(jù)技術(shù)體系發(fā)展至今,不斷得到充實(shí)與完善,與互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、人工智能等其他信息通信技術(shù)融合交匯,現(xiàn)已較為成熟。圍繞數(shù)據(jù)資源的全生命周期過程,大數(shù)據(jù)基礎(chǔ)技術(shù)包含大數(shù)據(jù)采集技術(shù)、大數(shù)據(jù)預(yù)處理技術(shù)、大數(shù)據(jù)存儲(chǔ)與計(jì)算技術(shù)、大數(shù)據(jù)分析技術(shù)等。

(一)大數(shù)據(jù)采集技術(shù)

大數(shù)據(jù)采集是大數(shù)據(jù)生命周期的第一個(gè)環(huán)節(jié)。隨著各類技術(shù)和應(yīng)用的發(fā)展,數(shù)據(jù)來源多種多樣,除了傳統(tǒng)的關(guān)系型數(shù)據(jù)庫外,還包括眾多非結(jié)構(gòu)化數(shù)據(jù)庫,以及互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等。數(shù)據(jù)類型也越來越豐富,包括原有的結(jié)構(gòu)化數(shù)據(jù),但更多的是半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。按照數(shù)據(jù)來源不同,大數(shù)據(jù)采集技術(shù)和方法也存在較大差異,下面按照數(shù)據(jù)庫數(shù)據(jù)采集、網(wǎng)絡(luò)數(shù)據(jù)采集、物聯(lián)網(wǎng)數(shù)據(jù)采集分類說明。

1.數(shù)據(jù)庫數(shù)據(jù)采集

數(shù)據(jù)庫數(shù)據(jù)采集因數(shù)據(jù)庫類型不同以及其中存儲(chǔ)的數(shù)據(jù)類型是結(jié)構(gòu)化還是非結(jié)構(gòu)化而有所不同。

針對(duì)傳統(tǒng)關(guān)系型數(shù)據(jù)庫,數(shù)據(jù)采集一般采用ETL(數(shù)據(jù)抽取、轉(zhuǎn)換和加載)工具、SQL編碼、ETL工具與SQL編碼相結(jié)合三種方式。ETL工具經(jīng)過多年的發(fā)展,已經(jīng)形成了相對(duì)成熟的產(chǎn)品體系,尤其是針對(duì)傳統(tǒng)關(guān)系型數(shù)據(jù)庫,典型代表包括Oracle的OWB、IBM的Datastage、Microsoft的DTS、Informatica的PowerCenter等。借助ETL工具可以實(shí)現(xiàn)數(shù)據(jù)庫數(shù)據(jù)的快速采集及預(yù)處理,屏蔽復(fù)雜的編碼任務(wù),也可提高速度、降低難度,但是缺乏靈活性。通過SQL編碼方式實(shí)現(xiàn)數(shù)據(jù)庫數(shù)據(jù)采集,相較于使用ETL工具更加靈活,可以提高數(shù)據(jù)采集及預(yù)處理的效率,但是編碼復(fù)雜,對(duì)技術(shù)的要求比較高。ETL工具與SQL編碼相結(jié)合可以綜合前兩種方式的優(yōu)點(diǎn),極大地提高數(shù)據(jù)采集及預(yù)處理的速度和效率。

針對(duì)非結(jié)構(gòu)化數(shù)據(jù)庫采集以及不同類型數(shù)據(jù)庫之間的數(shù)據(jù)傳遞,目前用得比較多的是一些開源項(xiàng)目提供的ETL工具,典型代表包括Sqoop、Kettle和Talend等,專為大數(shù)據(jù)而設(shè)計(jì),可兼顧離線和實(shí)時(shí)數(shù)據(jù)采集,實(shí)現(xiàn)主流非結(jié)構(gòu)化數(shù)據(jù)庫(如HDFS、HBase及其他主流NoSQL數(shù)據(jù)庫)與傳統(tǒng)關(guān)系型數(shù)據(jù)庫(如MySQL、Oracle、PostgreSQL等)之間的數(shù)據(jù)雙向傳遞。

相對(duì)來說,數(shù)據(jù)庫數(shù)據(jù)的價(jià)值密度較大,主要通過日志文件、系統(tǒng)接口函數(shù)等方式采集,采集技術(shù)規(guī)范,可用工具較多,面向不同類型數(shù)據(jù)庫的統(tǒng)一采集技術(shù)將成為未來的重要發(fā)展趨勢(shì)。

2.網(wǎng)絡(luò)數(shù)據(jù)采集

網(wǎng)絡(luò)數(shù)據(jù)采集根據(jù)采集的數(shù)據(jù)類型不同可以分為互聯(lián)網(wǎng)內(nèi)容數(shù)據(jù)采集和網(wǎng)絡(luò)日志采集兩類。

互聯(lián)網(wǎng)內(nèi)容數(shù)據(jù)采集主要是利用網(wǎng)絡(luò)爬蟲技術(shù)和網(wǎng)站公開的應(yīng)用編程接口(Application Programming Interface,API)等方式,輔以分詞系統(tǒng)、任務(wù)與索引系統(tǒng)的綜合運(yùn)用實(shí)現(xiàn)從網(wǎng)站上獲取內(nèi)容數(shù)據(jù)的過程。這種方式可將互聯(lián)網(wǎng)上的半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁中提取出來,并以結(jié)構(gòu)化的方式將其存儲(chǔ)為統(tǒng)一的本地?cái)?shù)據(jù)文件,支持圖片、音頻、視頻等文件或附件的采集以及自動(dòng)關(guān)聯(lián)。網(wǎng)絡(luò)爬蟲是一種按照一定規(guī)則,自動(dòng)抓取互聯(lián)網(wǎng)內(nèi)容的程序或者腳本。網(wǎng)絡(luò)爬蟲技術(shù)最早主要運(yùn)用在搜索引擎中,互聯(lián)網(wǎng)搜索引擎與網(wǎng)頁持有者之間通過Robots協(xié)議約定哪些信息可以被爬取、哪些信息不該被爬取。

網(wǎng)絡(luò)日志采集目前用得比較多的是開源日志采集系統(tǒng),典型代表包括Flume、Scribe、Logstash、Fluentd等。Flume是Cloudera貢獻(xiàn)給Apache的一個(gè)開源日志采集系統(tǒng)項(xiàng)目,具有高可用性、高可靠性和分布式的特點(diǎn),可以實(shí)現(xiàn)海量日志的實(shí)時(shí)動(dòng)態(tài)采集、聚合和傳輸。Scribe是Facebook的開源日志采集系統(tǒng)項(xiàng)目,具有可擴(kuò)展性和高容錯(cuò)的特點(diǎn),可以實(shí)現(xiàn)日志的分布式采集和統(tǒng)一處理。Logstash部署使用相對(duì)簡(jiǎn)單,更加注重日志數(shù)據(jù)的預(yù)處理,可以為后續(xù)日志解析做好鋪墊。Fluentd的部署與Flume比較相似,擴(kuò)展性非常好,應(yīng)用也相當(dāng)廣泛。

隨著大數(shù)據(jù)時(shí)代的到來,一些大數(shù)據(jù)公司不再受Robots協(xié)議的約束,利用網(wǎng)絡(luò)爬蟲技術(shù)爬取一切可爬取的內(nèi)容,包括電商、外賣、地圖、共享單車等各類平臺(tái)的用戶個(gè)人信息,以及用戶的通信錄、上網(wǎng)地址、收貨地址、聊天記錄、搜索記錄、支付記錄等信息。大數(shù)據(jù)公司利用爬取到的用戶個(gè)人信息進(jìn)行精準(zhǔn)用戶畫像,開展精準(zhǔn)營(yíng)銷和廣告推送,產(chǎn)生了良好效益。但也有一些大數(shù)據(jù)公司通過直接銷售用戶個(gè)人信息以獲利,造成了巨大的不良影響。上述違法違規(guī)行為的大量存在終于在2019年迎來了行業(yè)監(jiān)管的重錘,多部門聯(lián)合開展違法違規(guī)采集個(gè)人信息集中整治,逐步推進(jìn)網(wǎng)絡(luò)爬蟲技術(shù)的合規(guī)使用和大數(shù)據(jù)采集的規(guī)范發(fā)展。

3.物聯(lián)網(wǎng)數(shù)據(jù)采集

無論是消費(fèi)物聯(lián)網(wǎng)、產(chǎn)業(yè)物聯(lián)網(wǎng),還是智慧城市物聯(lián)網(wǎng),都可能涉及RFID電子標(biāo)簽、定位裝置、紅外感應(yīng)裝置、激光雷達(dá)以及多種傳感器等裝置,可以說物聯(lián)網(wǎng)終端設(shè)備的作用就是采集物聯(lián)網(wǎng)數(shù)據(jù),可能涉及對(duì)聲音、光照、熱度、電流、壓力、位置、生物特征等各類數(shù)據(jù)的采集。物聯(lián)網(wǎng)數(shù)據(jù)涉及范圍廣,數(shù)據(jù)相對(duì)分散,數(shù)據(jù)類型差異巨大,數(shù)據(jù)采集方法和采集手段也存在較大差異。

金融行業(yè)大數(shù)據(jù)應(yīng)用對(duì)物聯(lián)網(wǎng)數(shù)據(jù)利用較少,主要還是借助外部網(wǎng)絡(luò)數(shù)據(jù)與內(nèi)部數(shù)據(jù)庫系統(tǒng)數(shù)據(jù)融合實(shí)現(xiàn)眾多金融大數(shù)據(jù)應(yīng)用創(chuàng)新。例如,金融機(jī)構(gòu)通過采集互聯(lián)網(wǎng)用戶的微博內(nèi)容數(shù)據(jù)、社交媒體數(shù)據(jù)、電商交易數(shù)據(jù)等對(duì)用戶的信用等級(jí)進(jìn)行綜合評(píng)估;證券分析機(jī)構(gòu)通過采集新聞、股票論壇信息、上市公司公告、行業(yè)研究報(bào)告、股票交易數(shù)據(jù)、市場(chǎng)行情數(shù)據(jù)等,構(gòu)建分析模型,分析挖掘各類事件對(duì)股市以及某只股票價(jià)格走向的影響;監(jiān)管機(jī)構(gòu)通過采集社交媒體數(shù)據(jù)、網(wǎng)絡(luò)新聞數(shù)據(jù)、網(wǎng)絡(luò)輿情數(shù)據(jù)等,與監(jiān)管機(jī)構(gòu)自有數(shù)據(jù)庫數(shù)據(jù)進(jìn)行對(duì)比分析,可發(fā)現(xiàn)潛在風(fēng)險(xiǎn),向投資者發(fā)布風(fēng)險(xiǎn)提示,并采取適當(dāng)監(jiān)管措施以維持金融市場(chǎng)穩(wěn)定。隨著個(gè)人信息保護(hù)力度的逐步加大和大數(shù)據(jù)監(jiān)管體系的日益完善,金融相關(guān)大數(shù)據(jù)的采集也將逐步走上合規(guī)化道路。

(二)大數(shù)據(jù)預(yù)處理技術(shù)

大數(shù)據(jù)分析與挖掘所需的數(shù)據(jù)往往是通過多個(gè)渠道采集的多種類型的數(shù)據(jù),通過上述大數(shù)據(jù)采集技術(shù)采集到的數(shù)據(jù)往往存在數(shù)據(jù)冗余、數(shù)據(jù)缺值、數(shù)據(jù)沖突等數(shù)據(jù)質(zhì)量問題,需要通過大數(shù)據(jù)預(yù)處理技術(shù)提高數(shù)據(jù)質(zhì)量,使數(shù)據(jù)更符合分析挖掘需要,以保證大數(shù)據(jù)分析的正確性和有效性,獲得高質(zhì)量的分析挖掘結(jié)果。大數(shù)據(jù)預(yù)處理技術(shù)可以對(duì)采集到的原始數(shù)據(jù)進(jìn)行清洗、填補(bǔ)、平滑、合并、規(guī)格化以及一致性檢查等操作,將雜亂無章的原始數(shù)據(jù)轉(zhuǎn)化為相對(duì)單一且便于處理的結(jié)構(gòu)類型,為后期的大數(shù)據(jù)分析挖掘奠定基礎(chǔ)。大數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換以及數(shù)據(jù)歸約四大部分。

1.數(shù)據(jù)清理

數(shù)據(jù)清理主要是通過檢測(cè)數(shù)據(jù)中存在的冗余、錯(cuò)誤、不一致等問題,利用各種清洗技術(shù)去除噪聲數(shù)據(jù),形成一致性數(shù)據(jù)集合,包括清除重復(fù)數(shù)據(jù)、填充缺失數(shù)據(jù)、消除噪聲數(shù)據(jù)等。清除重復(fù)數(shù)據(jù)一般采用相似度計(jì)算等統(tǒng)計(jì)分析方法。針對(duì)缺失數(shù)據(jù)的處理方式有兩種:一種是忽略不完整數(shù)據(jù),即清除缺失數(shù)據(jù);另一種是通過統(tǒng)計(jì)學(xué)方法、分類或聚類方法填充缺失數(shù)據(jù),以確保數(shù)據(jù)可用。在實(shí)際應(yīng)用中,數(shù)據(jù)采集過程中還會(huì)由于多種原因產(chǎn)生大量的噪聲數(shù)據(jù)(在合理的數(shù)據(jù)域之外),如果不加以處理,會(huì)造成后續(xù)分析挖掘結(jié)果不準(zhǔn)確、不可靠。常用的消除噪聲數(shù)據(jù)的方法包括分箱、聚類、回歸等統(tǒng)計(jì)學(xué)方法和數(shù)學(xué)方法。

主要的數(shù)據(jù)清洗工具包括前文所述的Sqoop、Kettle、Talend以及Apache Camel、Apache Kafka、Apatar、Heka、Scriptella等開源ETL工具。此外,Potter’s Wheel應(yīng)用也較多,此款數(shù)據(jù)清理工具交互性強(qiáng),還集成了偏差檢測(cè)和數(shù)據(jù)變換功能。

2.數(shù)據(jù)集成

數(shù)據(jù)集成是指將來源于多個(gè)數(shù)據(jù)源的異構(gòu)數(shù)據(jù)合并,存放到一個(gè)一致的數(shù)據(jù)庫中。這一過程主要涉及模式匹配、數(shù)據(jù)冗余、數(shù)據(jù)值沖突的檢測(cè)與處理,主要工具仍是上文提到的開源ETL工具。模式匹配主要用于發(fā)現(xiàn)并映射兩個(gè)或多個(gè)異構(gòu)數(shù)據(jù)源之間的屬性對(duì)應(yīng)關(guān)系,樸素貝葉斯、Stacking等機(jī)器學(xué)習(xí)算法在模式匹配中應(yīng)用較為廣泛。數(shù)據(jù)冗余可能源于數(shù)據(jù)屬性命名的不一致,可以利用皮爾遜積矩相關(guān)系數(shù)(Pearson Product-moment Correlation Coefficient)來衡量數(shù)據(jù)屬性命名的一致性,其絕對(duì)值越大表明兩者之間的相關(guān)性越強(qiáng)。數(shù)據(jù)值沖突主要表現(xiàn)為來源不同的同一實(shí)體具有不同的數(shù)據(jù)值,針對(duì)數(shù)據(jù)值沖突問題有時(shí)需要輔以人工確定規(guī)則加以處理。

3.數(shù)據(jù)變換

數(shù)據(jù)變換就是處理采集上來的數(shù)據(jù)中存在的不一致的過程,既包括數(shù)據(jù)名稱、顆粒度、規(guī)則、數(shù)據(jù)格式、計(jì)量單位等的變換,也包括對(duì)新增數(shù)據(jù)字段進(jìn)行組合、分割等變換。數(shù)據(jù)變換實(shí)際上也包含了數(shù)據(jù)清洗的相關(guān)工作,需要根據(jù)業(yè)務(wù)規(guī)則對(duì)不一致數(shù)據(jù)進(jìn)行清洗,以保證后續(xù)分析結(jié)果的準(zhǔn)確性。數(shù)據(jù)變換的主要目的在于將數(shù)據(jù)轉(zhuǎn)換成適合分析挖掘的形式,選用何種數(shù)據(jù)變換方法取決于大數(shù)據(jù)分析和挖掘算法。常用的數(shù)據(jù)變換方法包括:函數(shù)變換,使用數(shù)學(xué)函數(shù)對(duì)每個(gè)屬性值進(jìn)行映射;對(duì)數(shù)據(jù)進(jìn)行規(guī)范化,按比例縮放數(shù)據(jù)的屬性值,使其盡量落入較小的特定區(qū)間。規(guī)范化既有助于各種分類、聚類算法的實(shí)施,又避免了對(duì)度量單位的過度依賴,同時(shí)還可規(guī)避權(quán)重不平衡問題。

4.數(shù)據(jù)歸約

數(shù)據(jù)歸約是指在盡可能保持?jǐn)?shù)據(jù)原貌的前提下,尋找最有用特征以縮小數(shù)據(jù)規(guī)模,最大限度地精減數(shù)據(jù),其涉及的技術(shù)和方法主要包括高維數(shù)據(jù)降維處理方法(維歸約)、實(shí)例歸約、離散化技術(shù),以及不平衡學(xué)習(xí)等機(jī)器學(xué)習(xí)算法。數(shù)據(jù)歸約技術(shù)可以用來得到數(shù)據(jù)集的歸約表示,使得數(shù)據(jù)集變小,但同時(shí)仍然近于保持原數(shù)據(jù)的完整性,可以在保證分析挖掘準(zhǔn)確性的前提下提高分析挖掘的效率。目前基于海量數(shù)據(jù)的數(shù)據(jù)歸約技術(shù)已經(jīng)成為大數(shù)據(jù)預(yù)處理的重要問題之一。

(三)大數(shù)據(jù)存儲(chǔ)與計(jì)算技術(shù)

大數(shù)據(jù)存儲(chǔ)與計(jì)算技術(shù)是整個(gè)大數(shù)據(jù)系統(tǒng)的基礎(chǔ)。2004年,谷歌公司率先提出一套分布式數(shù)據(jù)存儲(chǔ)與計(jì)算的技術(shù)體系,即分布式文件系統(tǒng)谷歌文件系統(tǒng)GFS、分布式計(jì)算系統(tǒng)MapReduce和分布式數(shù)據(jù)庫BigTable,以較低的成本很好地解決了大數(shù)據(jù)面臨的困境,奠定了大數(shù)據(jù)技術(shù)的基礎(chǔ)。受谷歌公司論文啟發(fā),Apache Hadoop實(shí)現(xiàn)了自己的分布式文件系統(tǒng)HDFS、分布式計(jì)算系統(tǒng)MapReduce和分布式數(shù)據(jù)庫HBase,并將其開源,這是大數(shù)據(jù)技術(shù)開源生態(tài)體系的起點(diǎn)。隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展與應(yīng)用,大數(shù)據(jù)存儲(chǔ)與計(jì)算技術(shù)呈現(xiàn)以下新特征。

1.基礎(chǔ)框架逐漸成熟,滿足批處理與流處理場(chǎng)景需求

大數(shù)據(jù)存儲(chǔ)與計(jì)算技術(shù)已形成了以開源為主導(dǎo)、多種技術(shù)架構(gòu)并存的技術(shù)生態(tài)體系。Apache Hadoop最初定義了基礎(chǔ)的分布式批處理架構(gòu),打破了傳統(tǒng)數(shù)據(jù)庫一體化的模式,將計(jì)算與存儲(chǔ)分離,解決了海量數(shù)據(jù)的低成本存儲(chǔ)與規(guī)模化計(jì)算問題。近年來,隨著大數(shù)據(jù)分析時(shí)效性的需求愈加突出,Apache Flink、Spark Structured Streaming、Kafka Streams等流計(jì)算基礎(chǔ)框架技術(shù)備受關(guān)注,為滿足流處理場(chǎng)景需求打下了基礎(chǔ)。其中,最熱門的Apache Flink使用了流處理的思想來實(shí)現(xiàn)批處理,是能夠同時(shí)支持流處理和批處理的計(jì)算引擎,包括阿里巴巴、騰訊、百度、字節(jié)跳動(dòng)、Uber、Lyft、Netflix等在內(nèi)的國內(nèi)外公司都是Apache Flink的使用者。除了開源的存儲(chǔ)與計(jì)算框架之外,還有一些成熟的閉源產(chǎn)品,如亞馬遜的Redshift、阿里巴巴的MaxCompute等。

隨著金融領(lǐng)域數(shù)據(jù)量和分析應(yīng)用數(shù)量的快速增長(zhǎng),傳統(tǒng)的數(shù)據(jù)倉庫平臺(tái)并發(fā)能力差、擴(kuò)展能力受限等問題凸顯,技術(shù)架構(gòu)逐漸向分布式架構(gòu)遷移,除了大型央企外,監(jiān)管機(jī)構(gòu)、股份制銀行、農(nóng)商行等金融機(jī)構(gòu)也都開始使用分布式架構(gòu)構(gòu)建大數(shù)據(jù)平臺(tái)。

2.大數(shù)據(jù)存儲(chǔ)與計(jì)算技術(shù)逐漸云化

在公有云方面,各大云廠商紛紛構(gòu)建各類大數(shù)據(jù)產(chǎn)品以滿足用戶需求,眾多大數(shù)據(jù)技術(shù)被搬到了云上,計(jì)算和存儲(chǔ)資源的使用更加彈性,其運(yùn)維方式和運(yùn)行環(huán)境也發(fā)生了較大變化。云廠商提供的多種類型的云產(chǎn)品方便用戶選擇合適的方案云化遷移,如阿里云將其自身的大數(shù)據(jù)計(jì)算服務(wù)開放MaxCompute,提供PB級(jí)數(shù)據(jù)倉庫解決方案,同時(shí)還推出E-MapReduce(EMR)——構(gòu)建在阿里云云服務(wù)器ECS上的開源Hadoop、Spark、HBase、Hive、Flink生態(tài)大數(shù)據(jù)PaaS產(chǎn)品。

在私有云方面,私有部署的大數(shù)據(jù)技術(shù)也逐漸采用容器、虛擬化等技術(shù),更加精細(xì)化地利用存儲(chǔ)與計(jì)算資源。

大數(shù)據(jù)存儲(chǔ)與計(jì)算解決方案向云化演進(jìn),可以更加專注于數(shù)據(jù)和業(yè)務(wù)邏輯,不必操心如何維護(hù)底層的硬件、網(wǎng)絡(luò)以及存儲(chǔ)與計(jì)算框架,在很大程度上降低了大數(shù)據(jù)技術(shù)的學(xué)習(xí)成本和使用門檻。值得一提的是,早期的大數(shù)據(jù)存儲(chǔ)與計(jì)算云化產(chǎn)品大部分是對(duì)已有本地產(chǎn)品的云化改造,而現(xiàn)在越來越多的產(chǎn)品從設(shè)計(jì)之初就遵循了云原生的概念,生于云長(zhǎng)于云,更適合云上生態(tài)。

3.引入異構(gòu)計(jì)算滿足場(chǎng)景多樣性需求

隨著大數(shù)據(jù)應(yīng)用的逐步深入,應(yīng)用場(chǎng)景越來越豐富,大數(shù)據(jù)存儲(chǔ)與計(jì)算平臺(tái)開始承載人工智能、物聯(lián)網(wǎng)、視頻轉(zhuǎn)碼、高性能計(jì)算等多樣性的任務(wù),以CPU為底層硬件的傳統(tǒng)大數(shù)據(jù)技術(shù)性能瓶頸凸顯,已經(jīng)無法有效滿足新業(yè)務(wù)需求。以CPU為調(diào)度核心,協(xié)同GPU、FPGA、ASIC及各類用于AI加速“xPU”的異構(gòu)算力平臺(tái)成為行業(yè)熱點(diǎn)解決方案,以GPU為代表的計(jì)算加速單元能夠極大地提升新業(yè)務(wù)計(jì)算效率。

英特爾、英偉達(dá)、AMD等多家廠商都在提供異構(gòu)計(jì)算的產(chǎn)品,并提出不同的應(yīng)用技術(shù)方案。由AMD、高通、ARM、三星、聯(lián)發(fā)科、Imagination等公司發(fā)起的全球異構(gòu)系統(tǒng)架構(gòu)聯(lián)盟(HSA聯(lián)盟),是異構(gòu)計(jì)算領(lǐng)域最大的國際化標(biāo)準(zhǔn)和產(chǎn)業(yè)組織,強(qiáng)調(diào)生態(tài)共建、資源共享。該聯(lián)盟成員包括中國電子技術(shù)標(biāo)準(zhǔn)化研究院、華夏芯、華為、CEVA等全球80多家芯片公司、高校及科研院所。

此外,產(chǎn)業(yè)界也在嘗試從統(tǒng)一軟件開發(fā)平臺(tái)和開發(fā)工具層面實(shí)現(xiàn)底層不同硬件體系的融合,如英特爾在2019年超級(jí)計(jì)算大會(huì)上發(fā)布了全新軟件行業(yè)計(jì)劃oneAPI及其開發(fā)者測(cè)試版本,旨在完善統(tǒng)一軟件平臺(tái)搭建,并以生態(tài)系統(tǒng)培養(yǎng)為主推動(dòng)產(chǎn)業(yè)的進(jìn)步。oneAPI支持跨CPU、GPU、FPGA和其他加速器等多架構(gòu)開發(fā)的編程模型,提供一套統(tǒng)一的編程語言和開發(fā)工具集實(shí)現(xiàn)對(duì)多樣性算力的調(diào)用,從根本上簡(jiǎn)化開發(fā)模式,針對(duì)異構(gòu)計(jì)算形成一套全新的開放標(biāo)準(zhǔn)。截至2019年11月,支持oneAPI的企業(yè)和研究機(jī)構(gòu)已經(jīng)超過30家[5],包括高性能計(jì)算領(lǐng)域的領(lǐng)導(dǎo)者、人工智能領(lǐng)域的創(chuàng)新者、硬件廠商、獨(dú)立軟件開發(fā)商、云服務(wù)商、高校等。

(四)大數(shù)據(jù)分析技術(shù)

大數(shù)據(jù)分析需要從紛繁復(fù)雜的數(shù)據(jù)中發(fā)現(xiàn)規(guī)律并提取新的知識(shí),是大數(shù)據(jù)價(jià)值挖掘的關(guān)鍵。數(shù)據(jù)分析主要有兩條技術(shù)路線:一是憑借先驗(yàn)知識(shí),由人工建立數(shù)學(xué)模型來分析數(shù)據(jù);二是通過建立人工智能系統(tǒng),使用大量樣本數(shù)據(jù)進(jìn)行訓(xùn)練,讓機(jī)器代替人工獲得從數(shù)據(jù)中提取知識(shí)的能力。傳統(tǒng)數(shù)據(jù)挖掘?qū)ο蟠蠖嗍墙Y(jié)構(gòu)化、單一對(duì)象的小數(shù)據(jù)集,挖掘側(cè)重于根據(jù)先驗(yàn)知識(shí)預(yù)先由人工建立模型,然后依據(jù)既定模型進(jìn)行分析。對(duì)非結(jié)構(gòu)化、多源異構(gòu)大數(shù)據(jù)集的分析往往缺乏先驗(yàn)知識(shí),很難建立顯式的數(shù)學(xué)模型,這就需要發(fā)展更加智能的數(shù)據(jù)挖掘技術(shù)。近年來,大數(shù)據(jù)分析技術(shù)呈現(xiàn)以下新特征。

1.融合AI能力實(shí)現(xiàn)大數(shù)據(jù)分析智能化升級(jí)

用智能化的手段來分析數(shù)據(jù)是釋放數(shù)據(jù)價(jià)值的高階之路,當(dāng)前出現(xiàn)了TensorFlow、Caffe、CNTK、Torch等獨(dú)立的機(jī)器學(xué)習(xí)平臺(tái),但用戶往往不希望在大數(shù)據(jù)平臺(tái)和機(jī)器學(xué)習(xí)平臺(tái)之間不斷地搬運(yùn)數(shù)據(jù),因此兩個(gè)平臺(tái)深度整合是大勢(shì)所趨,大數(shù)據(jù)平臺(tái)除了支持機(jī)器學(xué)習(xí)基礎(chǔ)算法之外,還將通過與AI平臺(tái)融合以支持更多的AI類應(yīng)用。例如,以Spark為代表的計(jì)算平臺(tái)開始積極探索如何支持深度學(xué)習(xí)能力,TensorFlowOnSpark等解決方案實(shí)現(xiàn)了TensorFlow與Spark的無縫連接,更好地解決了兩者數(shù)據(jù)傳遞的問題。Spark的商業(yè)化公司Databricks在解決方案中還提供“一站式”的分析平臺(tái)Data Science Workspace,Cloudera也推出了相應(yīng)的分析平臺(tái)Cloudera Data Science Workbench。

2.數(shù)據(jù)中臺(tái)模式推動(dòng)數(shù)據(jù)分析應(yīng)用

隨著大數(shù)據(jù)的工具和技術(shù)棧逐步成熟,以阿里巴巴、騰訊、京東等為代表的互聯(lián)網(wǎng)頭部企業(yè)從集團(tuán)層面推動(dòng)以搭建中臺(tái)為目標(biāo)的組織架構(gòu)變革,圍繞工具與數(shù)據(jù)的生產(chǎn)鏈條、數(shù)據(jù)的管理和應(yīng)用等逐漸形成了能力集合,并通過“數(shù)據(jù)中臺(tái)”這一概念來統(tǒng)一數(shù)據(jù)資產(chǎn)的視圖和標(biāo)準(zhǔn),提供通用數(shù)據(jù)的加工、管理和分析能力。此外,數(shù)據(jù)領(lǐng)域的一批創(chuàng)業(yè)公司也紛紛提出中臺(tái)戰(zhàn)略,越來越多的企業(yè)開始關(guān)注中臺(tái)。

數(shù)據(jù)中臺(tái)是一個(gè)由多種工具和能力組合而成的數(shù)據(jù)應(yīng)用引擎、數(shù)據(jù)價(jià)值化的加工廠,用以連接下層的數(shù)據(jù)和上層的數(shù)據(jù)應(yīng)用團(tuán)隊(duì),從而形成敏捷的數(shù)據(jù)驅(qū)動(dòng)精細(xì)化運(yùn)營(yíng)模式,為數(shù)據(jù)分析提供“一站式”支持。數(shù)據(jù)中臺(tái)打破了原有企業(yè)內(nèi)的復(fù)雜數(shù)據(jù)結(jié)構(gòu),使數(shù)據(jù)和業(yè)務(wù)更貼近,并能更快地使用數(shù)據(jù)驅(qū)動(dòng)決策。數(shù)據(jù)中臺(tái)能夠有針對(duì)性地解決三個(gè)問題:提高數(shù)據(jù)獲取的效率、打通數(shù)據(jù)共享的通道、提供統(tǒng)一的數(shù)據(jù)開發(fā)能力。

3.借助數(shù)據(jù)可視化技術(shù)強(qiáng)化數(shù)據(jù)分析

數(shù)據(jù)可視化技術(shù)的基本思想是將數(shù)據(jù)庫中每一個(gè)數(shù)據(jù)項(xiàng)作為單個(gè)基本圖形元素表示,大量的數(shù)據(jù)集構(gòu)成數(shù)據(jù)圖像,同時(shí)將數(shù)據(jù)的各個(gè)屬性值以多維數(shù)據(jù)的形式表示,可以從不同的維度觀察數(shù)據(jù),從而對(duì)數(shù)據(jù)進(jìn)行更深入的觀察和分析,為人們提供一個(gè)直覺的、交互的和反應(yīng)靈敏的可視化環(huán)境。

通過可視化圖像對(duì)數(shù)據(jù)進(jìn)行分析,可迅速掌握不同數(shù)據(jù)之間的關(guān)系,使數(shù)據(jù)顯示更加直觀。首先,通過豐富的可視化功能,幫助用戶從不同角度分析數(shù)據(jù)、縮小答案的范圍、展示數(shù)據(jù)的不同影響。除了餅狀圖、柱形圖、熱圖、地理信息圖等數(shù)據(jù)展現(xiàn)方式,還可以通過圖像的顏色、亮度、大小、形狀、運(yùn)動(dòng)趨勢(shì)等多種方式在一系列圖形中對(duì)數(shù)據(jù)進(jìn)行分析。其次,通過不斷改善分析的功能和可操作性,讓前端布局自定義搭配,讓業(yè)務(wù)人員隨心所欲地布置,為不同用戶提供個(gè)性化的分析體驗(yàn)。此外,將每一項(xiàng)數(shù)據(jù)在不同維度指標(biāo)下交互聯(lián)動(dòng),展示數(shù)據(jù)在不同維度的走勢(shì)、比例、關(guān)系,發(fā)現(xiàn)數(shù)據(jù)背后的知識(shí)與規(guī)律,并支持?jǐn)?shù)據(jù)的上鉆下探、多維并行分析,利用數(shù)據(jù)推動(dòng)決策。

三 金融大數(shù)據(jù)場(chǎng)景及實(shí)踐

大數(shù)據(jù)與金融領(lǐng)域的融合,是一個(gè)彼此成就、實(shí)現(xiàn)更大價(jià)值的過程。從數(shù)據(jù)資源的角度看,經(jīng)過多年積淀,金融領(lǐng)域龐大的系統(tǒng)內(nèi)積累了大量高價(jià)值的數(shù)據(jù),擁有用于數(shù)據(jù)分析的基礎(chǔ)資源,金融領(lǐng)域是大數(shù)據(jù)技術(shù)應(yīng)用落地最早也是最成熟的領(lǐng)域之一。從金融業(yè)發(fā)展的內(nèi)在需求看,當(dāng)前整個(gè)金融業(yè)的運(yùn)作模式正在重構(gòu),行業(yè)競(jìng)爭(zhēng)日益激烈,依托大數(shù)據(jù)開展精細(xì)化運(yùn)營(yíng)、創(chuàng)新金融產(chǎn)品的需求日益迫切,大數(shù)據(jù)是應(yīng)用最早、效果最顯著的金融科技之一。

2019年,在國家重視數(shù)據(jù)資源、部委強(qiáng)化大數(shù)據(jù)合規(guī)發(fā)展監(jiān)管的整體態(tài)勢(shì)下,金融機(jī)構(gòu)對(duì)數(shù)據(jù)資產(chǎn)管理與治理也更加重視,加大了在數(shù)據(jù)治理項(xiàng)目中的投入,高效地管控?cái)?shù)據(jù)資產(chǎn),從而提升自身的核心競(jìng)爭(zhēng)力。同時(shí),積極提升大數(shù)據(jù)實(shí)時(shí)計(jì)算能力,以數(shù)據(jù)中臺(tái)戰(zhàn)略提升大數(shù)據(jù)分析能力,更好地支撐精準(zhǔn)營(yíng)銷、信貸風(fēng)控、交易預(yù)警、反欺詐等金融大數(shù)據(jù)應(yīng)用。

(一)數(shù)據(jù)管理與治理解決方案

2019年,銀行業(yè)在數(shù)據(jù)管理與治理方面開展了積極且有成效的探索。

銀行業(yè)是典型的數(shù)據(jù)驅(qū)動(dòng)行業(yè),具備數(shù)字化轉(zhuǎn)型的先天優(yōu)勢(shì)。大數(shù)據(jù)在銀行業(yè)細(xì)分領(lǐng)域有很多成功的應(yīng)用案例,但在向數(shù)字化快速轉(zhuǎn)型的同時(shí),銀行業(yè)仍存在需要突破的瓶頸:數(shù)據(jù)分布零散化,缺乏全口徑和全生命周期性的管理;數(shù)據(jù)標(biāo)準(zhǔn)度不高,取數(shù)規(guī)則各異;數(shù)據(jù)挖掘與數(shù)據(jù)應(yīng)用力度不足,與外部數(shù)據(jù)隔離;數(shù)據(jù)治理人才儲(chǔ)備不足,未建立專門針對(duì)數(shù)據(jù)治理的專業(yè)隊(duì)伍以及與之匹配的激勵(lì)機(jī)制。相關(guān)數(shù)據(jù)顯示,目前超過85%的中小銀行將數(shù)據(jù)治理納入公司治理范疇[6],但是中小銀行數(shù)據(jù)治理處于萌芽期,亟須提高數(shù)據(jù)的管理與治理能力,強(qiáng)化數(shù)據(jù)資產(chǎn)理念,構(gòu)建數(shù)字化經(jīng)營(yíng)能力,這樣才有可能盤活數(shù)據(jù)所具有的巨大的潛在價(jià)值。

近年來,金融主管部門也逐漸加大對(duì)銀行業(yè)金融機(jī)構(gòu)數(shù)據(jù)治理工作的引導(dǎo)力度。2018年5月,中國銀保監(jiān)會(huì)發(fā)布了《銀行業(yè)金融機(jī)構(gòu)數(shù)據(jù)治理指引》,首次將數(shù)據(jù)治理提升到銀行常規(guī)管理的戰(zhàn)略高度,明確要求銀行將數(shù)據(jù)治理工作常態(tài)化、持久化。2019年10月,中國人民銀行向部分銀行下發(fā)了《個(gè)人金融信息(數(shù)據(jù))保護(hù)試行辦法(初稿)》,廣泛征求意見。

在政府的引導(dǎo)下,國內(nèi)銀行業(yè)金融機(jī)構(gòu)加快數(shù)據(jù)管理與治理的探索應(yīng)用節(jié)奏。

一是建立數(shù)據(jù)治理架構(gòu)。建立組織架構(gòu)健全、職責(zé)邊界清晰的數(shù)據(jù)治理架構(gòu),明確董事會(huì)、高級(jí)管理層、監(jiān)事會(huì)和相關(guān)部門的職責(zé)分工,建立多層次、相互銜接的運(yùn)行機(jī)制。例如,中國銀行建立了集團(tuán)數(shù)據(jù)治理架構(gòu)體系,制定并發(fā)布了數(shù)據(jù)治理框架政策、管理指引和操作流程,為全行數(shù)據(jù)管理和應(yīng)用提供了重要組織保障。華夏銀行針對(duì)外部數(shù)據(jù)資源的引入,成立了專業(yè)的外部數(shù)據(jù)引入委員會(huì),整合需求、集約采購,實(shí)現(xiàn)了外部數(shù)據(jù)引入的共享與價(jià)值提升。

二是健全數(shù)據(jù)治理體系。圍繞數(shù)據(jù)的全生命周期管理,從數(shù)據(jù)質(zhì)量、數(shù)據(jù)流轉(zhuǎn)、數(shù)據(jù)權(quán)屬等方面入手,確立詳細(xì)的數(shù)據(jù)標(biāo)準(zhǔn),建立一套完整的、動(dòng)態(tài)調(diào)整的數(shù)據(jù)治理體系,保證數(shù)據(jù)的統(tǒng)一性、完整性、真實(shí)性和可用性。例如,中國工商銀行建立了統(tǒng)一的企業(yè)級(jí)數(shù)據(jù)標(biāo)準(zhǔn),能夠覆蓋當(dāng)事人、產(chǎn)品、協(xié)議、賬戶、介質(zhì)等十大標(biāo)準(zhǔn)主題,為大數(shù)據(jù)體系下的數(shù)據(jù)共享奠定了基礎(chǔ)。同時(shí),建立了國內(nèi)金融行業(yè)首個(gè)全行級(jí)信息標(biāo)準(zhǔn)管理服務(wù)平臺(tái),實(shí)現(xiàn)了數(shù)據(jù)標(biāo)準(zhǔn)的建立、變更、發(fā)布、查詢、廢止等全生命周期管理。

三是形成企業(yè)級(jí)數(shù)據(jù)治理解決方案。已有金融科技服務(wù)商開始輸出銀行數(shù)據(jù)治理解決方案,面向中小銀行提供全面服務(wù)。解決方案包括:“一行一策”,建立全行數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范;開展元數(shù)據(jù)管理,梳理數(shù)據(jù)資產(chǎn)和數(shù)據(jù)關(guān)系;開展數(shù)據(jù)質(zhì)量監(jiān)控,全方位提升數(shù)據(jù)質(zhì)量;制定數(shù)據(jù)安全管理策略,保障數(shù)據(jù)資源安全。企業(yè)級(jí)數(shù)據(jù)治理解決方案全面提升了銀行業(yè)數(shù)據(jù)管理的效率。

案例1 金融壹賬通:基于大數(shù)據(jù)平臺(tái)的全流程數(shù)據(jù)治理方案[7]

中國平安旗下深圳壹賬通智能科技有限公司于2019年8月推出加馬數(shù)據(jù)治理解決方案。

該方案基于大數(shù)據(jù)平臺(tái),打造六個(gè)模塊,構(gòu)建了全流程的數(shù)據(jù)治理方案。模塊一,開展數(shù)據(jù)標(biāo)準(zhǔn)檢索,幫助銀行制定一整套適合自身的數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范,包含基礎(chǔ)類數(shù)據(jù)標(biāo)準(zhǔn)、分析類數(shù)據(jù)標(biāo)準(zhǔn)兩大類型,利用自然語言技術(shù)及知識(shí)圖譜技術(shù)幫助工作人員快速定位到相關(guān)的數(shù)據(jù)標(biāo)準(zhǔn);模塊二,開展元數(shù)據(jù)管理,通過數(shù)據(jù)地圖等功能梳理出數(shù)據(jù)和數(shù)據(jù)之間的關(guān)系,可視化展示數(shù)據(jù)資產(chǎn)視圖,同時(shí)自動(dòng)化分析數(shù)據(jù)流向及上下游血緣關(guān)系;模塊三,開展數(shù)據(jù)質(zhì)量監(jiān)控,提供變動(dòng)異常掃描、標(biāo)準(zhǔn)質(zhì)量監(jiān)控等工具,一鍵生成質(zhì)量分析報(bào)告,幫助銀行實(shí)現(xiàn)智能數(shù)據(jù)質(zhì)量監(jiān)控;模塊四,開展數(shù)據(jù)安全管理,通過智能掃描識(shí)別敏感數(shù)據(jù)一鍵配置脫敏的方式解決大數(shù)據(jù)平臺(tái)上的海量數(shù)據(jù)識(shí)別脫敏問題,有效降低大數(shù)據(jù)平臺(tái)操作及數(shù)據(jù)泄露風(fēng)險(xiǎn);模塊五,開展治理監(jiān)控分析,運(yùn)用自然語言技術(shù)、維度自助下鉆技術(shù)等,自動(dòng)了解用戶分析意圖,呈現(xiàn)數(shù)據(jù)治理相關(guān)監(jiān)控結(jié)果,方便進(jìn)行自助探索分析;模塊六,開展智能數(shù)據(jù)報(bào)送,通過圖形化工具實(shí)現(xiàn)零代碼開發(fā)接入外部數(shù)據(jù),智能檢測(cè)外部數(shù)據(jù)質(zhì)量,提示風(fēng)險(xiǎn)預(yù)警。

該解決方案將無序數(shù)據(jù)關(guān)聯(lián)化、隱性數(shù)據(jù)顯性化、靜態(tài)數(shù)據(jù)動(dòng)態(tài)化,部署時(shí)間比傳統(tǒng)的產(chǎn)品縮短1~2個(gè)月。經(jīng)過3個(gè)月在銀行真實(shí)數(shù)據(jù)治理環(huán)境中的落地檢驗(yàn)后,該解決方案已被證明能夠降本增效,并與多家中小銀行達(dá)成合作意向。

案例2 聯(lián)通大數(shù)據(jù):數(shù)據(jù)聚合管控平臺(tái)解決方案[8]

聯(lián)通大數(shù)據(jù)有限公司于2019年為某省級(jí)農(nóng)商銀行推出數(shù)據(jù)聚合管控平臺(tái)解決方案。

該方案由“4平臺(tái)+1體系”組成,采用混合云大數(shù)據(jù)訪問服務(wù)模式,滿足先進(jìn)性、易用性、安全性、可靠性、可擴(kuò)展性等元組建設(shè)開發(fā)設(shè)計(jì)要求。“4平臺(tái)”是指數(shù)據(jù)接入管理平臺(tái)、數(shù)據(jù)服務(wù)發(fā)布平臺(tái)、數(shù)據(jù)服務(wù)管理平臺(tái)、數(shù)據(jù)服務(wù)計(jì)費(fèi)平臺(tái),“1體系”是指一套數(shù)據(jù)安全管控體系。該方案實(shí)現(xiàn)了外部合作數(shù)據(jù)資源的統(tǒng)一接入、集中管控和安全靈活服務(wù),有效進(jìn)行了外部數(shù)據(jù)資源的集約化管理、規(guī)范化應(yīng)用。項(xiàng)目團(tuán)隊(duì)基于搭建的銀行數(shù)據(jù)聚合管控平臺(tái),接入聯(lián)通大數(shù)據(jù)數(shù)盾風(fēng)控產(chǎn)品等多項(xiàng)成熟應(yīng)用以及銀行外部數(shù)據(jù)資源池,封裝后以可視化系統(tǒng)實(shí)現(xiàn)友好交互。

該方案推出后全面支撐某省級(jí)農(nóng)商銀行及其二級(jí)單位共56套業(yè)務(wù)系統(tǒng),在保障外部數(shù)據(jù)質(zhì)量和數(shù)據(jù)管控能力的基礎(chǔ)上,大大提升了銀行管理和運(yùn)營(yíng)效率,有效支撐了各部門的橫向協(xié)作,促進(jìn)了數(shù)據(jù)與業(yè)務(wù)流程的整合。

(二)實(shí)時(shí)計(jì)算大數(shù)據(jù)解決方案

實(shí)時(shí)計(jì)算分析能力,正不斷成為衡量金融大數(shù)據(jù)應(yīng)用性能高低的核心指標(biāo)。目前,信貸風(fēng)控、精準(zhǔn)營(yíng)銷、交易預(yù)警和反欺詐等金融機(jī)構(gòu)最常見的大數(shù)據(jù)應(yīng)用都需要實(shí)時(shí)計(jì)算的強(qiáng)有力支撐。

以信貸風(fēng)控為例,近年來隨著金融監(jiān)管力度的不斷加大,風(fēng)控規(guī)則越來越多,風(fēng)控計(jì)算復(fù)雜度越來越高,對(duì)實(shí)時(shí)計(jì)算分析能力的要求也隨之提高。信貸風(fēng)控需要實(shí)時(shí)分析海量的用戶行為數(shù)據(jù),根據(jù)既定的規(guī)則計(jì)算出相應(yīng)的指標(biāo),并與風(fēng)險(xiǎn)模型進(jìn)行匹配,第一時(shí)間判斷風(fēng)險(xiǎn)等級(jí)、發(fā)現(xiàn)異常事件,并采取相應(yīng)的風(fēng)險(xiǎn)控制措施,發(fā)出自動(dòng)告警通知,改變業(yè)務(wù)流程。在金融交易場(chǎng)景中,風(fēng)控系統(tǒng)如果不能實(shí)時(shí)觀察每一個(gè)賬戶的行為動(dòng)態(tài),就可能因?yàn)?秒的延遲遺漏風(fēng)險(xiǎn),造成重大損失。

以精準(zhǔn)營(yíng)銷和交易預(yù)警為例,精準(zhǔn)營(yíng)銷要求在客戶短暫的訪問與咨詢時(shí)間內(nèi)發(fā)現(xiàn)客戶的投資傾向,為其推薦適合的產(chǎn)品。交易預(yù)警場(chǎng)景要求大數(shù)據(jù)解決方案在秒級(jí)完成從事件發(fā)生到感知變化,再到輸出計(jì)算結(jié)果的整個(gè)過程,識(shí)別客戶行為的異常,并做出交易預(yù)警。

2019年,實(shí)時(shí)計(jì)算大數(shù)據(jù)解決方案得到更廣泛的應(yīng)用,滿足了低延時(shí)復(fù)雜應(yīng)用場(chǎng)景的需求。從性能來看,實(shí)時(shí)計(jì)算大數(shù)據(jù)解決方案能夠?qū)崟r(shí)處理海量數(shù)據(jù),打破傳統(tǒng)數(shù)據(jù)庫信息范圍限制,為模型的精準(zhǔn)計(jì)算提供強(qiáng)有力的數(shù)據(jù)支持;能夠有效消除傳統(tǒng)數(shù)據(jù)庫對(duì)硬件資源的依賴,實(shí)現(xiàn)軟硬件的松耦合、存儲(chǔ)與計(jì)算等資源的在線靈活擴(kuò)展;能夠?qū)崿F(xiàn)從采集到模型的全流程秒級(jí)實(shí)時(shí)響應(yīng),抵御超大規(guī)模行情的沖擊。

案例3 金仕達(dá)科技:基于流式計(jì)算的大數(shù)據(jù)異常交易管理系統(tǒng)[9]

上海金仕達(dá)軟件科技有限公司于2019年10月上線大數(shù)據(jù)異常交易智能管理系統(tǒng)。

該系統(tǒng)以分布式流式計(jì)算引擎為核心,抽取海量數(shù)據(jù)構(gòu)建監(jiān)控模型,使用機(jī)器學(xué)習(xí)訓(xùn)練模型,通過實(shí)時(shí)計(jì)算管理平臺(tái),監(jiān)控分析客戶全業(yè)務(wù)交易行為,一網(wǎng)打盡事中、事后的異常交易行為,在證券公司內(nèi)部形成合規(guī)宣導(dǎo)長(zhǎng)效機(jī)制。該系統(tǒng)部署靈活、周期短,可在不影響系統(tǒng)使用的前提下,與異常交易監(jiān)控系統(tǒng)V8版本無縫銜接,在模型精準(zhǔn)性、監(jiān)控結(jié)果有效性及可視化展現(xiàn)方面取得了較大突破。

目前,金仕達(dá)大數(shù)據(jù)異常交易智能管理系統(tǒng)已在招商證券等多家證券公司順利上線并穩(wěn)定運(yùn)行,獲得了客戶的積極反饋。該系統(tǒng)已實(shí)現(xiàn)高度精準(zhǔn)的監(jiān)控結(jié)果預(yù)警,在500萬客戶規(guī)模的券商中每天預(yù)警數(shù)在5條以內(nèi)。系統(tǒng)在某券商再次取得監(jiān)控結(jié)果精準(zhǔn)度的數(shù)量級(jí)提升,實(shí)現(xiàn)了預(yù)警內(nèi)容對(duì)函件范圍的100%覆蓋,徹底突破了大量無效預(yù)警結(jié)果造成的工作量瓶頸,在真正意義上實(shí)現(xiàn)了工作效率的大幅提升。

(三)數(shù)據(jù)中臺(tái)服務(wù)體系

2019年,數(shù)據(jù)中臺(tái)的概念從互聯(lián)網(wǎng)行業(yè)一路火到了金融領(lǐng)域。數(shù)據(jù)中臺(tái)為金融領(lǐng)域數(shù)據(jù)體系注入了新活力,正成為金融領(lǐng)域?qū)崿F(xiàn)共享服務(wù)、支撐業(yè)務(wù)創(chuàng)新的有效舉措,也是未來的發(fā)展趨勢(shì)。構(gòu)建數(shù)據(jù)中臺(tái)服務(wù)體系,對(duì)金融企業(yè)與金融科技企業(yè)都大有裨益。

對(duì)于金融企業(yè)來說,數(shù)據(jù)中臺(tái)是鏈接前臺(tái)業(yè)務(wù)系統(tǒng)和后臺(tái)數(shù)據(jù)系統(tǒng)之間數(shù)據(jù)和能力的一條快速通道。數(shù)據(jù)中臺(tái)將前臺(tái)中的共性需求進(jìn)行抽象,打造為平臺(tái)化、組件化的技術(shù)能力,歸并下沉到中臺(tái)層,以接口、組件等形式共享給各前臺(tái)業(yè)務(wù)單元使用,以“小前臺(tái)”提供靈活多變的業(yè)務(wù)。同時(shí),數(shù)據(jù)中臺(tái)將后臺(tái)中的共用技術(shù)能力歸并上浮到中臺(tái)層,獨(dú)立強(qiáng)化發(fā)展,實(shí)現(xiàn)對(duì)前端多業(yè)務(wù)服務(wù)線的靈活賦能。數(shù)據(jù)中臺(tái)為前臺(tái)的業(yè)務(wù)團(tuán)隊(duì)、客戶經(jīng)理、財(cái)富顧問與后臺(tái)的數(shù)據(jù)專家、算法模型專家、人工智能專家架起了一座強(qiáng)有力的支撐橋梁,基于這種模式,業(yè)務(wù)團(tuán)隊(duì)專注于產(chǎn)品的具體邏輯與業(yè)務(wù)管理流程,數(shù)據(jù)專家則專注于加速從數(shù)據(jù)到價(jià)值的過程,提高對(duì)業(yè)務(wù)的響應(yīng)能力。

對(duì)于金融科技企業(yè)來說,數(shù)據(jù)中臺(tái)是開發(fā)標(biāo)準(zhǔn)化產(chǎn)品的重要契機(jī)。金融科技企業(yè)一般以提供定制化解決方案為主,根據(jù)金融企業(yè)的實(shí)際業(yè)務(wù)需求,有針對(duì)性地開展合作。基于數(shù)據(jù)中臺(tái)的模式,金融科技企業(yè)開始嘗試輸出包含標(biāo)準(zhǔn)化平臺(tái)與個(gè)性化功能模塊在內(nèi)的成熟產(chǎn)品,既可有效降低企業(yè)的邊際開發(fā)成本,提高企業(yè)利潤(rùn),又能提升產(chǎn)品性能。

案例4 民生銀行:數(shù)據(jù)中臺(tái)體系[10]

民生銀行于2019年公開了數(shù)據(jù)中臺(tái)體系建設(shè)與實(shí)踐過程。

民生銀行結(jié)合自身技術(shù)積累與業(yè)務(wù)經(jīng)營(yíng)需求,對(duì)數(shù)據(jù)中臺(tái)建設(shè)從技術(shù)平臺(tái)和數(shù)據(jù)交付兩個(gè)層面制定目標(biāo)。技術(shù)平臺(tái)方面,民生銀行建立了由4大功能體系、12個(gè)子系統(tǒng)構(gòu)成的金融數(shù)據(jù)中臺(tái)體系,數(shù)據(jù)中臺(tái)核心運(yùn)轉(zhuǎn)模式由Engine引擎體系、Service服務(wù)體系、Open路由體系、Plus管理體系核心組件協(xié)同運(yùn)轉(zhuǎn)完成。數(shù)據(jù)交付方面,民生銀行提出了一套“場(chǎng)景分區(qū)+技術(shù)分級(jí)”的數(shù)據(jù)中臺(tái)場(chǎng)景服務(wù)管理方案,形成了由11項(xiàng)業(yè)務(wù)場(chǎng)景、4級(jí)服務(wù)組成的數(shù)據(jù)服務(wù)管理矩陣,其中4級(jí)服務(wù)包括對(duì)客服務(wù)類、客戶經(jīng)理類、內(nèi)部管理類、監(jiān)控查控類。通過技術(shù)平臺(tái)的技術(shù)分區(qū)和數(shù)據(jù)內(nèi)容的服務(wù)分級(jí)建設(shè)思路,數(shù)據(jù)中臺(tái)在為各業(yè)務(wù)場(chǎng)景快速提供在線數(shù)據(jù)價(jià)值輸出的同時(shí),也能夠做到數(shù)據(jù)使用的管控和跟蹤。

目前,民生銀行數(shù)據(jù)中臺(tái)體系取得了較好的成效。支撐小微3.0新模式探索,全技術(shù)架構(gòu)實(shí)現(xiàn)了中臺(tái)化,實(shí)現(xiàn)了多項(xiàng)業(yè)務(wù)領(lǐng)域創(chuàng)新性應(yīng)用的落地。助力互聯(lián)網(wǎng)金融數(shù)字化運(yùn)營(yíng),打通了管理駕駛艙和線上服務(wù)平臺(tái)的數(shù)據(jù)鏈路,已完成首家分行試點(diǎn),試點(diǎn)行在2019年第一季度實(shí)現(xiàn)理財(cái)資產(chǎn)增加20余億元,代發(fā)目標(biāo)客群資金留存率提升3.41個(gè)百分點(diǎn),累計(jì)帶來行外資產(chǎn)40余億元。

參考文獻(xiàn)

陳晨:《一篇文章讓你了解大數(shù)據(jù)采集技術(shù)》,CSDN網(wǎng)站,2018年11月1日,https://blog.csdn.net/cqacrh2798/article/details/83617134。

陳純:《流式大數(shù)據(jù)實(shí)時(shí)處理技術(shù)、平臺(tái)及應(yīng)用》,《大數(shù)據(jù)》2017年第4期。

陳永堅(jiān):《大數(shù)據(jù)技術(shù)與金融行業(yè)的深度融合研究》,《中國商論》2020年第4期。

丁曉平:《大數(shù)據(jù)時(shí)代商業(yè)銀行數(shù)據(jù)治理》,《中國銀行業(yè)》2019年第11期。

杜小勇、陳躍國、范舉、盧衛(wèi):《數(shù)據(jù)整理——大數(shù)據(jù)治理的關(guān)鍵技術(shù)》,《大數(shù)據(jù)》2019年第3期。

高尚:《從金融科技創(chuàng)新到金融模式變革——流式計(jì)算在信用卡實(shí)時(shí)大數(shù)據(jù)應(yīng)用領(lǐng)域的研究》,《國際金融》2018年第6期。

何鵬、周禮、羅京:《民生銀行數(shù)據(jù)中臺(tái)體系建設(shè)實(shí)踐》,《金融電子化》2019年第7期。

孔欽、葉長(zhǎng)青、孫赟:《大數(shù)據(jù)下數(shù)據(jù)預(yù)處理方法研究》,《計(jì)算機(jī)技術(shù)與發(fā)展》2018年第5期。

潘光偉:《提升數(shù)據(jù)治理能力 構(gòu)筑共治共享行業(yè)新生態(tài)》,《中國銀行業(yè)》2019年第12期。

《企業(yè)數(shù)字化轉(zhuǎn)型的加速引擎——2019年中國數(shù)字中臺(tái)行業(yè)研究報(bào)告》,艾瑞咨詢系列研究報(bào)告,2019年11月。

孫冰:《數(shù)據(jù)隱私保衛(wèi)戰(zhàn) 爬蟲背后的灰色大生意》,《中國經(jīng)濟(jì)周刊》2019年第20期。

謝瑋、宋杰:《“爬蟲”怎么成了“害蟲”?》,《中國經(jīng)濟(jì)周刊》2019年第20期。

《一文梳理大數(shù)據(jù)四大方面十五大關(guān)鍵技術(shù)》,CDA數(shù)據(jù)分析師網(wǎng)站,2016年11月30日,http://cda.pinggu.org/view/20910.html。

中國信息通信研究院:《大數(shù)據(jù)白皮書(2019年)》,2019年12月。

中國信息通信研究院:《中國金融科技生態(tài)白皮書(2019年)》,2019年7月。


[1] 王強(qiáng),中國信息通信研究院人工智能與數(shù)據(jù)治理研究中心副主任,主要從事大數(shù)據(jù)、人工智能、區(qū)塊鏈等領(lǐng)域的研究與咨詢。邱艷娟,中國信息通信研究院主任工程師,主要從事人工智能、大數(shù)據(jù)、數(shù)字經(jīng)濟(jì)等領(lǐng)域的研究與咨詢。李曼,中國信息通信研究院工程師,主要從事大數(shù)據(jù)、人工智能等領(lǐng)域的研究與咨詢。

[2] 中國信息通信研究院:《中國數(shù)字經(jīng)濟(jì)發(fā)展白皮書(2020年)》,2020年7月。

[3] 《公安機(jī)關(guān)開展App違法采集個(gè)人信息集中整治》,人民網(wǎng),2019年12月4日。

[4] 數(shù)據(jù)來源于工業(yè)和信息化部網(wǎng)站。

[5] 《英特爾oneAPI:一個(gè)針對(duì)異構(gòu)計(jì)算以開發(fā)者為中心的平臺(tái)》,驅(qū)動(dòng)中國網(wǎng)站,2019年11月22日。

[6] 中小銀行互聯(lián)網(wǎng)金融(深圳)聯(lián)盟、金融壹賬通:《中小銀行數(shù)據(jù)治理研究報(bào)告》,2019年11月。

[7] 《中國數(shù)字銀行論壇桂林論壇召開 國內(nèi)首個(gè)全流程數(shù)據(jù)治理方案亮相》,新華網(wǎng),2019年8月14日。

[8] 《聯(lián)通大數(shù)據(jù)助力某省級(jí)農(nóng)商銀行打造“數(shù)據(jù)聚合管控”標(biāo)桿案例》,C114通信網(wǎng),2019年8月20日。

[9] 《金仕達(dá)實(shí)時(shí)大數(shù)據(jù)產(chǎn)品——異常交易智能管理系統(tǒng)全新上線》,網(wǎng)易號(hào),2019年10月28日。

[10] 何鵬、周禮、羅京:《民生銀行數(shù)據(jù)中臺(tái)體系建設(shè)實(shí)踐》,《金融電子化》2019年第7期。

主站蜘蛛池模板: 若尔盖县| 扶沟县| 郴州市| 朝阳区| 科技| 凤山市| 灵丘县| 枣强县| 深州市| 南宫市| 牙克石市| 洪洞县| 曲水县| 常宁市| 南汇区| 南江县| 靖江市| 南投市| 潍坊市| 华阴市| 财经| 安丘市| 巴东县| 航空| 竹山县| 黑河市| 岳阳县| 宜良县| 金阳县| 麟游县| 长海县| 广东省| 库伦旗| 鄂州市| 洞口县| 璧山县| 泰安市| 青铜峡市| 木里| 灵宝市| 芒康县|