官术网_书友最值得收藏!

第四節(jié) 大數(shù)據(jù)管理與應(yīng)用的理論、技術(shù)和應(yīng)用體系

大數(shù)據(jù)時(shí)代在具有云計(jì)算、人工智能、物聯(lián)網(wǎng)等新的技術(shù)驅(qū)動(dòng)力的同時(shí),也面臨著數(shù)據(jù)質(zhì)量難以保證、數(shù)據(jù)價(jià)值密度低、系統(tǒng)架構(gòu)及分析技術(shù)難等方面的挑戰(zhàn)。為了更好地進(jìn)行新一代信息技術(shù)的收集、管理和分析,利用大數(shù)據(jù)挖掘其中蘊(yùn)含的價(jià)值信息,大數(shù)據(jù)管理與應(yīng)用工作需要構(gòu)建合理的理論、技術(shù)和應(yīng)用體系。

一、大數(shù)據(jù)管理與應(yīng)用的理論體系

大數(shù)據(jù)管理與應(yīng)用的理論體系,以統(tǒng)計(jì)、領(lǐng)域知識(shí)和機(jī)器學(xué)習(xí)為基礎(chǔ)和引領(lǐng),同時(shí)依靠相應(yīng)的存儲(chǔ)、計(jì)算和網(wǎng)絡(luò)平臺(tái),對(duì)內(nèi)部和外部的各類大數(shù)據(jù)和信息進(jìn)行采集、治理和分析,形成數(shù)據(jù)可視化展示,為相關(guān)人員提供支持,大數(shù)據(jù)管理與應(yīng)用的理論體系結(jié)構(gòu)如圖1-4所示。

圖1-4 大數(shù)據(jù)管理與應(yīng)用的理論體系

統(tǒng)計(jì)、領(lǐng)域知識(shí)和機(jī)器學(xué)習(xí)理論引領(lǐng)大數(shù)據(jù)管理與應(yīng)用的整體理論體系。大數(shù)據(jù)管理與應(yīng)用往往需要結(jié)合三方面的資源——高質(zhì)量的數(shù)據(jù)、領(lǐng)域業(yè)務(wù)知識(shí)和數(shù)據(jù)挖掘軟件來進(jìn)行數(shù)據(jù)挖掘,這需要依靠統(tǒng)計(jì)理論從大量數(shù)據(jù)中獲取有業(yè)務(wù)價(jià)值的洞察力,繼而結(jié)合相關(guān)管理和領(lǐng)域知識(shí)將這些業(yè)務(wù)洞察力以某種形式嵌入到流程中,從而達(dá)成目標(biāo)。在這個(gè)過程中,利用機(jī)器學(xué)習(xí)的各種算法構(gòu)建分析模型是核心步驟。除此之外,為了保證數(shù)據(jù)挖掘項(xiàng)目的成功實(shí)施,還有很多決定性因素,例如問題如何界定、數(shù)據(jù)如何選取、生成的模型如何嵌入到現(xiàn)有的業(yè)務(wù)流程中等問題都將直接影響數(shù)據(jù)挖掘是否能夠獲得成功。因此,大數(shù)據(jù)管理與應(yīng)用的理論體系需要統(tǒng)計(jì)、領(lǐng)域知識(shí)和機(jī)器學(xué)習(xí)相關(guān)理論的引領(lǐng)。

數(shù)據(jù)分析流程是大數(shù)據(jù)管理與應(yīng)用理論體系的核心部分。數(shù)據(jù)收集過程中,數(shù)據(jù)源會(huì)影響數(shù)據(jù)的質(zhì)量和安全性。針對(duì)內(nèi)部數(shù)據(jù)源和外部數(shù)據(jù)源,根據(jù)具體大數(shù)據(jù)分析任務(wù)進(jìn)行數(shù)據(jù)選擇,將不適用于數(shù)據(jù)分析工作的數(shù)據(jù)剔除,針對(duì)有用數(shù)據(jù)進(jìn)行數(shù)據(jù)的采集和存儲(chǔ)。在進(jìn)行數(shù)據(jù)分析前需要對(duì)數(shù)據(jù)進(jìn)行一定的預(yù)處理,數(shù)據(jù)預(yù)處理環(huán)節(jié)主要包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)歸約與數(shù)據(jù)轉(zhuǎn)換等內(nèi)容,可以極大提升數(shù)據(jù)的總體質(zhì)量,是數(shù)據(jù)分析的重要前置工作。經(jīng)過數(shù)據(jù)預(yù)處理后數(shù)據(jù)可以用于數(shù)據(jù)分析環(huán)節(jié),深入業(yè)務(wù)場(chǎng)景分析,構(gòu)建各類不同的數(shù)據(jù)分析模型,以提供新的數(shù)據(jù)洞察。最后將結(jié)果進(jìn)行數(shù)據(jù)展示,數(shù)據(jù)分析結(jié)果具有豐富的呈現(xiàn)方案,包括角色看板、數(shù)據(jù)大屏等不同數(shù)據(jù)展示方式。除此之外,數(shù)據(jù)治理環(huán)節(jié)應(yīng)當(dāng)貫穿整個(gè)數(shù)據(jù)的采集、存儲(chǔ)以及處理分析的整個(gè)過程。數(shù)據(jù)治理的最終目標(biāo)是提升數(shù)據(jù)的價(jià)值,這是企業(yè)實(shí)現(xiàn)數(shù)字戰(zhàn)略的基礎(chǔ),是一個(gè)管理體系。數(shù)據(jù)治理由企業(yè)數(shù)據(jù)治理部門發(fā)起并推行,包含關(guān)于如何制定和實(shí)施針對(duì)整個(gè)企業(yè)內(nèi)部數(shù)據(jù)的商業(yè)應(yīng)用和技術(shù)管理等一系列政策和流程。

大數(shù)據(jù)管理與應(yīng)用流程需要依靠相應(yīng)的計(jì)算平臺(tái)、存儲(chǔ)平臺(tái)和網(wǎng)絡(luò)平臺(tái)。對(duì)于采集到的內(nèi)部外部數(shù)據(jù),需要構(gòu)建合適的數(shù)據(jù)存儲(chǔ)平臺(tái),實(shí)現(xiàn)數(shù)據(jù)的物理存儲(chǔ),為數(shù)據(jù)分析工作做好準(zhǔn)備。數(shù)據(jù)分析過程中構(gòu)建相應(yīng)的模型和數(shù)據(jù)查詢機(jī)制,并最終提供數(shù)據(jù)可視化結(jié)果,這需要依靠相應(yīng)的數(shù)據(jù)計(jì)算平臺(tái)和網(wǎng)絡(luò)平臺(tái),利用大數(shù)據(jù)相關(guān)計(jì)算框架實(shí)現(xiàn)更加快速、高效的數(shù)據(jù)計(jì)算和處理展示。

二、大數(shù)據(jù)管理與應(yīng)用的技術(shù)體系

大數(shù)據(jù)管理與應(yīng)用的技術(shù)體系以數(shù)據(jù)資產(chǎn)為核心,包含問題理解、數(shù)據(jù)理解、數(shù)據(jù)處理、模型建立、模型評(píng)估和模型部署6個(gè)環(huán)節(jié),如圖1-5所示。大數(shù)據(jù)管理與應(yīng)用過程是循環(huán)往復(fù)的探索過程,這6個(gè)步驟在實(shí)踐中并不是按照直線順序進(jìn)行的,而是在實(shí)際執(zhí)行過程中時(shí)常反復(fù)。例如在數(shù)據(jù)理解階段發(fā)現(xiàn)現(xiàn)有的數(shù)據(jù)無法解決問題理解階段提出的問題時(shí),就需要回到問題理解階段重新調(diào)整和界定問題;到了模型建立階段發(fā)現(xiàn)數(shù)據(jù)無法滿足建模的要求,則可能要重新回到數(shù)據(jù)處理過程上;到了模型評(píng)估階段,當(dāng)發(fā)現(xiàn)建模效果不理想的時(shí)候,也可能需要重新回到問題理解階段審視問題的界定是否合理,是否需要做些調(diào)整。

圖1-5 大數(shù)據(jù)管理與應(yīng)用的技術(shù)體系

問題理解階段主要完成對(duì)問題的界定,以及對(duì)資源的評(píng)估和組織,這一環(huán)節(jié)需要確定問題目標(biāo),同時(shí)需要做出形勢(shì)評(píng)估并確定下一步數(shù)據(jù)挖掘目標(biāo),從而進(jìn)一步制訂項(xiàng)目計(jì)劃。

數(shù)據(jù)理解階段主要完成的是對(duì)數(shù)據(jù)資源的初步認(rèn)識(shí)和清理,這一階段需要收集原始數(shù)據(jù)并進(jìn)行數(shù)據(jù)描述,進(jìn)一步進(jìn)行數(shù)據(jù)的探索性分析,最后對(duì)數(shù)據(jù)質(zhì)量做出評(píng)估。

數(shù)據(jù)處理階段主要完成在建立模型之前對(duì)數(shù)據(jù)的最后準(zhǔn)備工作,包括選擇數(shù)據(jù)并對(duì)數(shù)據(jù)進(jìn)行清理,實(shí)現(xiàn)數(shù)據(jù)的重構(gòu)和整合等工作內(nèi)容。數(shù)據(jù)挖掘模型要求的數(shù)據(jù)是一張二維表,而在現(xiàn)實(shí)世界中,數(shù)據(jù)往往被存儲(chǔ)在不同的數(shù)據(jù)庫或者數(shù)據(jù)庫中的不同數(shù)據(jù)表中。數(shù)據(jù)處理階段將把這些數(shù)據(jù)集整合在一起,生成可以建立數(shù)據(jù)挖掘模型的數(shù)據(jù)集和數(shù)據(jù)集描述。

模型建立是大數(shù)據(jù)管理與應(yīng)用技術(shù)體系的核心階段,這一步驟將選擇建模技術(shù)并對(duì)其進(jìn)行評(píng)估,進(jìn)而產(chǎn)生檢驗(yàn)設(shè)計(jì),最后完成模型參數(shù)的設(shè)定,建立模型并對(duì)模型的各參數(shù)做出調(diào)整。

模型評(píng)估是大數(shù)據(jù)管理與應(yīng)用技術(shù)體系流程中非常重要的環(huán)節(jié),這一步將直接決定模型是否達(dá)到了預(yù)期的效果,還是必須重新進(jìn)行調(diào)整。模型評(píng)估可以分為兩個(gè)部分:一個(gè)是技術(shù)層面,主要由建模人員從技術(shù)角度對(duì)模型效果進(jìn)行評(píng)價(jià);另一個(gè)是問題層面,主要由業(yè)務(wù)人員對(duì)模型關(guān)于現(xiàn)實(shí)問題的適用性進(jìn)行評(píng)估。這一階段主要進(jìn)行的工作是篩選模型并回顧和查找疏漏,確定下一步工作內(nèi)容。

模型部署階段是將已經(jīng)建立并通過評(píng)估的數(shù)據(jù)挖掘模型進(jìn)行實(shí)際部署的過程。這一階段將產(chǎn)生結(jié)果發(fā)布計(jì)劃,建立對(duì)模型進(jìn)行監(jiān)測(cè)和維護(hù)的機(jī)制,生成最終的數(shù)據(jù)挖掘報(bào)告。最后進(jìn)行項(xiàng)目回顧,總結(jié)項(xiàng)目中的經(jīng)驗(yàn)教訓(xùn),為以后的數(shù)據(jù)挖掘項(xiàng)目進(jìn)行經(jīng)驗(yàn)積累。

三、大數(shù)據(jù)管理與應(yīng)用的應(yīng)用體系

大數(shù)據(jù)管理與應(yīng)用的應(yīng)用體系同樣是以數(shù)據(jù)資產(chǎn)為核心,包含問題理解、數(shù)據(jù)理解、數(shù)據(jù)處理、模型建立、模型評(píng)估和分析報(bào)告6個(gè)環(huán)節(jié)的循環(huán)往復(fù)的探索過程,如圖1-6所示。大數(shù)據(jù)管理與應(yīng)用中的應(yīng)用體系與技術(shù)體系的主要區(qū)別在于每次循環(huán)最后階段的工作內(nèi)容,不同于技術(shù)體系需要進(jìn)行模型部署,大數(shù)據(jù)管理與應(yīng)用的應(yīng)用體系在經(jīng)過問題理解、數(shù)據(jù)理解、數(shù)據(jù)處理、模型建立、模型評(píng)估環(huán)節(jié)后,還需要完成分析報(bào)告這一項(xiàng)工作內(nèi)容。

圖1-6 大數(shù)據(jù)管理與應(yīng)用的應(yīng)用體系

分析報(bào)告階段是運(yùn)用大數(shù)據(jù)管理與應(yīng)用的相關(guān)技術(shù)模型結(jié)果解決現(xiàn)實(shí)問題的過程,這一階段將實(shí)現(xiàn)整個(gè)大數(shù)據(jù)管理與應(yīng)用體系流程最終的價(jià)值,將生成最終的大數(shù)據(jù)分析報(bào)告以及報(bào)告演示。相關(guān)報(bào)告中蘊(yùn)含的潛在知識(shí)和見解,將被用于改善決策水平,為以后的相關(guān)管理者提供支持和幫助。

主站蜘蛛池模板: 新建县| 建平县| 抚顺县| 黄陵县| 商洛市| 沙雅县| 东宁县| 东乡族自治县| 辽中县| 池州市| 柘荣县| 木兰县| 汝州市| 珠海市| 峨眉山市| 玛沁县| 兴仁县| 凯里市| 长岛县| 集安市| 合阳县| 海盐县| 怀仁县| 广安市| 塔河县| 固始县| 新建县| 陕西省| 长兴县| 马关县| 新邵县| 北票市| 石门县| 博客| 保山市| 宁化县| 商都县| 泸水县| 阿瓦提县| 柘荣县| 高要市|