官术网_书友最值得收藏!

1.1 關于大數據

大數據,顧名思義,即海量的數據。人類社會從古至今一直同數據的存儲與提煉打交道,如古代政府機構對各類公文案牘的處理,某影視劇中出現的“大案牘術”便是一種數據梳理、加載、提煉的原始場景。案牘,是中國古代官府的公文案卷。大,指數量多、范圍廣。術,則指方法能力。據考證,類似于今天大數據分析的“大案牘術”在唐代確實有一定的史實依據。照此分析起來,劇中關于“大案牘術”的一些情節設置,對做好國防動員潛力數據的調查和運用不無啟發意義。現代最早大規模地管理和使用數據是從數據庫的誕生開始的,如企業信息化階段各種管理經營類系統的建設都是建立在數據庫基礎之上的,數據庫中保存了大量結構化的企業關鍵信息,用來滿足企業的各種業務需求。在這個階段,數據的產生方式是被動的,只有當實際的企業業務發生時,才會產生新的記錄并有數據存入數據庫。而面對移動互聯網等技術和模式的飛速革新,企業業務也正在發生巨大的變革,我們已經步入了一個“數據爆炸”的時代。隨著物聯網的普及,各種數據獲取方式遍布人類活動的各個角落,這些渠道每時每刻都在產生著大量的數據。而企業層面,大數據的數據來源眾多,企業應用和各類Web應用都在源源不斷地生成新的交易數據,也需要運用各類網絡媒介的數據,如社交媒體大數據、搜索大數據、交通大數據、醫療大數據、電信大數據、金融大數據等,數據量已經從TB級別躍升至PB級別。大數據不僅僅是指數據量大,更主要的是包含非常規的數據結構,導致其數據類型豐富。這些數據包括結構化和非結構化數據,其中,結構化數據一般存儲在關系數據庫(如Oracle、MySQL等)中,而大量的非結構化數據種類繁多,主要包括圖片、視頻、語音、位置等,廣泛存在于郵件、微信、微博、新聞、日志文件等媒介中。如此繁多的異構數據對數據處理和分析技術都提出了新的挑戰,也帶來了新的機遇,這些機遇促使我們將數據挖掘、統計、機器學習、云計算、大數據處理技術相結合對海量數據進行深度處理與提煉以充分利用其價值,其宏觀上主要體現在大數據決策、大數據應用與各行業的深度融合以及大數據開發推動新型應用等方面。

1.1.1 大數據應用場景

大數據決策可以面向種類繁多、非結構化的海量數據進行分析,應用在政府機構、互聯網、金融(銀行、證券、保險等)、交通、能源以及服務等領域。例如,政府機構可以把大數據技術融入“輿情分析”,通過對論壇、微博、微信、社區等多種來源的數據進行綜合分析后理解當下趨勢,提煉其中有價值的內容,對社會發展做出正確的預測,協助政府決策應對突發事件,還可以利用大數據處理交通、環保監測、城市規劃等方面的建設。再如銀行業,可以利用大數據分析技術構建客戶畫像,包括個人畫像、企業畫像,在構建畫像的基礎上開展運營優化、風險管控、精準營銷、業務創新等服務;業務上可以精簡流程快速放貸、為客戶提供各種理財產品組合與相關升級服務。在風險管控方面可以進行事先反欺詐、小微企業貸款評估。在業務創新方面,可實現批量獲客、跨界融合以實現產業升級。又如互聯網行業,可以借助大數據分析客戶行為進行商品推薦和有針對性的廣告投放(精準營銷)。在生物醫學行業,大數據可以幫助實現流行病預測與疫情防控(如COVID-19疫情下我們的大數據體系便對實時疫情數據分析展示、病毒溯源等方面做出了非常積極的貢獻)。物流行業中(供應鏈),可以利用大數據優化物流網絡,提高物流效率,降低物流成本,也可以基于實時數據分析實現全企業的供應體系狀態可視化。當然,相關應用行業與場景不勝枚舉,在此不一一闡述。

1.1.2 大數據應用方式

大數據分析已廣泛應用于各個領域,很多智能的、隱藏的、有價值的信息只有通過深入的數據挖掘才能獲取。毫無疑問,在企業各業務部門中數據分析已經占據了越來越重要的地位。隨著企業集成的數據源不斷增多、海量數據不斷累積、數據更新頻率不斷加快、業務維度不斷增多,傳統的數據存儲、處理、讀取以及分析技術能力面對大數據洪流下的各方面需求顯然已捉襟見肘。因此,對大批量、復雜的各類業務數據的存儲、處理和分析能力就顯得尤為重要,它直接影響了企業最終能否獲得有價值的信息。在大數據時代,企業要想有效利用數據中的價值,就要緊跟大數據技術的發展步伐,提升復雜數據分析能力。復雜數據分析(Sophisticated Data Analysis)是通過整合各種功能強大的數據處理工具,以高性能的數據處理方式來采集、整合和分析復雜數據,并快速從中挖掘出有效信息的技術。

企業數據通常來自內外部的多個數據源,具有體量大、維度多、更新快、價值密度低和數據形式多樣的特點。其面對的數據庫有傳統的關系型數據庫(如MySQL、Oracle等),也有適用于處理大量數據的高訪問負載以及日志系統的鍵值數據庫、適用于分布式大數據管理的列存儲數據庫、適用于Web應用的文檔型數據庫和適用于社交網絡的圖形數據庫等非關系型數據庫。可處理的數據分為結構化數據和文本、圖像、音頻、視頻等非結構化數據。大量的、復雜的數據增加了處理的難度,但也提供了更大的信息量。復雜數據分析可以從大量數據中發現其蘊含的模式和規律,進而產生更多的價值。復雜數據分析所涉及的技術包括數據采集、數據處理、數據建模和統計分析等。

1.數據采集(SQL & NoSQL、網絡爬蟲等)

復雜數據分析的數據源可以是傳統的內部數據庫,也可以是來自網絡上的外部數據。內部數據采集可使用SQL將內部關系型數據庫中的數據提取出來,或使用NoSQL將分布的異構數據源中的數據文件(如圖片、文本等)抽取出來。外部數據采集通常會用到網絡爬蟲技術,從Web中獲取所需的海量數據,如研究機構或新聞網站上發布的信息等。數據獲取后,對其進行清洗、轉換、集成,最后加載到數據倉庫或數據集市中使用。

2.數據處理(Hadoop/MapReduce & Spark、HDFS、數據抽取 & NLP)

由于復雜數據分析所面對的數據通常體量巨大且形式多樣,一般需要使用更高性能的計算架構和存儲系統。例如,使用Hadoop大數據處理平臺處理用戶App瀏覽記錄等數據時,使用分布式計算的MapReduce、Spark計算框架可以提升計算能力,從而應對更復雜的數據并減少數據處理時間,使用分布式文件存儲HDFS進行大規模數據協同工作來提升數據的吞吐能力和速度。針對非結構化的數據,往往需要對數據進行深入理解,并通過復雜數據分析將結構多樣、語義多樣的數據進行結構化處理,提取出可以直接進行分析的數據,如針對半結構化數據的數據抽取(Information Extraction)和用于非結構化數據的自然語言處理。

3.數據建模(分類、聚類、預測等)

數據建模是復雜數據分析的核心技術,它能從大量數據中通過算法搜索隱藏于其中的信息,主要的算法包括分類(Classification)、聚類(Clustering)、預測(Prediction)、估計(Estimation)和復雜數據類型挖掘(text、Web、圖形圖像、視頻、音頻等)等。數據建模可基于用戶行為數據實現對人群特征的分類、根據歷史數據預測行業走勢和基于對海量圖片的深度學習做到對圖形圖像的識別。

4.統計分析(假設檢驗、顯著性檢驗、相關性分析等)

統計分析是復雜數據分析的常規武器,運用統計方法進行定性和定量的分析,對研究對象產生更為深刻的認識。主要的分析技術如下。

● 假設檢驗(Hypothesis Test):用來推斷假設是否成立。

● 顯著性檢驗(Significance Test):用來檢驗變量對目標的影響程度。

● 相關性分析(Correlation Analysis):用來分析變量之間的關系。

● T檢驗(T Test):用來比較兩組數據是否存在顯著差異。

● 其他統計分析方法,如方差分析(ANOVA)等。

在應用層面,無論對政府機構還是對各個企業而言,目前大數據在客戶需求分析、大數據精準營銷、大數據企業運營決策、大數據信用評估體系、大數據社會治理與科學研究等各方面都發揮著重大的作用。

1.1.3 數據管理與數據治理的關系

前文中大體講述了大數據如今或未來的各種應用場景和應用方式,而本節將主要定位于企業級大數據應用層面。企業大數據是一個現代革命性的愿景,能將整個集團和下屬子公司、控股公司、各個部門、各個業務之間分散的數據源進行整合,支持計算容量爆炸的數據增長,能夠顯著改進企業經營效率,并按照企業需求進行相關擴展,為業務拓展提供動力,所以企業級大數據建設應始終圍繞“如何管理數據”“如何分析數據”“如何更好地應用數據”等重點展開討論。其中,“如何管理數據”之“數據治理”便成了下文闡述的重點。

數據是信息化應用的基礎,所有的企業資料最終都會在各系統中匯集成各類數據,保存在各數據庫中,企業用戶通過各種業務或非業務相關的系統創建數據、獲取數據,而數據的準確性、完整性都直接決定了信息化在企業戰略中的成效。

數據管理(Data Management)是指通過規劃、控制與提供數據和信息資產職能,以獲取、控制和提高數據和信息資產價值的過程,所以對數據的科學管理便是數據準確、完整的基礎保障。

數據治理在一定程度上是對數據管理的細化,它通過明確相關管理組織、工作責任和管理流程來確保數據資產能長期有效、可持續地得到管理,進而使企業獲得高質量的數據。高質量的數據對任何企業來說都是十分重要的戰略性資產,尤其是伴隨著企業的數字化轉型進程,高質量的數據正快速成為一個關鍵的業務差異。企業要使數據具有價值,就要確保數據的高可信度、安全性、可訪問性、準確性、共享性和及時性。數據治理有助于增強企業的靈活性,以最小化決策的相關成本和風險,特別是在數字經濟中,數據治理比以往任何時候都顯得重要。

目前,數據治理在很多企業實踐的過程中也遇到了各種各樣的問題,如缺乏企業高層領導的支持、系統間的數據壁壘、整個治理項目缺乏明確的流程和數據標準、治理流程和問責機制不明確等。數據治理效果不佳,自然也影響到了企業中所有跨功能和跨業務的決策機制。數據治理具有戰略性、長期性、艱巨性、系統性,需要持續進行企業內部數據環境優化治理工作,因此數據治理不是一蹴而就、一竿見影的,它是一個漫長、持續方見成效的過程,所以要避免僅僅對數據治理工作有粗淺的認識。

數據治理與企業大數據分析與應用之間的關系如下。

大數據分析是基于商業目的對海量數據進行采集、整理、加工和多維度分析并提煉數據價值的過程,越來越多的企業也開始推行適合自身的“大數據分析”相關規劃,當然,其中重要的推動力是許多企業目前面臨數字化轉型的巨大壓力,而數字化轉型的基礎則是打通數據,如果數據不通、標準不一致、質量不高,就無法做數據分析。那應該如何打通企業內部數據呢?這就必須要做數據治理。

企業做數據治理,其中很重要的目的是解決應用與應用間的信息共享問題,尤其是重要業務領域之間的數據共享能使各業務領域相互聯通。企業中很多數據使用場景(如信用數據、智能物流以及精準營銷等),也都是通過數據治理以及各種數據管控、管理措施在后續大數據平臺的啟動之下構成了業務數據聯通以及數據分析提煉、可視化等數據消費的閉環,使企業整體的數字化水平得以提高。

所以在數字化轉型宏觀體系中,數據治理是基礎。企業通過數據治理提升數據質量,建立可靠的數據制度與規范,為各類大數據應用提供源源不斷的“優質能源”,才能為業務提供智能化的數據工作環境和數據價值挖掘。

主站蜘蛛池模板: 南靖县| 新昌县| 会理县| 乌什县| 石首市| 城市| 万州区| 星座| 岑溪市| 岢岚县| 乳山市| 同德县| 崇明县| 绥宁县| 盈江县| 竹北市| 清徐县| 潮安县| 子长县| 崇礼县| 钦州市| 汨罗市| 内黄县| 舞钢市| 郑州市| 星子县| 台前县| 清流县| 安徽省| 辽源市| 大城县| 洛川县| 区。| 祥云县| 黄石市| 上饶县| 长白| 玉树县| 济源市| 佛教| 韩城市|