官术网_书友最值得收藏!

第三節 大數據技術及其發展

一、數據與大數據

(一)數據的概念與內涵

數據是對客觀事物的性質、狀態及相互關系等進行記載的物理符號或這些物理符號的組合,是用于表示客觀事物的未經加工的原始素材。

在計算機系統中,數據以二進制信息單元0和1的形式表示,所有能輸入到計算機并被計算機程序處理的符號、數字、字母、模擬量等都叫數據。通俗來說,數據是指尚未被整理成被人們理解和使用的形式之前的表示,即發生于組織或組織所處環境中的原始事實的符號串。日常工作、生活、學習、娛樂過程中形成的文字、字母、數字符號的組合、圖形、圖像、視頻、音頻等,以及對各種事物的屬性、數量、位置及其相互關系的抽象表示,都是數據。

與數據經常一起談及的,還有信息和知識。信息是指為了某種需求而對原始數據加工重組后形成的有意義、有用途的數據。知識是指在信息的基礎上提煉和總結的具有普遍指導意義的內容,包括共性規律、理論和模型模式方法等。如圖1-5所示,數據、信息和知識三者既有區別又有緊密聯系、不可分離。

圖1-5 數據、信息、知識三者的關系

三者的關系具體表現在:①信息源于數據,但高于數據。數據是信息的表現形式和載體,是信息的原始記錄;信息是經過加工后的對某現象具有一定解釋力的數據,是有價值的數據。②知識是信息的進一步提升,是更加系統化、理論化的信息。③從數據到信息再到知識的階梯式遞進方式,也是從認識局部到認識整體的過程。值得注意的是,數據本身并沒有意義,數據只有對實體行為產生影響時才成為信息,具有意義。

(二)大數據的概念與內涵

近年來,“大數據”(Big Data)已成為一個受全世界關注的熱門詞匯,在科研、電信、金融、教育、醫療、軍事、電子商務甚至國家及政府機構決策時都離不開大數據的身影,大數據已成為國家重要的基礎性戰略資源,正引領新一輪科技創新,推動經濟轉型發展。目前,國際上關于大數據尚未形成統一定義。

(1)麥肯錫全球研究院(McKinsey Global Institute)指出,“大數據是指大小超出常規數據庫工具獲取、存儲、管理和分析能力的數據集”,并強調并不一定只有超過特定值的數據集才算是大數據。

(2)國際數據公司(IDC)從四個特征定義大數據,即海量的數據規模(Volume)、快速的數據流轉和動態的數據體系(Velocity)、多樣的數據類型(Variety)和巨大的數據價值(Value)。

(3)國際研究機構Gartner指出,“大數據是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資產”。

(4)亞馬遜大數據科學家John Rauser將大數據簡單定義為任何超過了一臺計算機處理能力的數據量。

(5)維基百科指出,“大數據是指所涉及的資料量規模巨大到無法通過目前主流軟件工具,在合理時間內達到擷取、管理、處理并整理以幫助企業經營決策目的的信息”。

(6)美國國家科學基金會(NSF)指出,“大數據是由科學儀器、傳感設備、互聯網交易、電子郵件、音視頻軟件、網絡點擊流等多種數據源生成的大規模、多元化、復雜、長期的分布式數據集”。

(7)我國國務院于2015年發布的《促進大數據發展行動綱要》中,對大數據進行了全新界定,即“大數據是以容量大、類型多、存取速度快、應用價值高為主要特征的數據集合,正快速發展為對數量巨大、來源分散、格式多樣的數據進行采集、存儲和關聯分析,從中發現新知識、創造新價值、提升新能力的新一代信息技術和服務業態”。

大數據是一個寬泛的概念,以上幾個定義都無一例外地突出了“大”字。誠然“大”是大數據的一個重要特征,但并不是全部。本書認為,大數據是指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理,需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的數據集合。

我們可以從趨勢變化角度更加深刻地理解大數據的內涵。在數據內容維度,大數據從生產管理、財務管理擴展到用戶行為、產品狀態、社交數據等數據;在數據結構維度,大數據從結構化數據逐漸擴展到網頁、文檔、視頻等非結構化數據;在數據工具維度,大數據促使數據工具從數據庫演變到了數據倉庫,再到分布式數據管理系統。此外,值得注意的是,技術是大數據價值體現的手段和前進的基石,而實踐是大數據的最終價值體現。大數據不僅僅是一種工具,更是一種戰略、世界觀和文化,是提倡用數據說話,減少主觀主義和經驗主義錯誤的戰略思維。

(三)大數據的發展歷程

大數據的發展歷程總體上可以劃分為4個重要階段:萌芽期、突破期、成熟期和大規模應用期,見表1-3。

表1-3 大數據發展的4個階段

2008年9月,《自然》雜志(Nature)推出“大數據”封面專欄,“大數據”受到人們關注并逐漸成為互聯網技術熱門詞匯。

2011年5月,麥肯錫全球研究院發布了題為《大數據:創新、競爭和生產力的下一個前沿》的報告。該報告認為數據已經成為經濟社會發展的重要推動力,并對大數據會產生的影響、所需關鍵技術以及應用領域等進行了較詳盡的分析。

2012年3月,美國奧巴馬政府發布了《大數據研究和發展倡議》,正式啟動“大數據發展計劃”,大數據上升為美國國家發展戰略。

2012年7月,日本推出“新ICT戰略研究計劃”,把大數據發展作為國家層面的戰略提出。

2013年12月,中國計算機學會發布《中國大數據技術與產業發展白皮書》,系統總結了大數據的核心科學與技術問題,推動了我國大數據學科的建設與發展。全球范圍內,世界各國政府均高度重視大數據技術的研究和產業發展,紛紛把大數據上升為國家戰略加以重點推進,以期在“第三次信息化浪潮”中搶占先機,引領市場。

2017年1月,工信部發布《大數據產業發展規劃(2016― 2020年)》,全面制定了“十三五”期間的大數據產業發展計劃。

2021年11月底,工信部發布《“十四五”大數據產業發展規劃》,提出“十四五”時期的總體目標:到2025年我國大數據產業測算規模突破3萬億元,年均復合增長率保持25%左右,創新力強、附加值高、自主可控的現代化大數據產業體系基本形成。

隨著信息網絡技術、生物信息技術和計算機科學的迅猛發展,醫藥衛生、互聯網、社會經濟等各領域的數據日新月異、呈井噴式積累。根據國際機構Statista的統計和預測,全球數據量在2019年約達到41ZB(ZB:十萬億億字節)。國際數據公司(IDC)統計顯示,全球90%的數據是在過去兩年內積累的,預計到2025年,全球數據量將比2016年的18ZB增加8倍,達到163ZB。如圖1-6所示,人類社會進入了大數據時代,大數據的影響力和作用力正迅速觸及社會的每個角落。

圖1-6 2016—2020年全球產生數據量

(四)大數據的分類

1.按表現形式的不同分類

按表現形式不同,大數據分為模擬數據和數字數據。其中,模擬數據是指由傳感器采集得到的連續變化的值,如溫度、壓力,以及電話、無線電和電視廣播中的聲音、視頻等。伴隨著物聯網技術的發展與應用,數以億計的傳感器實時產生模擬信號,形成巨大規模的數據。數字數據則是指模擬數據經量化后得到的離散的值,例如,文字、數字以及用二進制代碼表示的字符、圖形、音頻、視頻等。

2.按載體的不同分類

按載體不同,大數據分為文本數據、圖片數據、音頻數據和視頻數據。其中電子文檔(如TXT文本、Excel電子表格)等屬于文本數據;手機、相機拍攝的照片、掃描照片等屬于圖片數據;語音、音樂、效果音等數字化聲音屬于音頻數據;錄像、電影等連續的圖像序列屬于視頻數據,具有信息內容豐富、數據量巨大等特點。值得注意的是,隨著信息技術的發展,人們在各大媒體平臺看到的大多為融合了文本、圖片、音頻、視頻的多媒體數據。

3.按數據結構的不同分類

按數據結構的不同,大數據分為結構化數據、非結構化數據和半結構化數據。

(1)結構化數據。結構化數據是指由二維表結構來邏輯表達和實現的數據,如表格數據、面向對象數據庫中的數據等。結構化數據主要通過關系數據庫進行存儲和管理,嚴格遵循數據格式與長度規范,字段之間相互獨立,是傳統數據的主體。

(2)非結構化數據。非結構化數據是指數據結構不規則或不完整,沒有預定義的數據模型,不方便用數據庫二維邏輯表來表現的數據。包括所有格式的辦公文檔、圖片、圖像、音頻、視頻信息等。由于非結構化數據格式多樣,在存儲、檢索、發布及利用過程中需要更加智能化的IT技術,如海量存儲、智能檢索、知識挖掘、內容保護、信息的增值開發利用等。

(3)半結構化數據。半結構化數據是指介于結構化數據和非結構化數據之間的,以自描述的文本方式記錄的數據,如HTML文檔、模型文檔等。此外,由于自描述數據無須滿足關系數據庫的嚴格結構,在使用過程中非常方便,因此很多網站和應用訪問日志多采用半結構化格式。非結構化和半結構化數據是大數據的主體,其增長速度遠大于結構化數據。

4.按數據來源的不同分類

按數據來源不同,大數據分為交易數據、移動通信數據、人為數據、機器和傳感器數據。

(1)交易數據。交易數據又稱業務數據,是指業務處理過程中或事務處理所產生的數據。如客戶關系管理(CRM)系統數據、庫存數據、銷售點終端機(POS機)數據、銷售數據、生產數據等。交易數據是面向應用的操作型數據,具有時效性強、數據量大等特點,目前大數據平臺能夠獲取時間跨度更大、更海量的結構化交易數據并進行數據分析。

(2)移動通信數據。移動通信數據是指被移動通信設備所記錄的數據,包括運用軟件存儲的交易數據、個人信息資料或狀態報告事件等。隨著智能手機等移動設備普及性增強,移動設備上的軟件能夠追蹤和溝通無數事件,移動通信設備記錄的數據量和數據立體完整度逐漸豐富。

(3)人為數據。人為數據包括電子郵件、文檔、圖片、音頻、視頻,以及通過微信、微博等社交媒體產生的數據流。這些數據大多數為非結構化數據,需要用文本分析功能進行分析。

(4)機器和傳感器數據。機器和傳感器數據是指來自感應器、量表和其他設施的數據,包括呼叫記錄(Call Detail Record)、智能儀表數據、工業設備傳感器數據、設備日志、交易數據等。

(五)大數據的特征

大數據的5V特征包括容量大、類型多樣、價值密度低、流轉速度快和真實性要求高。

1.容量大(Volume)

根據著名咨詢機構IDC提出的“大數據摩爾定律”,人類社會產生的數據一直都在以每年50%的速度增長,也就是說,每兩年數據量將增加一倍多,這意味著人類在最近兩年產生的數據量相當于之前產生的全部數據量之和。根據統計和預測,如圖1-7所示,2025年全球數據產生量預計達到163ZB,而到2035年,這一數字將達到2142ZB,全球數據量即將迎來更大規模的爆發。

圖1-7 全球每年產生數據量估算圖

2.類型多樣(Variety)

大數據的數據來源廣泛、數據類型豐富,涉及互聯網、醫藥、保險、金融、環境等諸多領域,包含文本、圖片、音視頻、數據庫、網頁等各類結構化、半結構化及非結構化數據。其中,結構化數據占10%左右,主要是指存儲在關系數據庫中的數據;半結構化及非結構化數據占90%左右,主要包括網絡日志、音頻、視頻、圖片、地理位置信息等。繁多的異構數據存在無序化、碎片化、非結構化、非標準化等問題,對數據的處理能力提出了更高的要求。

3.價值密度低(Value)

在大數據時代,很多有價值的信息都是分散在海量數據中的,數據商業價值高,但價值密度低。以小區監控視頻為例,在連續不間斷的監控過程中,可能有用的數據僅有2~3s,若沒有意外事件發生,連續不斷產生的數據都沒有任何價值。因此,大數據的價值密度遠遠低于傳統關系數據庫中已經有的那些數據。

4.流轉速度快(Velocity)

大數據時代的很多應用都需要基于快速生成的數據給出實時分析結果以指導生產和生活實踐,數據由離線處理變為在線處理,可以隨時調用和計算是大數據區別于傳統數據的最大特征,這對數據采集設備的讀取速度、存儲設備的吞吐量和交換設備的傳輸速度等都提出了較高的要求。

5.真實性要求高(Veracity)

大數據的內容是與真實世界息息相關的,研究大數據就是從龐大的數據中提取能夠解釋和預測現實事件的過程。因此,大數據時代對數據準確性、可信賴度、安全性均提出了較高要求。

二、大數據技術及其架構

(一)大數據技術

大數據技術是指伴隨著大數據的采集、存儲、分析和應用的相關技術,是使用非傳統的工具來對大量的結構化、半結構化和非結構化數據進行處理,從而獲得分析和預測結果的一系列數據處理和分析技術。大數據技術是生產力提高和科技進步的必然結果,是社會發展和時代變革的助推器。

大數據技術是一系列技術的集合體,通過這些技術可從大數據中挖掘信息,協助制定決策并實現系列大數據服務。從數據分析全流程的角度,大數據技術主要包括數據采集與預處理、數據存儲和管理、數據處理和分析、數據安全和隱私保護等層面的內容。常規的大數據分析技術涉及統計分析、數據挖掘、機器學習、自然語言處理、文本分析、圖像語音識別、可視化技術等,見表1-4。

表1-4 常見的大數據技術

(二)大數據技術架構

根據大數據從來源到應用的流程,可以將大數據技術架構分為數據采集層、數據存儲層、數據分析層和數據應用層,如圖1-8所示。

圖1-8 大數據技術架構

1.數據采集層

數據無處不在,互聯網網站、辦公系統、政務系統、傳感器、監控攝像頭等都在每時每刻產生數據。數據采集層通過傳感器、社交網絡、移動互聯網等設備或軟件將分散在各處的海量數據收集起來,為后續的分析和應用提供數據基礎。

數據采集主要包括數據獲取、數據傳輸、數據初步整理和數據入庫四個環節。具體來看,用戶從數據源抽取所需數據,利用抽取、轉換、裝載(ETL)工具將異構數據源中的數據(如關系數據、平面數據文件等)抽取到臨時中間層后進行清洗、轉換、集成,按照預先定義好的數據模型將數據加載到數據倉庫或數據集市中,成為聯機分析處理(OLAP)、數據挖掘的基礎;也可以利用日志采集工具(如Flume、Scribe等)把實時采集的數據作為流式計算系統的輸入,進行實時處理分析。

通常大數據采集的數據類型主要有互聯網數據、系統日志數據、內部數據庫數據和傳感數據,可能存在不同的結構和模式,需要將來自不同數據集的數據收集、整理、清洗、轉換后,生成一個新的數據集,為后續查詢和分析處理提供統一的數據視圖。

2.數據存儲層

大數據存儲與管理是指用存儲設備對收集的數據進行存儲,建立數據庫并進行管理和調用。數據存儲層利用分布式文件系統、數據倉庫、關系數據庫、云數據庫等,實現對結構化、半結構化和非結構化海量數據的存儲和管理。

數據存儲分為持久化存儲和非持久化存儲。持久化存儲表示把數據存儲在磁盤中,關機或斷電后數據依然不會丟失。非持久化存儲表示把數據存儲在內存中,讀寫速度快,但是關機或斷電后會引起數據丟失。目前大數據存儲主要通過采用彈性可擴展、高容錯、高可用、高吞吐量、高效且成本低的分布式存儲系統實現,即將各種類型的數據存儲在分散的物理設備節點上,在不同節點上進行副本備份,并通過網絡連接存儲資源。目前代表性的分布式架構大數據存儲技術是Google(谷歌)的GFS和Hadoop的HDFS。

3.數據分析層

本層運用數據分析、基于統計學的數據挖掘和機器學習算法等分析和解釋數據集,幫助企業挖掘數據價值,實現數據深加工。大數據處理分為在線處理(實時處理)和離線處理(批量處理)兩類。所謂在線處理,是指對實時響應要求非常高的處理,如數據庫的一次查詢;離線處理是對實時響應沒有要求的處理,如批量壓縮文檔等。Hadoop的MapReduce計算就是一種非常適合的離線批處理框架。為提升效率,下一代的管理框架YARN和更迅速的計算框架Spark最近幾年也在逐步成型中。在此基礎上,人們又提出了Hive、Pig、Impala和Spark SQL等工具,進一步簡化了某些常見查詢。此外,Spark Streaming和Storm則在映射和歸約思想的基礎上,提供了流式計算框架,進一步提升處理的實時性。

4.數據應用層

大數據的價值體現在幫助企業進行決策和為終端用戶提供服務的應用上。數據應用層是大數據技術與應用的目標層,通常包括信息檢索、關聯分析等功能。大數據應用需要深入分析行業數據特點,梳理行業數據產品需求,建立適用于不同行業的數據應用產品。大數據的充分應用能夠為企業提供競爭優勢,并對大數據技術提出新的要求。

三、大數據的價值與應用

(一)大數據的價值

大數據的真正價值不在于大,而在于它的全,即空間維度上多角度、多層次信息的交叉復現和時間維度上與人或社會活動相關聯的信息持續呈現。大數據將各行各業的用戶、方案提供商、服務商、運營商及整個生態鏈上的相關者都融入一個大環境中,無論是消費者市場還是企業級市場,抑或是政府公共服務,都與大數據息息相關。消費者用戶對大數據的需求主要體現在按需搜索、智能信息的提供、用戶體驗更方便快捷等;企業用戶對大數據的需求主要體現在降低企業交易摩擦成本和經營風險,挖掘細分市場,提高企業的商業決策水平等。此外,大數據也被不斷應用到政府日常管理中,成為政府改革和轉型的技術支撐杠桿和推動政府政務公開、完善服務、依法行政的重要手段。

從業務角度出發,大數據的核心價值主要有以下三點:

(1)數據輔助決策。大數據及其技術能夠為企業提供基礎的數據統計報表分析服務并獲取數據產出分析報告,指導產品運營。管理層通過數據掌握公司業務運營狀況,輔助戰略決策;產品經理通過統計數據完善產品功能、改善用戶體驗;運營人員通過數據發現運營問題、確定運營策略。

(2)數據驅動業務。管理者通過數據產品、數據挖掘模型實現企業產品和運營智能化,從而極大地提高企業整體效能產出,如基于個性化推薦技術的精準營銷服務、基于模型算法的反欺詐服務等。

(3)數據對外變現。企業通過對數據進行精心包裝,對外提供數據服務,獲得現金收入。例如,數據公司利用所掌握的大數據提供數據開放平臺服務,實現導客、導流、精準營銷。

(二)大數據應用

1.大數據應用的層次

按照數據開發應用深入程度不同,可將大數據應用分為描述性分析應用、預測性分析應用和指導性分析應用三個層次,如圖1-9所示。

圖1-9 大數據應用的層次

(1)描述性分析應用。描述性分析應用是指從大數據中總結、抽取相關的信息和知識,幫助人們分析發生了什么,并呈現事物發展歷程的過程。例如,美國的DOMO公司從其企業客戶的各個信息系統中抽取、整合數據,再以統計圖表等可視化形式將數據蘊含的信息推送給不同崗位的業務人員和管理者,幫助其更好地了解企業現狀,進而做出判斷和決策。

(2)預測性分析應用。預測性分析應用是指從大數據中分析事物之間的關聯關系、發展模式等,并據此對事物發展的趨勢進行預測。例如,微軟公司紐約研究院研究員David Rothschild通過收集和分析賭博市場、好萊塢證券交易所、社交媒體用戶發布的帖子等大量公開數據,建立預測模型,對多屆奧斯卡獎項歸屬進行預測,準確率達87.5%。

(3)指導性分析應用。指導性分析應用是指在前兩個層次的基礎上分析不同決策將導致的后果,并對決策進行指導和優化。例如,無人駕駛汽車分析高精度地圖數據和海量激光雷達、攝像頭等傳感器實時感知數據,對車輛不同駕駛行為后果進行預判,并據此指導車輛的自動駕駛。

2.大數據應用領域

(1)電商領域。淘寶、京東等電商平臺通過用戶瀏覽足跡收集用戶信息,進行用戶畫像,為用戶提供個性化定制推送,進行精準營銷。

(2)政府領域。“智慧城市”已經在多地嘗試運營,政府部門借助大數據感知社會發展變化需求,更加科學化、精準化、合理化地為市民提供公共服務。

(3)醫療領域。通過臨床數據對比、實時統計分析、遠程病人數據分析、就診行為分析等輔助醫生進行臨床決策,規范診療路徑,提高工作效率。借助大數據平臺收集病人疾病信息、化驗和檢測報告,建立針對疾病特點的數據庫。另外,大數據分析還有助于監測、預測流行性或傳染性疾病的暴發時期,協助找到治療方法。

(4)交通領域。利用大數據傳感器數據了解車輛通行密度,合理進行道路規劃,防止和緩解交通擁堵,為改善交通狀況提供優化方案。

(5)金融領域。在用戶畫像的基礎上,根據客戶需求、年齡、資產規模、理財偏好等,對用戶群進行精準定位,考慮社交媒體、新聞網絡數據構建算法模型,更全面地做出買賣決策。

(6)安防領域。應用大數據技術實現視頻圖像模糊查詢、快速檢索、精準定位,進一步挖掘海量視頻監控數據背后的價值信息,輔助決策判斷。例如,企業防御網絡攻擊、警察捕捉罪犯、信用卡公司監控欺詐性交易等。

3.大數據應用的發展方向

在大數據時代,通過對海量數據的整合,挖掘其中有價值的信息,指導各領域應用與活動成為大數據發展的趨勢。當前,雖然已有很多成功的大數據應用案例,但大數據應用仍處于初級階段,描述性、預測性分析應用較多,決策指導性分析應用偏少。應用層次最深的決策指導性應用,雖然已在人機博弈等非關鍵性領域取得較好的應用效果,但在自動駕駛、政府決策、軍事指揮、醫療健康等應用價值更高,且與人類生命、財產、發展和安全緊密相關的領域,尚未獲得有效應用,仍面臨著一系列待解決的重大基礎理論和核心技術挑戰。

未來,隨著應用領域的拓展、技術的提升、數據共享開放機制的完善,以及產業生態的成熟,具有更大潛在價值的預測性和指導性應用將是大數據應用的發展重點。

主站蜘蛛池模板: 祁东县| 宜州市| 邳州市| 武夷山市| 东海县| 扶风县| 乐平市| 密云县| 两当县| 绥江县| 从化市| 额济纳旗| 景宁| 苍梧县| 赤峰市| 汨罗市| 五峰| 永城市| 太保市| 保靖县| 康马县| 景谷| 云霄县| 辉县市| 洛川县| 吕梁市| 方正县| 正蓝旗| 浦城县| 台前县| 绥化市| 托克托县| 富锦市| 通州区| 库尔勒市| 苏尼特右旗| 泰和县| 南城县| 天镇县| 黄大仙区| 武威市|