- 大數據技術原理與應用(第2版)
- 林子雨編著
- 812字
- 2019-07-30 13:20:24
1.5 大數據關鍵技術
當人們談到大數據時,往往并非僅指數據本身,而是數據和大數據技術這二者的綜合。所謂大數據技術,是指伴隨著大數據的采集、存儲、分析和應用的相關技術,是一系列使用非傳統的工具來對大量的結構化、半結構化和非結構化數據進行處理,從而獲得分析和預測結果的一系列數據處理和分析技術。
討論大數據技術時,需要首先了解大數據的基本處理流程,主要包括數據采集、存儲、分析和結果呈現等環節。數據無處不在,互聯網網站、政務系統、零售系統、辦公系統、自動化生產系統、監控攝像頭、傳感器等,每時每刻都在不斷產生數據。這些分散在各處的數據,需要采用相應的設備或軟件進行采集。采集到的數據通常無法直接用于后續的數據分析,因為對于來源眾多、類型多樣的數據而言,數據缺失和語義模糊等問題是不可避免的,因而必須采取相應措施有效解決這些問題,這就需要一個被稱為“數據預處理”的過程,把數據變成一個可用的狀態。數據經過預處理以后,會被存放到文件系統或數據庫系統中進行存儲與管理,然后采用數據挖掘工具對數據進行處理分析,最后采用可視化工具為用戶呈現結果。在整個數據處理過程中,還必須注意隱私保護和數據安全問題。
因此,從數據分析全流程的角度,大數據技術主要包括數據采集與預處理、數據存儲和管理、數據處理與分析、數據安全和隱私保護等幾個層面的內容,具體見表1-5。
表1-5 大數據技術的不同層面及其功能

需要指出的是,大數據技術是許多技術的一個集合體,這些技術也并非全部都是新生事物,諸如關系數據庫、數據倉庫、數據采集、ETL、OLAP、數據挖掘、數據隱私和安全、數據可視化等技術是已經發展多年的技術,在大數據時代得到不斷補充、完善、提高后又有了新的升華,也可以視為大數據技術的一個組成部分。對于這些技術,除了數據可視化技術以外,我們將不做介紹,本書重點闡述近些年新發展起來的大數據核心技術,包括分布式并行編程、分布式文件系統、分布式數據庫、NoSQL數據庫、云數據庫、流計算、圖計算等。
- 網絡服務器架設(Windows Server+Linux Server)
- VMware Performance and Capacity Management(Second Edition)
- 計算機圖形圖像處理:Photoshop CS3
- 空間傳感器網絡復雜區域智能監測技術
- Docker Quick Start Guide
- 數據挖掘方法及天體光譜挖掘技術
- MATLAB/Simulink權威指南:開發環境、程序設計、系統仿真與案例實戰
- Visual FoxPro數據庫基礎及應用
- 分析力!專業Excel的制作與分析實用法則
- 激光選區熔化3D打印技術
- 實用網絡流量分析技術
- 數據要素:全球經濟社會發展的新動力
- 西門子S7-1200/1500 PLC從入門到精通
- Hands-On Microservices with C#
- QTP自動化測試實踐