官术网_书友最值得收藏!

任務1.1 開始大數據采集認知

1.1.1 任務描述

人工智能發展離不開大數據,大數據的發展給人工智能的發展帶來了可能,人工智能技術的發展對大數據技術有著較強的依賴性。作為人工智能的核心技術之一,大數據技術在人工智能中有較為廣泛的應用。

大數據的核心技術主要是兩大部分內容:一是大數據的采集與存儲;二是大數據挖掘分析。對于數據的采集與存儲,傳統數據庫、數據倉庫等產品已經給出了非常完善的解決方案,但是傳統大數據處理技術已經不能滿足大數據背景下的數據處理,該任務主要完成對大數據采集的一些認知。

1.1.2 知識準備

互聯網,云計算技術的發展,產生了海量的交易數據,例如,淘寶、京東上的數據;海量的交互數據,如微信等平臺上產生的數據;以及海量的處理數據,例如物聯網產生的數據。也正是在以云計算和人工智能為代表的技術創新發展的推動下,這些數據的采集和應用變得容易。

大數據采集是應用大數據的前提。大數據采集認知的知識準備由以下活動完成。

活動1 認識大數據(Big Data)

1. 什么是大數據

大數據,或稱海量數據,是指無法使用傳統技術和常用軟件工具在短時間內完成獲取、處理和管理的數據集合。這樣的數據集合數據量規模非常巨大,超出人類在可接受時間下的收集、使用、管理和處理能力。

與傳統的關系型數據庫相比,大數據具有豐富的結構。大數據結構通常分為三類:結構化、半結構化和非結構化。因此,大數據難以使用傳統數據的處理和管理方式;它在數據獲取、數據存儲、數據管理和數據分析方面都大大超出了傳統數據庫軟件工具處理范圍。大數據與傳統數據的比較見表1-1。

表1-1 大數據與傳統數據比較

從表1-1可知,大數據的主要特征體現在以下幾點。

1)數據量大(Volume)。數據量大指數據體量巨大,數據集合規模不斷擴大,數量級已從GB到TB,再到PB,甚至以EB和ZB來計數。至今,人類生產的所有印刷材料的數據量是200PB。未來10年,全球數據將增加50倍,數據大小決定數據的價值和信息。

2)數據多樣化(Variety)。數據多樣化指大數據的數據類型繁多,有結構化、半結構化和非結構化數據。半結構化和非結構化數據,包括傳感器數據、網絡日志、音頻、視頻、圖片、地理信息等,占有量越來越大,已經遠遠超過傳統的結構化數據。

3)數據產生快(Velocity)。數據的產生往往以數據流的形式動態快速產生,具有很強的時效性。例如,一天之內需要審查500萬個潛在的毛衣欺詐按鍵;需要分析5億條實時呼叫信息的詳細記錄,以預測客戶的流失率。

4)數據價值密度低(Value)。數據總體價值巨大,但是價值密度低。例如,視頻數據,在長達數小時連續不斷的視頻監控中,有用的數據可能僅僅只有一二秒。

大數據必須借由計算機對數據進行統計、比對、解析方能得出客觀結果。

2. 大數據的主要來源

大數據采集是大數據處理的基礎。除傳統數據源以外,大數據來源還包括從互聯網、感知器設備中獲得的數據。這主要得益于互聯網、云計算等技術的發展,使得移動互聯、社交網絡、電子商務等不斷拓展互聯網的邊界和應用范圍。在這些領域中,各種數據迅速膨脹變大。如互聯網中的社交、搜索、電商等數據,移動互聯的微博、微信等數據,物聯網中的各種傳感器數據和智慧地球數據,如車聯網、GPS、醫學影像、安全監控、金融領域、電信等源源不斷產生的數據。

一般來說,大數據的主要來源有以下幾方面。

1)商業數據:商業數據主要指從企業ERP系統、各種商業系統產生的數據。

2)互聯網數據:主要指互聯網上產生的大量數據,比如網頁內容、用戶聊天記錄等。

3)物聯網數據:主要指利用各種感知器、射頻識別器、紅外線等技術獲得的數據。如攝像頭、制造業、手環、公共事業、農業等數據。

根據數據采集來源又可將數據分為線上行為數據與內容數據兩大類。

1)線上行為數據:頁面數據、交互數據、表單數據、會話數據等。行為數據采集一般借助網絡爬蟲或網站公開API,從網頁獲取非結構化或半結構化數據,并將其統一結構化為本地數據。

2)內容數據:應用日志、電子文檔、機器數據、語音數據、社交媒體數據等。內容數據采集包括實時文件采集和通過處理技術采集,如Flume技術采集,以及基于ELK的日志采集和增量采集等。

大數據結構包括結構化、半結構化和非結構化3個類型。其中,非結構化數據越來越成為主流數據。目前,企業中80%的數據都是非結構化數據。

大數據主要來源組成如圖1-1所示。

圖1-1 大數據主要來源組成

活動2 了解大數據采集

1. 大數據采集概念

大數據采集(DAQ),又稱數據獲取,是指用戶針對自己的需求從待采集目標中自動采集獲取數據的過程,采集到的數據結構包括結構化、半結構化和非結構化數據。

完整的大數據平臺一般包括數據采集、數據處理、數據存儲、數據報表/分析/挖掘、數據可視化等。大數據處理技術如圖1-2所示。其中,數據采集是數據處理的基礎環節。

圖1-2 大數據處理技術

大數據處理技術(ETL)就是對分布式、異構數據源的不同種類和結構的數據進行提取、轉換、加載操作。通過對采取到的數據進行清洗、轉換、集成、規約等操作,最終挖掘數據的潛在價值。

2. 大數據采集方法分類

根據數據源的不同,大數據采集方法也不相同,大數據采集方法主要有以下幾大類。

1)系統日志采集

系統日志采集主要是收集公司業務平臺日常產生的大量日志數據,供離線和在線的大數據分析系統使用。用于采集系統日志數據,如Hadoop的Chukwa,Apache的Flume等。這些工具均采用分布式架構,能滿足每秒數百兆字節的日志數據采集和傳輸需求。

2)數據庫采集

隨著大數據時代的到來,Redis、MongoDB、HBase和NoSQL數據庫等常用于數據的采集。企業通過在數據采集端部署數據庫來完成大數據采集工作。

傳統企業會使用傳統的關系型數據庫MySQL和Oracle等來存儲數據。

3)網絡數據采集

網絡數據采集是指通過網絡爬蟲或網站公開API等方式從網站上獲取數據信息。網絡數據采集方法可以將非結構化數據從網頁中抽取出來,將其存儲為統一的本地數據文件,并以結構化的方式存儲。它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動關聯。

4)感知設備數據采集

感知設備數據采集是指通過傳感器、攝像頭和其他智能終端自動采集信號、圖片或錄像來獲取數據。

大數據智能感知系統需要實現對結構化、半結構化、非結構化的海量數據的智能化識別、定位、跟蹤、接入、傳輸、信號轉換、監控、初步處理和管理等。

對于企業生產經營數據或科學研究數據等保密性要求較高的數據,可以通過與企業或研究機構合作,使用特定系統接口等相關方式采集數據。

1.1.3 任務效果

1)請理解大數據的幾大特點,舉例列出大數據的不同來源。

2)列舉生活中大數據的常見應用。

3)思考傳統數據技術能否完成大數據采集和存儲。

主站蜘蛛池模板: 峨边| 固原市| 沂水县| 沭阳县| 广安市| 化州市| 辽宁省| 东兰县| 裕民县| 宜兰县| 嘉黎县| 若尔盖县| 晋中市| 佛学| 易门县| 阳新县| 漾濞| 太白县| 平舆县| 囊谦县| 中卫市| 育儿| 怀远县| 桑植县| 阿图什市| 汝阳县| 北流市| 长海县| 桐柏县| 和硕县| 葫芦岛市| 浠水县| 平湖市| 雷州市| 兰西县| 连云港市| 浑源县| 桂平市| 台安县| 丘北县| 崇义县|