官术网_书友最值得收藏!

任務1-2 商務數據采集與分析

任務導入

任務 了解商務數據采集

實訓情境:

商務數據越來越豐富,個人與企業對數據的需求也日益增加,如何利用數據進行決策支持也成為普遍的需求。利用數據進行預測與優化分析,可以有效地增加效益與防范風險,因此,數據采集能力也成為諸多崗位的必備技能。此時,網絡爬蟲就成為需要用戶進行大量學習才能掌握的高成本學習技能。

數據采集器是進行數據采集的機器或工具,用于實現自動從大批量網頁上采集數據、抓取網站信息,同時對圖片、文字等信息進行采集、處理及發布。采集器可以大幅度降低數據的獲取門檻。

根據崗位實訓內容,我們可提煉出典型實訓活動,具體如下:

(1)熟知數據采集的方法;

(2)了解常用的數據采集工具;

(3)了解后羿采集器的優劣勢。

學習目標:

知識目標:(1)掌握數據的概念;

(2)理解數據的分類和數據結構。

技能目標:(1)針對各類數據源的不一致配置不同的采集任務,實現所需數據的抓取;

(2)針對數據源內各類情況分別做出應對;

(3)將數據源內各類數據形成結構化數據存儲于指定位置,可用于數據處理和分析。

思政目標:了解我國大數據需求及獲取途徑和要求。

學習導圖:

實訓任務

實訓任務書

任務名稱:_______________

任務功能:_______________

典型實訓任務:____________

注意事項:

1.請嚴格按照實訓任務內容要求實踐,不得隨意更改實訓流程。

2.完成實訓內容后,請進行清單檢查,完成請打鉤。

學生簽名:   

情境描述

某影視公司要了解用戶對電影作品的需求問題。請利用后羿采集器工具采集線上電影數據,提取正在上映的電影名稱、評價及圖片等信息,提取的結果以文件形式保存。

實訓計劃

對企業典型工作活動進行提取,并輔以理論知識點,組成有效實訓計劃。

實訓流程圖如圖1.6所示。

(備注:實訓流程圖上方為該環節所需知識點,下方為項目實踐活動。)

圖1.6 實訓流程圖

典型實訓活動一:環境準備

實訓要點1:下載安裝采集器工具包

實訓要點2:找到并確認數據源

實訓任務:準備數據采集工具并安裝,找準數據源。

典型實訓活動二:抓取分析

實訓要點1:輸入并打開數據源

實訓要點2:制作采集任務、運行任務排錯

實訓任務:分析頁面抓取信息、運行任務排錯。

典型實訓活動三:完成連接

實訓要點1:提取信息

實訓要點2:數據導出

實訓任務:形成結構化數據并存儲于指定位置。

學習目標

本實訓的學習目標如表1.2所示。

表1.2 學習目標

知識講解

任務 掌握商務數據分析

一、大數據認知

當今社會,我們已經將通信、交際、閑暇時光、開展業務轉移到了互聯網上。互聯網已經滲透我們的手機、我們的家園和城市中的設備以及工廠中。其導致的數據爆炸正改變著我們的世界。

互聯網、移動互聯網、物聯網、云計算的快速興起,以及移動智能終端的快速普及,使當前人類社會的數據增長比以往任何一個時期都要快。數據的爆炸式增長出乎人們的想象。2020年,全球以電子形式存儲的數據量是2009年的40倍。

與此同時,伴隨著物聯網、移動智能終端和移動互聯網的快速發展,移動網絡中數據流量的增長速度也非常迅猛。從2011年開始,全球移動數據流量年增長率保持在50%以上,并處于一個穩定增長的態勢。到2016年,全球移動數據流量達到2011年全球移動數據流量的18倍,為129.6 EB。

數據的瘋狂增長,使得適應和應對數據增長成為整個社會關注的焦點。“大數據”的概念正是在這一背景下應運而生的。圖1.7所示為大數據系統概覽。

圖1.7 大數據系統概覽

(一)大數據的定義

大數據(big data)又稱為巨量資料或海量數據,是指傳統數據處理應用軟件不足以處理的大量的或復雜的數據集的術語。大數據也可以定義為具有各種來源的大量非結構化或結構化數據。

(二)大數據的發展歷程

自從古代有過第一次計數以來,數據收集和分析便成為社會功能改進的根本手段。17—18世紀的微積分、概率論和統計學所提供的基礎性實訓,為科學家提供了一系列新工具,用來準確預測星辰運動,確定公眾犯罪率、結婚率和自殺率。這些工具常常帶來驚人的進步。

19世紀,約翰·斯諾(John Snow)博士運用近代早期的數據科學繪制了倫敦霍亂爆發的“群聚”地圖。霍亂在過去被普遍認為是由“有害”空氣導致的,斯諾通過調查被污染的公共水井進而確定了霍亂的元兇,奠定了疾病細菌理論的基礎。

今天,數據比以往任何時候都更加深入地與我們的生活交織在一起。我們期待著用數據解決各種問題、改善福利以及推動經濟繁榮。數據的搜集、存儲與分析技術水平不斷提升,這種提升看上去正處于一種無限的向上軌跡之中。它們的加速是因為處理器能力的增強、計算與存儲成本的降低以及在各類設備中嵌入傳感器的技術的增長。這些趨勢還將持續下去,我們只是處在所謂的“物聯網”(internet of things)的相當初級的階段。在物聯網中,我們的各種應用設備、運輸工具以及持續增長的“可穿戴”技術產品將可以彼此交換信息。

大數據的發展歷程:第三次浪潮→大數據應用→大數據時代→云計算助力→國內規模化。

在2014年12月12日電商的促銷期,淘寶網推出“時光機”——一個根據淘寶買家幾年來的購買商品記錄、瀏覽點擊次數、收貨地址等數據編輯制作的“個人網購志”,記錄和勾勒出讓人感懷的生活記憶,如圖1.8所示。其背后,是基于對4.7億淘寶注冊用戶網購數據的分析處理,這正是大數據的典型應用。

隨著傳統互聯網向移動互聯發展,全球范圍內,除了個人電腦、平板電腦、智能手機、游戲主機等常見的計算終端之外,更廣闊的、泛在互聯的智能設備,如智能汽車、智能電視、工業設備和手持設備等都連接到網絡之中。基于社會化網絡的平臺和應用,數以百億計的機器、企業、個人隨時隨地都可以獲取和產生新的數據。

圖1.8 大數據的應用——淘寶“時光機”

互聯網搜索引擎是大數據最為典型的應用之一。百度日處理數據量達到數十PB,并呈現高速增長的態勢。如果一張光盤容量為1 GB,這相當于壘在一起的幾千萬張光盤。微軟Bing(必應)搜索引擎,一周需要響應100億次量級的搜索請求。其通過和Facebook的合作,每天有超過10億次的社交網絡搜索請求通過Bing來處理。

簡單地講,大數據就是那些超過傳統數據庫系統處理能力的數據。但是,大數據的問題并不僅僅是規模,數據產生的速度以及數據的多樣性同樣是大數據不可忽略的兩個基本特性。根據摩爾定律,計算能力每一年半到兩年的時間將增加一倍。可是,現有的網絡帶寬并沒有以同樣的速度增加。因此,如此之迅猛的數據洪流的產生,正在給電信運營商的網絡運營帶來極大的挑戰趙守香,唐胡鑫,熊海濤. 大數據分析與應用[M].北京:航空工業出版社,2020.

(三)大數據的特征

1.體量大

體量大(volume)是指大數據巨大的數據量與數據完整性。IT界所指的數據,誕生不過60多年。而一直到個人電腦普及前,由于存儲、計算和分析工具的技術與成本限制,許多自然界和人類社會值得記錄的信號,并未形成數據。

以前,氣象、地質、石油物探、出版業、媒體業和影視業是大量、持續產出信號的行業,但那時90%以上采用的是存儲模擬信號,難以通過計算設備和軟件進行直接分析。擁有大量資金和人才的政府和企業,也只能把少量最關鍵的信號進行抽取、轉換并裝載到數據庫中。

盡管業界對達到怎樣的數量級才算是大數據并無定論,但在很多行業的應用場景中,數據集本身的大小并不是最重要的,是否完整才最重要。

(1)根據IDC做出的估測,數據一直都在以每年50%的速度增長,即兩年增長一倍。

(2)人類在最近兩年產出的數據量相當于之前產生的全部數據量。

(3)人類生產的所有印刷材料的數據量是200 PB。

(4)歷史上全人類說過的所有的話的數據量大約是5 EB(1 EB=1 024 PB)。

(5)典型個人計算機硬盤的容量為TB量級。

(6)一些大企業的數據量已經接近EB量級。

2.種類繁多

種類繁多(variety)意味著要在海量、種類繁多的數據間發現其內在關聯。在互聯網時代,各種設備通過網絡連成了一個整體。進入以互動為特征的Web 2.0時代,個人計算機用戶不僅可以通過網絡獲取信息,還可成為信息的制造者和傳播者。這個階段,不僅是數據量開始了爆炸式增長,數據種類也開始變得繁多。這必然促使我們對海量數據進行分析、處理和集成,找出原本看來毫無關系的那些數據的“關聯性”,把似乎沒有用的數據變成有用的信息,以支持我們做出的判斷。

數據的數量正在快速增長,它的格式也越發多樣,來源也越發廣泛。有些數據是“天生數字化的”(born digital),意思是說它就是被特別創造出來用于計算機和數據處理系統的。這些例子存在于電子郵件、網頁瀏覽或GPS定位之中。其他數據是“天生模擬的”(born analog),這是說它從物理世界中發散出來,但可以不斷被轉化成數字格式。模擬數據的例子包括手機、相機或攝像設備錄制的語音或可視信息,或者還有通過可穿戴設備監測到的身體活動數據,如心率或排汗量。“數據融合”(data fusion)能夠將分散的數據源整合在一起,隨著這種能力的提升,大數據可以帶來一些遠見卓識。

(1)科學研究:基因組、地球與空間探測。

(2)企業應用:交易記錄、應用日志、文檔、文件。

(3)互聯網:文本、圖像、視頻、查詢日志、點擊流。

(4)物聯網:傳感器、監測設備。

3.處理速度快

處理速度快(velocity)可以理解為更快地滿足實時性需求。數據的實時化需求正越來越清晰。對普通人而言,開車去吃飯,會先用移動終端中的地圖查詢餐廳的位置,預計行車路線的擁堵情況,了解停車場信息甚至是其他用戶對餐廳的評論。吃飯時,人們會用手機拍攝食物的照片,編輯簡短評論發布到微博或者微信上,還可以用LBS(基于位置的服務)應用查找在同一間餐廳吃飯的人,看有沒有好友在附近等。

如今,通過各種有線和無線網絡,人和人、人和各種機器、機器和機器之間產生了無處不在的連接,這些連接不可避免地帶來數據交換。而數據交換的關鍵是降低延遲,以近乎實時(這意味著小于250毫秒)的方式呈獻給用戶。

數據采集與分析的執行速度越來越接近即時時間,這意味著對一個人就其周邊環境或生活所做的決定產生即時的影響而言,大數據分析有著越來越大的潛力。高速數據的例子包括記錄使用者在線與網頁互動活動的點擊流數據,即時追蹤定位的移動設備獲得的GPS數據,以及得到廣泛分享的社交媒體數據。客戶與公司希望通過分析這種數據使其即刻獲益的要求越來越高。事實上,如果手機定位應用不能即時準確地確認手機位置,它根本就不會有什么用處,并且,在確保我們的汽車安全運行的計算機系統中,實時操作至為關鍵。從數據的生成到消費,時間窗口非常小,可用于生成決策的時間也非常少。

4.價值密度低

比前面3個“V”更重要的,是價值密度(value),它是大數據的最終意義——獲得洞察力和價值。大數據的崛起,正是在人工智能、機器學習和數據挖掘等技術的迅速發展驅動下,呈現的這么一個過程:將信號轉化為數據,將數據分析為信息,將信息提煉為知識,以知識促成決策和行動。

就大數據的價值而言,就像沙子淘金,大數據規模越大,真正有價值的數據相對就越少。所以大數據系統不是越多越好,而是越少越好。開始數據要多,最后還是要少,把ZB、PB最終變成一個比特,也就是最后的決策。這才是最關鍵的。以視頻為例,一部1小時的視頻,在連續不間斷的監控中,有用的數據可能僅有一兩秒,價值密度低,商業價值高。

“賣數據”稱為直接贏利模式,如淘寶推出的“數據魔方”收費標準為300元/月,直接創造經濟價值。

數據采集、存儲與處理成本的下降,連同像傳感器、相機、地理位置及其他觀測技術提供的新的數據來源,意味著我們生活在一個數據采集幾乎無處不在的世界中。采集與處理的數據量是空前的。從基于網絡的應用、可穿戴技術與先進傳感器,到監測生命體征、能源使用狀況與慢跑者跑步速度的監測儀,由此帶來的數據爆炸將增加人們對于高性能計算技術的需求,并推動針對最復雜數據的管理能力的提升。

若使用得當,大數據分析能夠提高生產效率,改善客戶與政府的服務體驗、挫敗恐怖分子并且拯救生命。例如,大數據與不斷發展的“物聯網”使得人們將產業經濟與信息經濟進行整合成為可能。又如,噴氣式發動機和運貨卡車現在能夠裝配許多傳感器以監控上百個數據點,并且在需要維護時自動報警。這就使得整個系統更加扁平化,減少了維護成本,并同時增強了安全性。再如,美國醫療保險和醫療補助服務中心(the centers for medicare and medicaid services,簡稱CMS)已經開始在要求支付前用預測分析軟件來標示看似報銷欺詐的憑據。欺詐預防系統有助于實時甄別高風險醫療保健提供者的欺詐、浪費與濫用行為,它已經終止、阻止或確認了1.15億美元的欺詐性支付,在該程序上花的每1美元帶來了3美元的成本節約。

(四)大數據的數據結構

(1)10%為結構化數據,通常存儲在數據庫中。

(2)90%為非結構化數據,格式多種多樣。

(3)企業數據,目前已有超過80%的數據以非結構化的形式存在。

(4)互聯網領域,非結構化數據占到整個數據流比例的75%以上。

(5)非結構化數據年增長速度約為63%,遠超過結構化數據增長速度(32%)。

(五)大數據應用領域

大數據的應用領域非常廣泛,具體包含政府、電商、金融、交通、制造、教育、醫療、能源等,如圖1.9所示。

圖1.9 大數據的應用領域

不論是零售、電商、金融等商業領域,還是制造、能源等工業領域,大數據在各行各業中都發揮著非常重要的作用。

比如政府大數據,可能會涉及安防、征信、智慧城市等業務。在前幾年張學友的演唱會中,警方逮捕了很多逃犯。一場演唱會規模很大,通常有數萬人參與,并且多數演唱會于晚上舉行,燈光昏暗。在這樣的條件下警方能抓獲逃犯,主要得益于AI技術和大數據技術在安防領域的應用。系統首先拍攝每個人的圖像,識別得到每個人的面部信息,再將面部信息與后端的數據庫進行比對,若遇到逃犯,系統會自動報警,提醒公安人員有犯罪嫌疑人出現。

二、商務數據分析基礎

(一)數據分析與決策流程

(1)明確目標:確定核心指標、明確分析思路。

(2)指標分解:拆解核心指標、剔除虛榮指標。

(3)獲取數據與數據預處理:數據采集、數據集成、數據清洗、數據加工。

(4)數據分析:量化分析、趨勢分析、對比分析、關聯分析、因果分析。

(5)數據可視化:評估描述、編制統計圖表、確定展現形式、撰寫數據報告。

(6)采取行動:結果輸出、驗證、評估、分析迭代改進、優化、延展分析。

(二)明確目標

供應方在與需求方有效溝通后,在了解業務的基礎上,明確切入角度和核心指標,如圖1.10所示。

圖1.10 根據需求方確立數據分析目標

(三)指標分解

供應方確定核心指標后,可以根據業務邏輯,結合不同的數據分析方法論,遵循MECE原則,從不同的角度對指標進行拆分。

(四)確定模型或方法

分析模型的方法有AARRR模型(拉新—促活—留存—轉化—傳播)、4P營銷理論、5W2H分析法等。

時間維度:根據時段(如每天中的各時點)、日期間隔(如次日/3日/7日/30日等)、周期(如周一、周六等)等對數據指標進行細分。

渠道維度:通常可以分為線上和線下渠道,線上渠道主要有自媒體投放、百度推廣、官方自有渠道等;線下渠道主要有戶外廣告、地推活動、紙質媒體等。

用戶維度:根據用戶登錄情況,用戶可分為活躍用戶、流失用戶(長期不活躍)、忠實用戶(長期活躍)、回流用戶(曾經長期不活躍,后來再次成為活躍用戶的群體)等;根據用戶付費情況,用戶可分為付費用戶、未付費用戶等。

(五)明確數據分析流程

1.獲取數據—數據采集

數據來源包括WEB端、App端、傳感器、數據庫、第三方。

2.獲取數據—數據集成

數據集成:對來自不同數據源的數據,進行合并并整理,形成統一的數據視圖。

需要考慮的問題:

(1)識別和匹配相關實體及數據:從核心信息開始,逐步匹配擴展到其他相關信息;

(2)統一的元數據定義:表名、字段名、類型、單位(量綱)等;

(3)統一的數據取值:通過映射規則(mapping)進行轉換,保持數據一致性;

(4)冗余數據處理:對重復數據進行刪除,對相關性大的數據進行適當處理。

3.數據預處理

(1)大數據預處理技術—數據清洗。

數據清洗:針對原始數據,對出現的噪聲進行修復、平滑或剔除,包括異常值、缺失值、重復記錄、錯誤記錄等;同時過濾掉不用的數據,包括某些行或某些列。

噪聲數據處理:

①異常值:箱線圖、刪除、當作缺失值、忽略。

分箱發:箱均勻、箱中位數或箱邊界、平滑數據。

②缺失值。

統計值填充:均值、眾數、中位數。

固定值填充:填充指定值。

最接近記錄值填充:與該樣本最接近的相同字段值。

模型擬合填充:填充回歸或其他模型預測值。

插值填充:建立插值函數,如拉格朗日插值法、牛頓插值法等。

(2)大數據預處理技術—數據變換。

數據變換:對數據進行變換處理,使數據更適合當前任務或者算法的需要。

常見的變換方式:

①使用簡單函數進行變換:方根和乘方變換、對數和指數變換、插值和比例變換。

②數據規范化:歸一化、標準化、中心化。

③連續值離散化:分裂法、合并法。

(3)數據預處理技術—數據歸約。

數據歸約:在盡可能保持數據原貌的前提下,最大限度地精簡數據量。其主要包括屬性選擇和數據抽樣兩種方法。

①屬性選擇。它是指通過減少屬性特征的方式壓縮數據量,通過移除不相關的特性,提高模型效率。

②數據抽樣。

簡單隨機抽樣:每個樣本被抽到的概率相等,隨機從總體中獲得指定個數的樣本數據。

系統抽樣:也叫等距抽樣,整體按某種順序排列后,隨機抽取第一個樣本,然后順序抽取其余樣本。

分層抽樣:將總體分成多個不交叉的群,隨機抽取若干個群。

連續抽樣:先抽樣,基于樣本分析,根據分析結果決定要不要繼續抽樣。

多階段抽樣:抽樣分階段進行,每個階段使用的抽樣方法可以不同。

Bootstrap重抽樣:樣本量不足時,有回放的重復抽樣。

4.數據分析—分析方法

(1)描述型分析:發生了什么?

(2)診斷型分析:為什么會發生?

(3)預測型分析:可能發生什么?

(4)指令型分析:下步怎么做?

5.數據可視化

(1)數據可視化:利用計算機圖形學和圖像處理技術,將數據轉換為圖形或者圖像在屏幕上顯示出來進行交互處理的理論方法和技術。數據可視化旨在借助于圖形化手段,清晰有效地傳達與溝通信息。

(2)商務數據展現形式:預警分析、進度分析、差異分析、縱向對比(時間序列)、橫向對比、同環比、其他對比。

6.得出結論—數據報告

這是指根據數據分析的原理和方法,運用數據來反映、研究和分析某項事物的現狀、問題、原因、本質和規律,并得出結論,提出解決辦法。

這種文體是決策者認識事物、了解事物、掌握信息、搜集相關信息的主要工具之一,數據分析報告通過對事物數據全方位的科學分析來評估其環境及發展情況,為決策者提供科學、嚴謹的依據,從而降低決策風險。

7.采取行動

只有對數據分析結果采取行動,才能產生價值。具體流程如下:數據分析結果輸出,數據分析結果驗證,數據分析結果評估,分析迭代改進、優化,延展分析,系統落地。

案例解析

安客誠的“人網合一”

網絡營銷存在一個巨大問題,即如何獲知在網上使用幾個不同名稱的人是否為同一個人?安客誠推出了一種名為“觀眾操作系統”的技術方案解決了這個問題。它允許市場營銷者與“數字人物”綁定,即使你換了名字,它也照樣能夠解答那個已經換了地址或者電話號碼的人是否為同一個人的問題。

AOS可以匯集不同數據庫中的信息,這些數據或離線或在線,是公司可能在不同場合針對個人而收集的。通過使用AbiliTec——一種Acxiom也擁有的數字化“身份識別”技術——AOS將客戶信息刪繁就簡,得到單一的結果。

AOS幫助安客誠的廣告客戶使用它們的數據在Facebook上找到投放目標用戶。

總而言之,大數據不做個別判斷,主要適用于關聯分析。很多關聯分析并不需要復雜的模型,只需要有大數據的意識。很多機構都有數據廢氣,數據不是用完就是被舍棄,它的再利用價值也許我們現在不清楚,但在未來的某一刻,它會迸發出來,化廢為寶,讓公司的事業變得光明。

回顧總結

知識總結:

本節課的知識梳理匯總成流程圖,如圖1.11所示。

圖1.11 本節知識流程圖

思維導圖:

整理本節課所學知識點,補充下方思維導圖(如圖1.12所示),管理你的知識。

圖1.12 本節知識思維導圖

實訓作業

活動 數據挖掘環境配置

實訓目標

通過此活動的實踐,學生應當能夠:

·下載并安裝數據挖掘插件;

·配置SQL SERVER,完成在Excel的環境配置。

實訓實施流程

實訓實施流程如圖1.13所示。

圖1.13 實訓實施流程

活動要求

1.學生根據實踐任務要求,找到適合Excel工具的SQL插件并運行安裝。

2.在實訓實施過程中,學生可自由查閱資料或向老師求助。

3.在規定時間內完成任務,超時則視為未完成任務,不予評分。

請先下載“參考資料”,根據實訓步驟演示,在“答題卡”中完成任務。

任務實踐

請根據活動步驟流程,配置Excel數據挖掘環境,并將完成過程體現在下方表格中。

檢查清單(見表1.3)

表1.3 檢查清單

任務評價(見表1.4)

表1.4 任務評價表

項目檢測

一、單項選擇題

1.下面屬于分類算法的是( )。

A.Kmeans

B.邏輯回歸

C.決策樹

D.關聯規則

2.以下不屬于數據管理文件的格式是( )。

A.*.xls

B.*.xlsx

C.*.ppt

D.*.txt

3.以下不屬于數據挖掘方法的是( )。

A.分類分析

B.回歸分析

C.聚類分析

D.銷售分析

4.以下不屬于數據管理軟件的是( )。

A.Excel

B.POWER BI

C.SQL SERVER

D.WORD

5.以下不是常見數據類型的是( )。

A.邏輯型

B.日期型

C.文本型

D.空值

二、多項選擇題

1.以下是常用的數據結構的是( )。

A.邏輯結構

B.存儲結構

C.計算結構

D.順序結構

2.以下屬于數據分類原則的是( )。

A.穩定性

B.系統性

C.兼容性

D.可擴容性

E.綜合實用性

3.以下屬于算法設計原則的是( )。

A.正確性

B.可讀性

C.健壯性

D.高性價比

4.以下是數據的特性的是( )。

A.變異性

B.實效性

C.規律性

D.唯一性

5.商務數據分析的流程包括( )。

A.數據收集

B.數據處理

C.數據分析

D.數據報告

三、簡答題

1.簡述數據的作用。

2.簡述數據分析在商務分析中的作用。

主站蜘蛛池模板: 富裕县| 科尔| 泰和县| 秀山| 甘德县| 白城市| 拉萨市| 黄龙县| 永宁县| 临武县| 张家界市| 惠州市| 宝应县| 镇雄县| 缙云县| 馆陶县| 乌鲁木齐县| 黄陵县| 兴安盟| 溆浦县| 塘沽区| 麦盖提县| 旌德县| 邵东县| 六盘水市| 行唐县| 天长市| 江西省| 珲春市| 安陆市| 巴青县| 西林县| 巫溪县| 岗巴县| 临泽县| 固原市| 张家界市| 淮安市| 丰台区| 南宫市| 乃东县|