- 數據化運營(微課版)
- 鄭玉亮 馬艷秋主編
- 6140字
- 2024-07-16 10:53:24
任務二 掌握數據化運營所需的工具和技能
任務描述
小趙完成了銷售數據的分析工作后,接下來將對市場數據進行分析。由于咖啡市場是千變萬化的,咖啡的需求量也在不斷地變化,因此小趙需要先采集市場數據,然后再對數據進行處理和分析。小趙明確了本次的任務(見表1-3)后,便著手進行數據的采集和處理工作。
表1-3 任務單

知識準備
一、數據采集工具
數據采集又稱數據獲取,是指通過數據采集工具將龐大、復雜的單個數據,整理成符合需求的數據集,如圖1-10所示。為了高效采集數據,依據采集環境和數據類型選擇合適的數據采集工具至關重要,常見的數據采集工具有集搜客和八爪魚采集器兩種。

圖1-10 數據采集
(一)通過集搜客采集數據
集搜客是一款專業的網頁數據采集/信息挖掘處理軟件,它可以輕松抓取網頁文字、圖片、表格、超鏈接等多種網頁元素,并最終得到規范化的數據。使用集搜客之前,需要在集搜客官方網站中下載并安裝“數據管家”爬蟲軟件,如圖1-11所示。待爬蟲軟件安裝完成后,雙擊計算機桌面上的數據管家圖標,進入集搜客官網。注冊成為集搜客會員后,單擊
按鈕,在打開的頁面中選擇要采集的網站和頁面,并輸入具體的采集網址,如圖1-12所示,單擊
按鈕,便可開始采集數據。

圖1-11 “數據管家”爬蟲軟件下載頁面

圖1-12 輸入采集網址
(二)通過八爪魚采集器采集數據
八爪魚采集器是一款網頁數據采集軟件,具有使用簡單、功能強大等特點。該軟件提供了模板采集、自動識別采集、手動采集等不同的采集模式,是廣受青睞的數據采集器之一。使用八爪魚采集器之前,首先需要在八爪魚官方網站中下載軟件,然后將其安裝到計算機中,安裝完成后,打開八爪魚軟件并注冊成為會員,便可使用該軟件采集網頁數據了。
1. 模板采集
此模式可直接利用八爪魚采集器內置的各種采集模板,實現快速采集數據的目的。在八爪魚采集器中單擊左側列表中的“模板”按鈕,打開“采集模板”頁面(見圖1-13),在其中單擊所需要的采集模板后,進入“模板詳情”頁面,單擊
按鈕,如圖1-14所示。在打開的頁面中設置此次采集的任務名、任務組,并配置模板參數,完成后即可采集并保存數據。需要注意的是,八爪魚采集器提供的部分模板需要升級為套餐用戶才能正常使用。

圖1-13 “采集模板”頁面

圖1-14 單擊“立即使用”按鈕
2. 自動識別采集
當八爪魚采集器內置的模板無法滿足采集需求時,可以通過自定義采集的模式采集數據。在八爪魚采集器首頁中單擊按鈕(見圖1-15),打開“任務:新建任務”頁面,在“網址”文本框中輸入要采集數據的網址后,單擊
按鈕(見圖1-16),便可進行采集操作。使用這種采集模式時,八爪魚采集器會自動識別網頁內容,識別完成后根據需要修改采集的頁數、字段等信息,然后開始采集和保存數據。

圖1-15 單擊“新建自定義任務”按鈕

圖1-16 單擊“保存設置”按鈕
3. 手動采集
當自動識別無法采集正確的數據時,可取消自動識別,并手動添加采集字段進行手動采集。手動采集的關鍵在于正確采集需要的數據對象,這將涉及循環、翻頁等參數的設置,如圖1-17所示。

圖1-17 添加采集字段并設置循環等參數進行手動采集
素養小課堂
采集數據必須合法合規,特別是除了企業內部和企業調研的數據外,在從其他途徑采集數據時,采集人員必須遵守法律法規和道德倫理規范,要有良好的道德操守,不得采集禁止采集的數據,并應對采集的數據承擔保護義務。
二、數據處理工具
采集到的數據往往需要經過整理和加工等處理操作才能成為后期分析工作的數據源。常用的數據處理工具有Excel和Python兩種,如表1-4所示。一般來說,如果處理的數據量不大,可以使用Excel;如果數據量較大,則應選擇Python。下面重點介紹使用Excel處理數據的方法。
表1-4 常用的數據處理工具

使用Excel處理數據的操作主要包括數據整理和數據加工兩個方面。
(一)數據整理
采集數據后,往往需要將數據內容整理為所需要的信息,才能使采集的數據具備分析價值。總體來看,數據整理工作主要包括內容整理與格式整理兩大方面。
1. 內容整理
采集到的數據可能存在值缺失、錯誤或重復等情況,針對不同的情況,有不同的整理技巧。
(1)缺失值整理。如果能夠判斷缺失數據的內容,就應該考慮進行手動修補;反之,則可考慮用合理的值代替缺失值;另外,如果采集到的數據量足夠大,且能夠確保刪除缺失值后并不影響所采集數據的效果,就可以考慮將缺失值刪除。
(2)錯誤值整理。在Excel中每一種錯誤值都會提示出錯原因,根據出錯原因,可以快速定位錯誤位置,以修正、解決錯誤。表1-5所示為Excel中常見的錯誤提示信息及其產生原因和解決方法。
表1-5 Excel中常見的錯誤提示信息及其產生原因和解決方法

提示
有些數據還需要注意邏輯錯誤的問題。例如,用戶年齡300歲、消費金額-50元等不合理的數據;用戶出生年份為2000年,但當前年齡卻顯示為10歲等自相矛盾的數據;要求只能購買1件商品,但購買數量卻顯示為5件等不符合規則的數據等。要發現這類數據,需要運營人員具備扎實的專業知識和行業敏感度,以及認真、細致的工作態度。
(3)重復值整理。如果采集的數據存在完全或部分重復的情況,可以利用Excel的條件格式、排序、函數與公式、數據透視表等功能篩選重復的數據,然后使用刪除重復項、函數等功能刪除重復數據。
2. 格式整理
采集到的數據往往格式不統一。例如,日期數據中有“2023年8月23日”的顯示方式,也有“2023-8-23”的顯示方式等,這時就需要將其整理成相同的顯示方式,以提高數據質量。在Excel中,可以充分利用數據格式設置及查找和替換功能進行格式的整理。
(1)設置數據格式。選擇需要統一數據格式的單元格區域,在【開始】/【數字】組中單擊右下角的“展開”按鈕,打開“設置單元格格式”對話框,在“數字”選項卡的“分類”列表框中選擇數據類型,此處選擇“貨幣”選項,然后在右側的界面中進一步設置所選數據類型的格式,如圖1-18所示,完成后單擊
按鈕。

圖1-18 設置數據格式
(2)查找和替換數據。若需要統一的內容不是某種數據格式,則可利用查找和替換功能進行統一修改。例如,需要將“已 付 貨 款”統一為“已付貨款”,則可在【開始】/【編輯】組中單擊“查找和選擇”按鈕,在彈出的下拉列表中選擇“替換”選項,或直接按【Ctrl+H】組合鍵,打開“查找和替換”對話框,在“替換”選項卡的“查找內容”下拉列表框中輸入“已 付 貨 款”,在“替換為”下拉列表框中輸入“已付貨款”,然后單擊
按鈕,如圖1-19所示。

圖1-19 查找和替換
(二)數據加工
數據加工是指整理完采集的數據后,為了便于后期分析工作的開展,在Excel中對數據進行計算、排列、篩選、匯總、轉化、分組、合并等操作。需要注意的是,數據是否需要加工,應該按照后期數據分析的需求來決定,并不是必須執行的。
(1)計算數據。如果數據分析時需要的數據源是通過采集的數據計算而來的,則可利用Excel的公式和函數進行計算加工。無論是公式還是函數,在Excel中都需要先輸入“=”,以區別于其他普通數據。其中,公式可以由常量、運算符、單元格引用、函數等對象組成;函數則是具有某種語法格式的特殊公式,如SUM函數就是數學和三角函數的結合,它可以將數值相加。
(2)排列數據。排列數據是指按照某個規則將采集到的數據進行排序,如采集的是產品的交易數據,則可以以銷售額為排列規則,按從高到低的順序進行排列。
(3)篩選數據。篩選數據是指按指定的條件,將不符合條件的數據隱藏起來,表格中暫時顯示所有符合條件的數據。在Excel中,可以執行自動篩選、高級篩選等多種篩選操作。
(4)數據匯總。數據匯總是指將同類的數據進行匯總處理,統計其總和、平均數、數量、最大值、最小值等。在Excel中,可以通過分類匯總功能實現對數據的分類和匯總操作。
(5)數據轉化。數據轉化是指將數據從一種表現形式轉變為另一種表現形式。例如,轉化表格的行列結構,將一列數據拆分為多列等。
(6)數據分組。數據分組是指根據統計研究的需要,將原始數據按照某種標準分組。例如,采集的是產品的交易數據,可以按照產品的品類、產品的銷售月份等進行分組。
(7)數據合并。數據合并是指將某幾個數據字段合并成一個新的字段,此時可以使用CONCATENATE函數、連接符“&”、DATE函數進行字段合并操作。例如,采集到的產品列表信息中,若單價的數值和金額符號分別存在于不同字段,則可以使用合并功能將其顯示在同一字段中。
三、數據化運營所需的技能
數據化運營需要經歷數據處理、數據整合、數據分析、數據展現等過程。因此,作為一名合格的運營人員,需要具備數據處理能力、數據分析能力、數據呈現能力和數據決策能力4種基礎能力。
(一)數據處理能力
數據處理能力是指合理收集、整理、描述、分析所獲得的數據,從中提取出有價值的信息,并最終做出合理推測的能力。具備數據處理能力即具備數據獲取、數據存儲與數據預處理的能力。
(二)數據分析能力
數據分析能力是指能夠使用合適的統計分析方法,對收集的大量且復雜的數據加以匯總、理解并消化,然后從中抽取出有價值的信息并推導出結論,最終對數據做出進一步研究和概括、總結的能力。從運營層面來說,數據分析能力主要是指通過數據思維,把業務問題轉化成不同類型的數據指標,并運用一定的數據分析方法分析業務,從而有效、系統地解決問題。
(三)數據呈現能力
數據呈現能力是指借助數據呈現工具(如Power BI等),運用表格、圖表、圖形等方式,將業務信息與決策方案清晰、明確地展現出來的能力。其中,用圖表方式呈現數據是較直接且常用的方法,常見的圖表類型包括條形圖、柱形圖、面積圖、餅圖、折線圖、金字塔圖等,如圖1-20所示。此時運營人員需要根據不同的圖表關系選擇合適的圖表來明確表達數據信息,表1-6所示為Excel中部分圖表關系及選擇策略。

圖1-20 常見圖表類型
表1-6 Excel中部分圖表關系及選擇策略

知識拓展
Power BI是一款商業智能分析軟件,它支持數百種數據源,支持直接從網頁中抓取數據,可以用來創建交互式報表和儀表板,能夠讓復雜、繁多的數據變得生動美觀。圖1-21所示為使用Power BI創建的銷售數據分析可視化圖表。

圖1-21 使用Power BI創建的銷售數據分析可視化圖表
(四)數據決策能力
數據決策能力是指能基于數據進行科學決策,進而讓數據產生價值的能力。具備數據決策能力不僅能快速響應外界的變化,而且能夠對外界變化數據與大量歷史數據一起進行深度分析,并能及時從相關的數據中搜索、挖掘出數據的潛在價值,以滿足特定時間、地點、場景的需求,最終為業務需求提供解決方案。
素養小課堂
要想成為一名優秀的運營人員,熟練掌握相關工具和技能是基本前提。此外,學習需要從被動變為主動,主動學習不僅可以體會到學習的樂趣,而且能快速增長知識,完善知識體系。
任務實施
任務演練1:使用集搜客采集咖啡數據
【任務目標】
在KK旗艦店的主要銷售渠道——京東商城中搜索速溶咖啡,使用集搜客采集搜索結果頁面的信息,從中獲得速溶咖啡在京東商城中的搜索數據,然后將數據下載到計算機中,以備后續分析之用。
【任務要求】
本次任務的具體要求如表1-7所示。
表1-7 任務要求

【操作過程】
(1)獲取并復制需采集數據的網址。通過瀏覽器訪問需要采集數據的網頁,這里在京東商城中搜索“速溶咖啡”,打開搜索結果頁面,然后選擇網頁地址欄中的網址,按【Ctrl+C】組合鍵復制網址。
微課視頻

使用集搜客采集咖啡數據
(2)登錄會員中心。雙擊計算機桌面上的數據管家圖標,進入集搜客后,單擊左下角的
按鈕,在打開的對話框中輸入賬號和密碼,單擊
按鈕,如圖1-22所示。

圖1-22 登錄集搜客
(3)新建采集任務。進入集搜客首頁,單擊右下角的按鈕,打開“快捷采集”頁面。在“網站”欄中單擊
按鈕,在展開的列表中選擇“京東”選項,然后在“頁面”欄中選擇“京東商品搜索列表”選項,如圖1-23所示。

圖1-23 新建采集任務
(4)輸入采集網址。在頁面下方的“網址”文本框中按【Ctrl+V】組合鍵粘貼第(1)步中復制的網址,然后單擊按鈕,如圖1-24所示。集搜客默認只獲取1頁的數據信息,如果想獲取更多的數據信息,可以在“網址”文本框右側的“頁數”下拉列表中進行選擇。

圖1-24 輸入采集網址
(5)打包數據。此時集搜客將訪問該網頁,并自動識別網頁中的數據,待顯示“結束狀態”選項卡后,單擊“快捷采集”選項卡,打開的頁面中顯示了快捷采集的相關信息,這里單擊第一項采集任務對應的按鈕,如圖1-25所示,會打開提示對話框。

圖1-25 打包數據
(6)設置打包數據的條數。打開的提示對話框提示本次采集的數據可以打包的條數,根據實際需求輸入具體的數字,這里輸入“40”,然后單擊按鈕,如圖1-26所示。

圖1-26 設置打包數據的條數
(7)下載采集數據。打開“快捷采集”頁面中的“數據下載”選項卡,單擊按鈕,如圖1-27所示。在打開的對話框中保持文件名和保存位置不變,單擊
按鈕,即可將采集的數據以Excel文件的形式保存到計算機中(配套資源:\效果文件\項目一\任務二\京東商城速溶咖啡數據.xlsx)。

圖1-27 下載采集的數據
提示
通過集搜客采集的網頁數據,最終將以壓縮文件的形式下載到計算機中,若要使用采集到的數據,需要先將其解壓。
技能練習
嘗試使用八爪魚采集器采集在京東商城中搜索到的咖啡產品列表信息,然后比較兩種不同采集工具所采集到的數據是否存在差異,以及哪一種工具采集的數據更加準確。
任務演練2:利用Excel處理采集的數據
【任務目標】
在Excel中觀察咖啡產品數據,找到無用字段后將其刪除;然后對字段進行重命名,并查找和替換文本;最后將數據按“商品價格”排序,便于后續處理數據。
【任務要求】
本次任務的具體要求如表1-8所示。
表1-8 任務要求

【操作過程】
(1)解壓采集的數據。在計算機中打開保存采集數據的文件夾,然后雙擊壓縮文件,在打開的窗口中單擊“解壓到”按鈕,打開“解壓路徑和選項”對話框,單擊
按鈕,將文件解壓到指定位置。
微課視頻

利用Excel處理采集的數據
(2)刪除無用字段。雙擊解壓后的文件,打開采集的產品數據表格,發現表格中前4列數據無用,可以刪除。選擇A列至D列單元格,在【開始】/【單元格】組中單擊“刪除”按鈕,如圖1-28所示。

圖1-28 刪除無用字段
(3)重命名字段。繼續觀察剩余數據,發現A列字段名稱為英文,其余字段的名稱均為中文,為了統一,需要將英文名稱更改為中文名稱。選擇A1單元格,輸入文本“采集日期”,然后按【Enter】鍵,如圖1-29所示。

圖1-29 重命名字段
(4)查找和替換數據。繼續觀察表格中的數據,發現部分品牌名中英文混雜、名稱重復。在【開始】/【編輯】組中單擊“查找和選擇”按鈕,在打開的下拉列表中選擇“替換”選項,打開“查找和替換”對話框,將“舊街場(OLDTOWN)”替換為“舊街場”,“雀巢(Nestle)”替換為“雀巢”,“catfour”替換為“藍山”,“catfour藍山”替換為“藍山”,“西貢(SAGOCOFFEE)”替換為“西貢”,“星巴克(Starbucks)”替換為“星巴克”,“"速溶咖啡"”替換為“速溶咖啡”等,如圖1-30所示。

圖1-30 查找和替換數據
(5)排序表格數據。按【Ctrl+H】組合鍵,打開“查找和替換”對話框,在“替換”選項卡的“查找內容”文本框中輸入“¥”符號,然后單擊按鈕,將“商品價格”字段中的“¥”符號刪除。選擇E列中的任意單元格,在【數據】/【排序和篩選】組中單擊“升序”按鈕
,如圖1-31所示,將數據按“商品價格”從低到高進行排列。

圖1-31 排序表格數據
(6)自動調整單元格列寬。按【Ctrl+A】組合鍵全選表格內容,然后在【開始】/【單元格】組中單擊“格式”按鈕,在打開的下拉列表中選擇“單元格大小”/“自動調整列寬”選項,如圖1-32所示,此時單元格中隱藏的數據內容將全部顯示出來(配套資源:\效果文件\項目一\任務二\處理后京東商城速溶咖啡數據.xlsx)。

圖1-32 自動調整列寬