- Power BI數據處理與分析(微課版)
- 黃達明 張萍編著
- 9字
- 2023-11-29 19:42:25
第1章 認識數據分析
1.1 數據分析的基本概念
人類社會已進入大數據和云計算時代,隨時隨地都在產生海量的數據。從2004年至今,全球數據總量一直在以指數級速度增長。美國國家科學基金會將大數據定義為“由科學儀器、傳感設備、互聯網交易、電子郵件、音視頻軟件、網絡點擊流等多種數據源生成的大規模、多元化、復雜、長期的分布式數據集”。
大數據具有以下特征。
(1)數據量巨大,其數據的存儲和處理操作無法由人工完成而必須使用計算機。
(2)數據的來源和格式具有多樣性。除了傳統的結構化數據外,更多的是半結構化和非結構化數據。
(3)數據的價值密度低。
(4)數據總量的增長速度快。
(5)數據的處理和分析難度大。
大數據時代的巨量數據并不都是有用的信息。為了提升數據的價值,我們需要做深入的數據分析和挖掘工作,從大量數據中找出隱含的、未知的、用戶可能感興趣的、對決策有潛在價值的知識和規則,揭示數據中某些對象之間的特定關系,為經營決策、市場策劃和金融預測等提供有用的信息。因此,對于現代化企業而言,數據分析工作非常重要。例如,一家公司讓員工佩戴傳感器以搜集日常工作中員工之間的非正式互動數據,公司的數據分析人員在對搜集到的數據進行分析后,建議重新設計辦公環境,因此提高了工作效率。
從事數據整理、分析和挖掘工作的技術人員被稱為數據分析師或數據科學家。托馬斯·達文波特和帕蒂爾在《哈佛商業評論》上發表的《數據科學家:21世紀最性感的職業》一文中指出:企業正在應對前所未有的龐大而多樣的信息。數據科學家的職責是在數據的海洋中探索,找出豐富的數據源并將它們與其他數據源連接起來,將大量不規則的數據組織起來使之成為可分析的數據,再用數據分析得到的信息為企業高管和產品經理提供產品、流程和決策等方面的建議。
數據科學是培養數據分析師及數據科學家的專門學科。數據科學包括數學與統計學(線性代數、概率統計、建模等)、計算機與人工智能(機器學習等)、可視化、計算語言學、圖形分析、商務智能、數據存儲與檢索等多個學科領域。有人曾經把數據科學家形容為計算機科學家中的統計專家,統計專家中的計算機科學家。
1.1.1 數據的基本概念
在客觀世界中,數據通常是指一些抽象的、可識別的物理符號或物理符號的組合,用于記錄和表示客觀事物的屬性、數量、位置及它們間的相互關系。數據不僅是用某種進制表示的實數(如1、2、3、3.14、2.71828等),還包括具有一定意義的文字與數字、符號的組合(如電子商務平臺上各商鋪的商品交易記錄等),以及圖形、圖像、音頻、視頻等。在計算機世界中,數據是指所有用二進制編碼表示的、可以輸入計算機中并能被計算機程序處理的數值、命令、文字、圖形圖像、音頻和視頻等。
雖然大數據時代下的數據量巨大且種類繁多,但它們并不都是對人類有用的信息,因此對數據做進一步的處理和分析使其變為有用的信息就顯得十分必要。
從數據分析和處理的角度可以將數據分為4類:①原始數據(沒有經過任何加工處理的數據);②干凈數據(做過預處理的數據);③增值數據(做過分析和處理的數據);④洞見數據(可直接用于決策的數據)。
1.1.2 數據分析的主要內容及流程
數據分析的主要內容可以歸結為以下幾方面。
(1)確定數據分析的目的。在目的明確的基礎上確定需要分析什么數據并建立相應的數據框架。例如,一個互聯網電子商務企業為了增加企業產品的網上銷售額、提升自己在行業中的地位,決定分析以下幾方面的數據:①電子商務行業整體狀況統計數據;②網站運營狀況(流量分析、銷售分析、商品分析等)統計數據;③客戶分布情況數據;④各種轉化率及廣告投放效益等數據。據此建立的數據框架包括:①流量數據層(客戶的瀏覽行為等);②交易和庫存數據層(客戶的交易行為等);③客戶信息、商品信息和售后服務數據層;④財務數據層;⑤店鋪數據層。
(2)根據數據分析目的和數據框架從各種數據源中收集并存儲數據。例如,一個互聯網電子商務企業的數據來源通常包括內部數據和外部數據兩大類。內部數據主要有:①財務數據(產品銷售總額、成本、利潤、廣告投放額);②網站運營數據(PV、UV、購買商品的客戶信息、瀏覽網站的客戶信息及其在網站停留的時間、收藏數、評論數、跳出率、新訪問比例、流量訂單轉化率、新用戶注冊購買率、老用戶購買率、平均訂單額、訂單失敗率、購物車失敗率、廣告投放轉化率、配送差錯率、每個用戶的平均獲取成本等);③客戶數據(性別、年齡、職業、地域分布、購物時間等)。外部數據主要有:①電子商務行業所占的市場份額;②企業市場調研數據;③用戶使用的搜索引擎類型及主要搜索關鍵詞的比例;④第三方監測數據;⑤競爭對手的數據等。一個企業在運營的各個環節都需要做實時的數據收集。
(3)選擇合適的數據分析工具。有許多數據處理與分析工具可供選擇,具體選擇什么工具取決于企業的需求和操作工具的人。例如,對于一個電子商務企業而言,自助式商業智能軟件Power BI就是一個不錯的選擇。
(4)將收集到的數據導入數據分析工具,對數據做必要的整理,建立數據模型并做相應的數據分析,用數據分析結果形成決策輔助策略,以可視化報表形式呈現給決策者。
數據分析實際上就是將企業業務層面的問題轉化為數據問題,使用數據分析工具對數據加以分析和處理后,再將數據應用到業務層面的過程。數據分析的一般流程可用圖1-1表示。

圖1-1 數據分析的一般流程
1.1.3 數據的表示和存儲
按照數據結構化的程度可將數據分為3類:①結構化數據;②非結構化數據;③半結構化數據。這3類數據的存儲方式是不同的。
結構化數據是指用二維表表示的數據,其具有固定的符合關系數據庫要求的數據模型結構。例如,一個企業所有員工的基本信息(工號、姓名、性別、出生日期、文化程度、入職日期等)就可以組織在一個二維表中,表格的第1行是標題行,從第2行開始每行記錄一個員工的基本信息;表格的每一列稱為字段(屬性),一個字段中的所有數據都屬于相同的類型。結構化數據可存儲在傳統關系數據庫(如 Access、MySQL、Oracle)中,也可存儲在 Excel文件中。
非結構化數據是指沒有固定結構的數據,包括文本、圖形、圖像、音頻、視頻等形式。這類數據可存儲在文件中或非關系數據庫(如NoSQL、MongoDB)中。
半結構化數據是介于結構化數據和非結構化數據之間的數據,這種數據不符合關系數據庫要求的數據模型結構,但包含了用于分隔語義元素及對記錄和字段進行分層的相關標記,因此經過適當的轉換和處理后,它可以變為結構化數據。例如,HTML文檔(網頁)就是一種半結構化數據。存儲半結構化數據有兩種方式:一種是將其轉換為結構化數據后存儲到傳統關系數據庫中;另一種是將其轉換為XML格式的數據后存儲到支持XML格式數據的關系數據庫中。
1.1.4 數據分析與數據思維
通常意義上的思維是指人類大腦以感知為基礎并超越感知的認知活動。人類思考的過程就是探索和發現客觀事物之間的本質聯系和發展變化規律的過程。
數據思維是一種量化的邏輯思維模式。數據思維的特點是通過分析和對比來源于客觀事物及與其具有相互關系的數據,發現隱藏在數據中的事物之間的聯系和規律后,對事物做出判斷、推理及決策。另一種思維模式是經驗思維,其特點是依據個人經驗和常識對事物做出判斷和決策。
以一個現代化企業為例。在當今的互聯網時代,企業的競爭對手越來越多,所面臨的外部環境也越來越復雜,企業的領導者和決策者如果仍然依靠經驗思維管理企業,則難以提升企業的競爭力,甚至有可能會做出錯誤的決策。一個企業在激烈的市場競爭中想要求得生存和發展,應當運用數據思維對企業進行數據化管理。數據思維的基礎是數據分析。對企業的數據做分析不僅需要從事數據分析的專業人員,還需要合適的數據分析工具,如Power BI。