- Python+Superset:商業智能數據分析與實戰
- 王國平
- 2191字
- 2022-05-06 16:07:31
1.2 商業智能技術
商業智能與報表、數據分析、數據可視化等有顯著的區別,它是一套完整的解決方案,能有效整合企業中現有數據,快速準確地提供可視化報表及決策依據,從而幫助企業做出明智的經營決策。
1.2.1 數據倉庫技術
數據倉庫技術來源于數據庫,首先簡單介紹一下數據庫技術,它是信息科技的核心技術,自產生至今,已有較成熟的實踐方法、理論基礎及相應的技術產品。以數據庫為基礎,各企業建立起自己的生產業務系統,隨著系統的應用,數據規模不斷擴大,業務部門的需求也不斷增長,為使企業更好地發展,需要一個存儲、分析數據的環境。
數據倉庫之父比爾·恩門(Bill Inmon)在1991年出版了一本關于數據倉庫的書——《建立數據倉庫》。在這本書中,他提出了數據倉庫的定義,他指出:數據倉庫是一個面向主題的(Subject Oriented)、集成的(Integrate)、相對穩定的(Non-Volatile)、反映歷史變化(Time Variant)的數據集合。
數據倉庫與通常的數據庫應用系統不同,其更像是一個流程,主要是對分布在企業內部的業務數據進行集成、處理和分析。建立數據倉庫的最終目標是為企業提供決策支持,所有的工作都是為了讓使用者能夠更便捷地查詢到所需的信息。
此外,數據倉庫具有如下4個方面的基本特征,如圖1-4所示。

圖1-4 數據倉庫基本特征
(1)數據倉庫中的數據是面向主題的,而傳統數據庫是面向應用的。在這一方面,主題就是在較高水平上對企業信息系統中的數據進行分類和分析使用的抽象,每個主題都對應著一個宏觀的分析領域。
(2)數據倉庫的主題是集成的。該方法來自原始、分散的數據源,在進入數據倉庫前,必須對數據源進行不同程度的加工整合、統一和綜合。
(3)數據倉庫的數據是相對穩定的。數據倉庫中的數據反映了一個時期的歷史數據,而不僅僅是在線處理的數據,這些數據在整合之后幾乎沒有被修改。
(4)數據倉庫的數據是隨著時間不斷變化的。數據倉庫的穩定性是相對的,并不意味著從數據集成開始到最后刪除的整個數據生命周期中,所有數據都不會有任何變化。
1.2.2 ETL技術
在建立數據倉庫系統的過程中,最難的部分就是用戶需求調查、業務分析及商業模式的設計;而占據了大部分工作時間的就是數據的轉換與清理,即ETL(Extract Transform Load的首字母縮寫,即數據倉庫技術),這部分工作大約占工程總時間的60%~70%。
利用ETL技術,可以為企業構建一個穩健、可擴展、易于維護的數據倉庫,從而最大限度地減輕對數據倉庫的管理負擔,因此,幾乎所有企業在建立數據倉庫時,都需使用相關的工具來幫助企業盡快完成數據倉庫的建設。
數據倉庫中的數據導入部分一般是在批處理模式下操作的。數據源以確定的時間頻率獲取,通常為每日、每星期或每個月,然后,數據倉庫的ETL子系統將它們提取、轉換和清洗,并將它們導入數據倉庫中。
目前,較為流行的ETL工具是商業工具,如MySQL公司的OWB(MySQL Warehouse Builder)、ODI(MySQL Data Integrator),Informatic公司的Informatic,IBM的DataStage,以及微軟的SSIS等開源工具。
1.2.3 數據可視化技術
數據可視化技術源于計算機圖形學,被應用到科學計算領域,并逐步派生出“科學計算可視化”的概念。其通過把科學數據(包括實際測量中采集到的測繪數據或工程數據)轉變為直觀的、便于理解的圖形圖像信息,供研究者分析研究,使得它們能更好地進行觀測、模擬和計算。
當我們分析需求和抽取數據時,選用合適的圖表進行數據展示,可以清晰有效地傳達所要溝通的信息。所以,使用圖表是數據可視化中最常見、最重要的策略,而基礎圖表又最具代表性,可以分為對比型、趨勢型、比例型、分布型等,下面逐一進行介紹。
1. 對比型圖表
對比型圖表一般是比較幾組數據的差異,這些差異通過視覺和標記來區分,體現在視圖中通常表現為高度差異、寬度差異、面積差異等,如條狀圖、柱狀圖、雷達圖、氣泡圖等。
例如,為了比較分析2021年企業每個季度在各個地區的客戶流失情況,可以繪制不同地區客戶流失量的雷達圖,其中7個地區表示7個維度,每個季度的客戶流失量均用一個七邊形表示,生成如圖1-5所示的雷達圖。

圖1-5 雷達圖
2. 趨勢型圖表
趨勢型圖表用于反映一段時間內數據的變化趨勢,特別是在總體的趨勢比單一數據點更為重要時,如折線圖、面積圖、曲面圖等。
折線圖用來顯示連續的時間間隔或數據跨度的變化,其特征反映了按時間或按順序分類變化的趨勢。
以某企業在2021年上半年每周的銷售額和利潤額情況為例,我們繪制折線圖,其中橫軸是周數,即0到26,縱軸是每周的銷售額和利潤額,并且用不同的點線表示,生成如圖1-6所示的折線圖。

圖1-6 折線圖
3. 比例型圖表
比例型圖表用于展示每一部分占整體的百分比情況,在圖表中至少有一個分類變量和數值變量,包括餅圖、環形圖、旭日圖等。
環形圖是一類特殊的餅圖,它是由兩個及以上大小不一的餅圖疊加在一起,然后挖去中間的部分所構成的圖形。2021年不同地區商品訂單量占比分析如圖1-7所示。

圖1-7 環形圖
4. 分布型圖表
分布型圖表用于研究數據的集中趨勢、離散程度等描述性度量,用以反映數據的分布特征,包括散點圖、直方圖等。
以某企業2021年不同收入等級客戶的價值為例,繪制了如圖1-8所示的不同收入等級客戶的價值分析散點圖。

圖1-8 散點圖
5. 其他類圖表
除了以上四種類型的基本圖表外,還有一些其他類型的圖表,它們在日??梢暬治鲞^程中也會被經常用到,如樹狀圖、瀑布圖、股價圖等。
下面以股價圖為例進行介紹,股價圖用來顯示股票價格的波動情況,在研究金融數據時經常用到,一般包括股票開盤價、收盤報價等信息。例如,研究2021年某企業股票價格的變化情況,繪制了如圖1-9所示的企業股票價格趨勢分析的K線圖。

圖1-9 K線圖
- JasperReports for Java Developers
- Photoshop CS6平面設計應用教程(第4版)
- Photoshop CS6從入門到精通
- AutoCAD 2014中文版完全自學手冊
- 穿越Photoshop CC
- Zenoss Core Network and System Monitoring
- SolidWorks2014基礎實例教程
- AI繪畫:Stable Diffusion從入門到精通
- 新編AutoCAD制圖快捷命令速查一冊通
- Photoshop CS6標準教程(全視頻微課版)
- Apache JMeter
- Audition CC音頻處理完全自學一本通
- Instant Apache Sqoop
- 新手學UG NX 8.0輔助設計
- Sage ACT! 2011 Dashboard and Report Cookbook