官术网_书友最值得收藏!

1.3 數據分析流程及高級分析

在正式介紹企業數據分析流程及高級分析之前,首先介紹一些企業里常見的數據職位,以及每個職位的人在企業中承擔的責任。

業務分析師(Business Analysis,BA):這類人需要了解行業,快速理解業務痛點,能夠進行基礎的統計數據分析類工作(某些高級一點的職位需要熟練的SQL技能)。他們通常掌握一些基礎數據處理分析技能,能夠做商業洞察分析類報告。

高級統計分析建模師:一般數據科學家會擁有高級統計分析建模經驗,熟悉一些統計或者機器學習算法,能夠通過編程實現一些模型分析應用項目。高級統計分析建模師需要熟悉一些工作中用到的算法,如非監督學習、監督學習及聚類等。

1.3.1 數據分析流程

在企業中,經營的方方面面都需要數據分析。互聯網公司由于業務變化快,需要實時且持續地通過數據分析,發現企業業務存在的問題,并提出改進的方法,幫助企業解決相應的業務問題。

企業數據分析一般需要以下幾個步驟。

· 確定商業目標。

· 確定解決該問題所需要的數據、技術、能力。

· 確定用基本業務分析模型,還是用高級分析模型。

· 數據分析,包括數據準備、數據預處理、數據建模、分析數據并得出結果。

· 數據分析結果匯報。

· 解釋結果,提出應用方案。

其中,確定清晰的商業及業務問題,并和相關業務關鍵人員達成共識,是數據分析類項目成功的關鍵。接下來的部分屬于企業中數據科學家建模、執行的環節。

1.3.2 高級分析

下面介紹在日常工作中常用的高級分析模型—機器學習算法模型。

(1)監督學習:包含的算法有邏輯回歸、貝葉斯法、決策樹、SVM(支持向量機)。

(2)非監督學習:包含的算法有kNN(鄰近算法)、PCA(主成分分析)、K-means(K均值聚類算法)。

下面重點看一下監督學習是如何工作的。

圖1-4顯示的是一個監督學習模型。企業采集相關數據,并將數據轉化為特征向量,通過相應的機器學習模型(這里是監督模型)對特征向量進行訓練,最終進行分類預測,得到期望的類型標簽。

圖1-4 監督學習模型

企業中高級統計分析建模的工作,需要由專門的數據科學家來協助定義問題、建模并將結果進行呈現。一個合格的數據科學家需要哪些核心能力呢?

1.3.3 數據科學家需要具備的能力

要成為數據科學家,需要掌握的核心能力包括數理知識(含傳統研究)、業務能力(行業領域經驗)、黑客能力(在數據領域工作,尤其是數據科學家,需要通過尋找變量之間的各類關系,不斷進行假設、驗證,喜歡與數據打交道,能夠熱衷于研究數據,所以需要黑客的探索精神)等,如圖1-5所示。

圖1-5 數據科學家需要具備的能力

由此可見,數據科學家需要具備比較綜合的跨學科的素質。在具體實踐中,不同的算法有不同的優缺點,也有各自適應的場景。當面對不同的問題時,應該選擇不同的算法模型。然而,在什么情況下選擇什么算法模型,該從什么角度去思考這個問題,是值得每一位初學者深思的問題。

主站蜘蛛池模板: 即墨市| 西和县| 龙游县| 保康县| 中西区| 仁化县| 博野县| 洪江市| 通江县| 镇宁| 建德市| 三亚市| 日土县| 尚义县| 库伦旗| 睢宁县| 盐城市| 平原县| 通许县| 安多县| 和田县| 芮城县| 岱山县| 邢台县| 通城县| 兴化市| 淮安市| 黄山市| 河间市| 根河市| 仁怀市| 云霄县| 昌黎县| 曲水县| 孝感市| 定襄县| 成都市| 东乡县| 伊宁市| 亳州市| 佛教|