官术网_书友最值得收藏!

前言

在出版了《零基礎學機器學習》并開設了極客時間專欄課程“零基礎實戰(zhàn)機器學習”之后,我結識了不少做數(shù)據(jù)分析、數(shù)據(jù)運營的新朋友,也常和大家一起探討數(shù)據(jù)科學的落地現(xiàn)狀。

我發(fā)現(xiàn)大家對數(shù)據(jù)科學的學習和實踐充滿熱情,但是,在投入大量的時間和精力學習新技能的同時,大家也存在著諸多疑惑。

討論較多的問題有這么幾個。

——我正在數(shù)據(jù)分析入門階段,學了Python,學了數(shù)據(jù)分析工具,學了數(shù)據(jù)可視化。書中的代碼都看得明白,程序也會寫了。但是,數(shù)據(jù)來了,業(yè)務需求來了,我還是不知道怎樣去做。怎么辦?

——我想知道資深數(shù)據(jù)分析師的成長路徑是什么樣子的。有那么多工具要學,Excel、統(tǒng)計學和數(shù)學、Python/R語言、SQL、Tableau、Power BI這些都要掌握嗎?要掌握到什么程度才算專家?

——作為數(shù)據(jù)分析師,我該如何學習機器學習,掌握到什么程度才算合適呢?機器學習的相關數(shù)學公式太多,資料太難,看不懂怎么辦?好不容易弄懂了一些機器學習算法,卻找不到場景使用。機器學習是不是傳說中的“屠龍之技”啊?

帶著這些問題,我開始了本書的寫作。我的第一個小目標就是要寫一本將技術聯(lián)系實際、讓工具全面落地的場景化實際操作指南。

我感覺僅學數(shù)據(jù)分析工具本身,如Python“三劍客”(Pandas、NumPy和Matplotlib)的語法(如數(shù)據(jù)挖掘和機器學習的各種算法),學習效果其實很一般,學習過程也味同嚼蠟。這是純知識導向性學習的明顯弊端。

那么,怎么學才能夠了解數(shù)據(jù)的本質和內(nèi)涵,才能夠把學到的知識真正落地,才能夠更有效地把工具應用到業(yè)務場景之中?帶著這些疑問,我發(fā)現(xiàn)了數(shù)據(jù)分析的學習和實戰(zhàn)過程中的一個大秘密:數(shù)據(jù)分析的學習一定要結合業(yè)務場景,要在場景中實戰(zhàn),這樣才能夠把工具的價值最大化,才能夠真正理解知識、理解數(shù)據(jù)的內(nèi)涵,然后學會舉一反三。

沒有真正做到工具、知識與應用的結合,似乎就是學習者們遇見諸多問題的原因,而在業(yè)務實戰(zhàn)的具體場景中邊做邊學應該就是解決這些問題的方法。

那么,疑惑再度出現(xiàn),對于一個新手,或者運營經(jīng)驗并不豐富的數(shù)據(jù)分析師來說,他們沒有見過那么多的業(yè)務場景,也就不可能邊做邊學,這個問題又該怎么解決呢?

沒關系,這也是我的痛點,我也力圖將這一痛點完全解決掉。在這本書中,我會把一些真實的業(yè)務場景展示出來。我會從用戶故事和具體問題出發(fā),手把手地帶著大家學習,從問題的出現(xiàn)到理論的分析,再到工具的介紹和使用,直至問題的解決,把知識扎實地落地。在這個過程中,強調(diào)理論、工具和實戰(zhàn)場景的結合,我將用簡單的語言和示例講解高級又有用的技巧。

除了想奉獻給讀者一本實用、“硬核”的數(shù)據(jù)分析和數(shù)據(jù)運營的技術參考書之外,我還有第二個小目標,就是希望這是一本非常有趣的數(shù)據(jù)分析參考書。

王小波說過:“每一本書都應該有趣。”可是,現(xiàn)實世界的真實情況是大家在學習技術時感覺太枯燥了,讀書也太累了。所以,我真心希望能夠有一本書帶著大家一起快樂地“玩”數(shù)據(jù)。

而且這個快樂學習的小目標與我的“在場景實戰(zhàn)中學工具、學技術”理念完全不矛盾。只學編程語言和數(shù)據(jù)分析工具難免枯燥,但是結合了業(yè)務場景和用戶故事,大家就能快樂地學習了。

為什么這么說呢?因為通過數(shù)據(jù)分析能夠從數(shù)據(jù)中挖掘出價值,能夠把這一價值用漂亮的圖表呈現(xiàn)出來,能夠看到自己的建議驅動了運營的增長,還能看到數(shù)據(jù)中隱含的“秘密”,從而給公司業(yè)務帶來巨大的增量。

數(shù)據(jù)帶來的好處實實在在,能看得見。

這本書中沒有什么深奧的東西,全都是一些大家能夠讀懂的用戶故事、實戰(zhàn)案例和Python工具的使用方法。有了它們,數(shù)據(jù)不再是簡單的數(shù)據(jù),而是你的工具,怎么使用它,隨你。

現(xiàn)在一起來看看,表面上普普通通的數(shù)據(jù),在普普通通的運營場景中,我們可以“玩”出哪些“花樣”。

在這里,我們用Python對用戶進行簡單畫像,發(fā)現(xiàn)一張眼影盤促銷海報錯發(fā)給了不適合它的受眾。

在這里,我們通過收集用戶的行為信息,利用RFM分析判斷用戶的價值高低,并且預估一個用戶會在該產(chǎn)品上花費多少錢。

在這里,我們把各個營銷渠道排列組合、動態(tài)配置,看看是抖音、嗶哩嗶哩(B站)還是小紅書更適合推廣自己的產(chǎn)品。

在這里,我們使用漏斗模型聚焦轉化率,看看哪一個環(huán)節(jié)才是用戶決定使用我們產(chǎn)品的關鍵。

在這里,我們分析用戶留存和流失的相關因子,讓用戶的留存曲線一目了然,通過該曲線可以發(fā)現(xiàn)會員卡中的哪些配套服務更能留住會員。

在這里,我們用內(nèi)容分析探索產(chǎn)品的價值。

在這里,我們用推薦系統(tǒng)找到喜歡的好物。

在這里,我們用A/B測試發(fā)現(xiàn)助力促銷的方法。

在這里,我們用增長實驗尋覓更有效的裂變方案。

寫著寫著,我又發(fā)現(xiàn)書中的內(nèi)容漸漸超越了數(shù)據(jù)分析本身。本書的內(nèi)容逐漸形成了一種方法、一種思路、一個體系,希望讀者通過對工具的使用養(yǎng)成一種從數(shù)據(jù)中發(fā)掘“蛛絲馬跡”并提取其價值的思維習慣。數(shù)據(jù)科學的從業(yè)者、數(shù)據(jù)分析和運營人員需要養(yǎng)成這種思維習慣,培養(yǎng)自己透過數(shù)據(jù)的表象看清業(yè)務本質的能力,把數(shù)據(jù)轉換成實實在在的價值。

在這里,我們對數(shù)據(jù)的推理已經(jīng)超越了傳統(tǒng)的數(shù)據(jù)分析,我把該推理方法稱為“數(shù)據(jù)演繹法”。

在數(shù)據(jù)的世界里,你就是“福爾摩斯”。數(shù)據(jù)中隱藏著什么,由你去發(fā)現(xiàn)。

本書的使用方式

說了這么多,那么作為讀者的你應該如何使用這本書,才能讓它的價值最大化呢?

我的第一個建議就是動手實踐。真正動手做出的東西才是屬于自己的。

此外,我還有另外一個建議。在開展機器學習的相關課程后,我從眾多的讀者留言中收獲了大量有價值的建議,也從中發(fā)現(xiàn)了交互式學習的重要性。“教學相長”是一件非常關鍵的事情。如果我和眾多讀者一起繼續(xù)打磨書中的實戰(zhàn)案例,一起優(yōu)化細節(jié),一起發(fā)掘書中業(yè)務場景的更多、更好的解決方案,那將是一件十分有意義的事情。

例如,讀者“Shatu”為某些讀者在使用Matplotlib作圖的過程中無法顯示中文字體的問題提供了基于他的運行環(huán)境的具體解決方案。

示例:某些讀者使用Matplotlib繪圖時無法顯示中文字體

解決方案是在繪圖代碼前添加下面的代碼。

不過,因為不同系統(tǒng)環(huán)境的配置也不盡相同,如果讀者遇到類似問題,也可以在互聯(lián)網(wǎng)中搜索其他解決方案。例如先確認系統(tǒng)有沒有中文字體,如果沒有,先下載安裝一個中文字體,然后再進行相應的設置。若覺得上述步驟麻煩,可選擇的另外一個辦法是把要繪制的相應文字內(nèi)容轉成英文再繪圖。

又如,讀者“在路上”就聚類算法的實際應用場景給出了與自己工作相關的建議,建議如下。

“我從事游戲行業(yè),會根據(jù)玩家充值金額來定義大、中、小R值,充值金額區(qū)間的定義全憑經(jīng)驗,而用今天學的K-means算法定義充值金額區(qū)間就非常合適。我最近在學習大數(shù)據(jù),想統(tǒng)計HDSF上文件大小的分布情況,也可以用K-means算法。”

這對于一起學習的讀者將是十分寶貴的建議。而且有了這些建議,你在學習的路上也就不會感到孤單。正所謂:“獨樂樂,與人樂樂,孰樂?”

因此,我建議讀者通過下面3種方式來“集體學習”本書。

第一,我會把本書全部的數(shù)據(jù)集和代碼發(fā)布到Github上面,鏈接為https://github.com/huangjia2019/datalogic。大家可以一起維護、優(yōu)化代碼。

第二,我會建立本書的讀者微信群,具體的入群方式大家可以在異步圖書網(wǎng)站本書的頁面上找到。大家可以入群一起學習,交流想法。

第三,雖然目前疏于維護,但是我仍然會不定期地更新公眾號“咖哥數(shù)據(jù)科學講習所”中的內(nèi)容,大家可以通過該公眾號或者我的郵箱tohuangjia@gmail.com聯(lián)系我。

我要感謝的人

寫作是一件快樂但并不容易的事。在此我要感謝很多人。首先就是我的另一半,她在辛苦工作之余,還擔負了經(jīng)營家庭、教育兒女的重任,本書能夠順利完成,她的功勞很大。

感謝我的老板Janet、Mark、Desmond。感謝他們對我的全力支持和信任,讓我能夠自由地做我想做的事情。在這本書問世的時候,也許我已經(jīng)離開埃森哲,開啟新征程,但對你們我有著深深的不舍。

感謝我的同事和團隊:Dennis、Ananth、Wai Hong、Zulaiha、Josef、Karsen、Sally、Lawrence、Swathi、Swasthi、Mart、Pei Juan、Swee Hai。和優(yōu)秀的人一起工作,工作從來不是負擔。

非常感謝Mustafa Bari Karaman、Morten Hegewald在博客中對數(shù)據(jù)化運營進行的有見地的分享,他們?yōu)槲覍戇@本書提供了很多靈感和啟發(fā),感謝他們同意我引用他們作品中的部分數(shù)據(jù)集和代碼。感謝海燕幫助我審閱了本書A/B測試部分的統(tǒng)計學知識。感謝其他數(shù)據(jù)分析行業(yè)的前輩允許我使用他們在網(wǎng)絡、博客上發(fā)布的部分內(nèi)容。

非常感謝明軒、忠仁哥家的好菜,利娟、僑發(fā)哥家的好酒,菁姐、楊哥的鼓勵,朱大哥多年的陪伴,于教師的長期指導,言詞伉儷、董力伉儷、阿良伉儷在中新成都會中的玩笑逗樂,感謝牛哥、賀老、老陳、小琚等老同學在本書創(chuàng)作期間經(jīng)常用火鍋款待我。

感謝顏景燕編輯,這本書能最終成形,顏編輯功不可沒。同時也感謝一路走來給予我大力支持的人民郵電出版社的所有編輯。

感謝我的爸爸、媽媽一如既往地支持我、鼓勵我。

開啟新的旅程

最后,我也要感謝購買這本書的讀者。

相逢即有緣,而我們之間的緣分從這本書開始。

如果你希望在數(shù)據(jù)之路上開始自己的探索,如果你想更深入地了解什么是“數(shù)據(jù)演繹法”,想知道新手小雪是怎樣在一次次有趣的數(shù)據(jù)運營實戰(zhàn)中成長起來的,那么就和咖哥一起,在一個個有趣的案例分析和編碼實戰(zhàn)中,開啟一段好玩的數(shù)據(jù)分析之旅吧!

黃佳

2022年6月

主站蜘蛛池模板: 通化市| 靖远县| 淮北市| 德兴市| 正镶白旗| 芦山县| 维西| 建始县| 永清县| 湛江市| 涿鹿县| 通榆县| 鄢陵县| 韶山市| 陆川县| 雷山县| 石泉县| 沾益县| 黎平县| 察雅县| 吉隆县| 百色市| 遂宁市| 定结县| 襄樊市| 休宁县| 宝山区| 宿松县| 大连市| 乌苏市| 东阿县| 江阴市| 勃利县| 南汇区| 南溪县| 庆云县| 赤壁市| 沙湾县| 亳州市| 敖汉旗| 康定县|