- 數據準備和特征工程:數據工程師必知必會技能
- 齊偉
- 861字
- 2020-06-05 17:00:52
前言
在計算機科學中,有一句名言:“Garbage in, garbage out”(GIGO)。這句話用到數據科學上也同樣成立。另外,數據科學業界中還流傳著另一句話:“數據和特征決定了機器學習的上限,而模型和算法只是逼近這個上限而已。”
除了“名言”,很多數據科學實踐者的項目經驗也一再證明高質量的數據永遠是排在第一位的。
然而,現實世界的數據存在不完整、噪聲、不一致、錯誤值、離群值、重復等問題。不僅如此,數據集的特征也是形形色色的,有的特征與項目無關,有的特征彼此強相關,還有的數據集因為特征太多而導致耗費極大的計算資源。諸如此類現象,可以概括為一句話:“理想很豐滿,現實很骨感。”
因此,數據準備和特征工程的工作就成為數據科學項目中不可或缺的環節,每個從業者必須熟練掌握相關操作技能,并能耐心地從事這項工作。實踐經驗表明,數據準備和特征工程會占用項目開發的絕大部分時間。
本書相對于已有的類似書籍而言,在以下方面更具有特色。
●強調工程實踐,這也是本書作者所有書籍的共同特點。書中通過大量案例,向讀者演示了各種方法的具體實現方式。
●基礎與前沿結合。雖然本書在“基礎知識”中介紹了相關的基本實現方法,但因為現實項目的復雜性,在具體項目中還會用到各種工具及最新的研發成果,為此專設了“擴展探究”供讀者了解更精彩的內容。
●以案例為載體,傳授思想方法。數據科學項目需要嚴謹、科學的思想方法,這些方法并非通過簡單說教就能讓讀者掌握,本書以“項目案例”為載體,不僅講述操作技法,而且還讓讀者體驗其中的思想方法,并且在“動手練習”中提供了練習項目,供讀者檢驗和鞏固所學內容。
為了給讀者使用本書提供更多的資源支持,在此推薦本書作者的微信公眾號:老齊教室。通過此微信公眾號,可以得到如下資源:
●使用本書配套的在線實驗平臺。在實驗平臺中,讀者可以運行本書的所有源碼,應用書中所要求的數據集。
●觀看本書配套的視頻課程。
●及時獲得本書的勘誤內容。
●閱讀與本書相關的其他技術資料。
●與本書的作者及其他讀者進行專業交流。
非常感謝為本書的出版而辛苦工作的各位編輯。
書中內容難免錯誤,懇請讀者不吝賜教。

齊偉