- 精通Spark數據科學
- (美)安德魯·摩根 (英)安托萬·阿門德 大衛·喬治 馬修·哈利特
- 744字
- 2021-01-15 16:45:32
前 言
數據科學的目標是利用數據改變世界,而這個目標主要是通過打亂和改變實際行業中的流程來實現的。要在這個層面上操作,我們需要建立實用的數據科學解決方案,這種方案能解決真正的問題,能可靠地運行,能讓人們信任并采取相應的行動。
本書介紹了如何使用Spark來提供生產級的數據科學解決方案,使之具有足夠的創新性、顛覆性和可靠性,并值得信賴。在寫這本書的時候,作者試圖提供一個“超越傳統指導教程”風格的作品:不僅提供代碼的例子,而且拓展了技術和思維方法。你要像專業人員那樣去探索內容;正如他人所言,“內容為王”!讀者會注意到本書著重于新聞分析,偶爾也引入其他數據集,如Twitter數據集。這種對新聞數據的強調不是偶然的,是因為作者一直關注全球范圍內的數據集。
本書致力于解決的隱含問題是:缺乏數據,以至于無法提供人們如何以及為什么做出決策的背景信息。通常,可直接訪問的數據源非常關注問題的細節,因此,要想了解人們做出決策的依據就需要更廣泛的數據集。
思考一個簡單的例子,網站用戶的關鍵信息(如年齡、性別、位置、購物行為、訂單等)都是已知的,我們可以使用這些數據,根據人們的購物習慣和喜好來進行推薦。
但要想更進一步,就需要更多的背景數據來解釋人們為什么會這樣做。新聞報道稱,一場巨大的大西洋颶風正在逼近佛羅里達海岸線,可能在36小時內到達海岸,這時我們應該推薦人們可能需要的產品,如支持USB的電池組,用于手機充電,還有蠟燭、手電筒、凈水器等。通過了解決策的背景,我們可以進行更好的科學研究。
本書提供配套代碼,而且在許多情況下這些代碼是獨一無二的實現。本書深入研究掌握數據科學所需要的技術和技能,其中一些經常被忽視或根本不被考慮。作者擁有多年的商業經驗,充分利用自己豐富的知識體系,為大家呈現了一個真實的、令人興奮的數據科學世界。
- 機器學習實戰:基于Sophon平臺的機器學習理論與實踐
- Oracle SOA Governance 11g Implementation
- Windows XP中文版應用基礎
- 自主研拋機器人技術
- 觸控顯示技術
- SAP Business Intelligence Quick Start Guide
- MCGS嵌入版組態軟件應用教程
- Statistics for Data Science
- 啊哈C!思考快你一步
- 手機游戲策劃設計
- Mastering MongoDB 3.x
- 傳感器與自動檢測
- Natural Language Processing and Computational Linguistics
- Microsoft Office 365:Exchange Online Implementation and Migration(Second Edition)
- 華人動畫師的法蘭西印象