官术网_书友最值得收藏!

  • 精通Spark數據科學
  • (美)安德魯·摩根 (英)安托萬·阿門德 大衛·喬治 馬修·哈利特
  • 744字
  • 2021-01-15 16:45:32

前  言

數據科學的目標是利用數據改變世界,而這個目標主要是通過打亂和改變實際行業中的流程來實現的。要在這個層面上操作,我們需要建立實用的數據科學解決方案,這種方案能解決真正的問題,能可靠地運行,能讓人們信任并采取相應的行動。

本書介紹了如何使用Spark來提供生產級的數據科學解決方案,使之具有足夠的創新性、顛覆性和可靠性,并值得信賴。在寫這本書的時候,作者試圖提供一個“超越傳統指導教程”風格的作品:不僅提供代碼的例子,而且拓展了技術和思維方法。你要像專業人員那樣去探索內容;正如他人所言,“內容為王”!讀者會注意到本書著重于新聞分析,偶爾也引入其他數據集,如Twitter數據集。這種對新聞數據的強調不是偶然的,是因為作者一直關注全球范圍內的數據集。

本書致力于解決的隱含問題是:缺乏數據,以至于無法提供人們如何以及為什么做出決策的背景信息。通常,可直接訪問的數據源非常關注問題的細節,因此,要想了解人們做出決策的依據就需要更廣泛的數據集。

思考一個簡單的例子,網站用戶的關鍵信息(如年齡、性別、位置、購物行為、訂單等)都是已知的,我們可以使用這些數據,根據人們的購物習慣和喜好來進行推薦。

但要想更進一步,就需要更多的背景數據來解釋人們為什么會這樣做。新聞報道稱,一場巨大的大西洋颶風正在逼近佛羅里達海岸線,可能在36小時內到達海岸,這時我們應該推薦人們可能需要的產品,如支持USB的電池組,用于手機充電,還有蠟燭、手電筒、凈水器等。通過了解決策的背景,我們可以進行更好的科學研究。

本書提供配套代碼,而且在許多情況下這些代碼是獨一無二的實現。本書深入研究掌握數據科學所需要的技術和技能,其中一些經常被忽視或根本不被考慮。作者擁有多年的商業經驗,充分利用自己豐富的知識體系,為大家呈現了一個真實的、令人興奮的數據科學世界。

主站蜘蛛池模板: 平罗县| 阳原县| 临泉县| 阿尔山市| 惠安县| 乐安县| 义乌市| 五原县| 库尔勒市| 尚义县| 中超| 精河县| 茶陵县| 淮阳县| 武邑县| 富平县| 隆回县| 东海县| 罗定市| 平乡县| 开远市| 郯城县| 大厂| 兴山县| 石林| 化州市| 海伦市| 陇川县| 浙江省| 安乡县| 宕昌县| 阿鲁科尔沁旗| 龙口市| 张家港市| 潮州市| 呼玛县| 巴林左旗| 牡丹江市| 抚州市| 宝丰县| 贵定县|