官术网_书友最值得收藏!

譯者序

云計算、大數據、物聯網,這幾年很火。到現在為止,人們對云計算的激情已經回落到比較理智的水平,各種云基礎設施已投入使用,支撐起關系國計民生的信息化應用。物聯網還在建設中,家電智能化、個人健康信息數字化、交通智能化等趨勢在我們身邊悄然推進。開放互聯的概念不再囿于傳統的互聯網思維,我們生活所觸及的一切正在被編織到一張包羅萬象的大網之中。它將會對社會產生何種影響,我們拭目以待。雖然大數據現在很火,各種大數據研究中心相繼建立,但這只是剛剛開始。隨著更多的人和設備接入互聯網,隨著人們對世界認識的加深和新工具的研發,數據規模將加速膨脹,超乎想象。大數據的春天才剛剛到來。數據采集能力上去之后,勢必要求數據挖掘能力跟得上。正如作者在第12章中講到的,大數據帶來的一個挑戰就是,重要信息可能被垃圾信息湮沒。由此我們不難推斷出數據挖掘技術在發現、突顯和傳承人類文明方面將起到不可替代的作用。本書講解的正是大數據時代的核心技能——數據挖掘技術,可以預見該項技術將發揮出越來越重要的作用。

本書講解了如何用Python語言進行數據挖掘。Python是一種通用型編程語言,它簡單易學,上手快,有著豐富的第三方庫,社區氛圍友好。從數據采集、分析一直到應用開發層面,Python都有成熟的庫。使用Python語言進行開發,無需過多關注語言細節,開發者可以將主要精力放到業務本身。書中使用IPython Notebook作為開發環境,它將代碼執行、富文本、公式編輯、繪圖、多媒體等功能集合在一起,是科學計算和數據分析的好工具。書中所涉及的數據挖掘對象很豐富,有Iris鳶尾花卉數據集、Ionosphere電離層數據集、NBA比賽結果、MovieLens電影評分數據集、古登堡計劃所收集的圖書、安然公司郵件數據集、博客語料、CIFAR-10圖像數據集等。從這些分屬于不同行業的數據集,也能一窺數據挖掘應用之廣。此外,作者還介紹了從Twitter、Reddit網站采集數據的方法。在算法方面,除了常見的決策樹、樸素貝葉斯、支持向量機等,作者還介紹了最近幾年非常熱的深度學習。大數據、深度學習對計算能力要求很高,作者介紹了如何在亞馬遜云主機上運行MapReduce任務。這本書由淺入深,以真實數據為研究對象,逐漸增大數據集規模,真刀實槍地向讀者介紹了Python數據挖掘是怎么回事,并給讀者進一步學習指出了多種可能的方向。工程實踐之余,作者還不忘介紹數據挖掘常用思路,毫不保留地把自己積攥的寶貴經驗傳授給讀者。這一點我在閱讀過程中,深有體會。正如作者自己在前言里所寫的,書中不會涉及大量公式推導,所有的算法都是以很直觀的形式向讀者介紹,所以即使你缺乏一定的數學基礎,只要肯用功,也不用擔心自己讀不懂。

回到七八年前,當我還是一名英語專業學生的時候,我壓根不會想到有一天會學編程,會去翻譯這樣一本書。后來有幸讀了計算機輔助翻譯這樣一個專業,才開始接觸到計算機知識,但是當父親跟我提起數據建模時,我還是一臉茫然。研究生幾年,系里為我們這些非計算機背景的學生開設了Python編程課。從那時起我就有事沒事學點Python,一開始是照著Natural Language Processing with Python的示例敲,自那時起五年之后我竟想起給NLTK提交幾處微小的改動。大約是為了激勵我這個后生繼續為他們服務,“居心叵測”的Steven Bird竟把我加入到貢獻者名單里。去中關村圖書大廈的時候,我常常喜歡瀏覽一下語言與程序設計書架上有沒有關于Python的新書,碰到喜歡的就翻翻看,這幾年眼看著Python書多了起來,很是欣慰。此外,我去北大、北外旁聽過計算語言學、概率統計等課程,去北航旁聽過計算機系統基礎,看過Udacity的統計學入門和吳恩達老師的機器學習課程視頻,興致來了也曾捧著Rosen的《離散數學及其應用》讀上幾頁。工作中,經常幫同事寫個簡單的Python程序處理數據,最近還幫他們爬取了一個網站。PyCon北京,我連著去了三四屆了,每次都有或多或少的收獲,2015年我見過一位大神行云流水般演示用pandas處理數據,很受震撼。以上就是我與Python、數據挖掘的交集。我想說的是,不要再用上學時讀的那個專業的思維局限自己的發展,學科的界限在模糊,融合的趨勢在增強,數學的重要性在提升。提到數學,今天還看了一個TED演講視頻,說的是借助計算機改變傳統數學教育方法。這種理念什么時候能應用到一線教學,非常值得期待。生在這個充滿變革的時代,倍感幸運。

以我有限的水平去翻譯這樣一本書,心里不免焦慮。遇到問題,我四處尋找能人相助。感謝作者Robert Layton,我每次發郵件向他求教或確認問題,他總能很快地回復我,有時第二天回復,還會說抱歉回復晚了。感謝我的同學黃子軒、孫偉、周星,他們在我學習計算機科學的路上給予了很多指導和幫助。翻譯本書時,我還向子軒求證作者在第6章給出的示例是否有誤。感謝上海大學研究生錢亦欣同學,他幫我審讀了第3章,并給出若干很專業的修改意見,上述第6章那處問題,我也曾向他請教過,最終證明是原書弄錯了。感謝李少華,他幫我弄明白了Python在Windows系統中的環境變量設置方法。感謝陳健鎖,我曾就數據庫相關術語向他請教。感謝圖靈的朱巍編輯,是她促成了我最終去翻譯這樣一本趣味盎然的書!感謝圖靈公司,我是你們忠實的讀者!最后感謝我的妻子,她承擔了照顧女兒的重任。女兒的出生,讓我驚嘆于生命的奇妙!感謝岳父岳母一家人幫忙照看孩子,我才有時間去做翻譯。感謝我的父親、姐姐,他們以我翻譯本書為驕傲。

由于本人學識有限,且時間倉促,書中翻譯錯誤、不當和疏漏之處在所難免,望讀者批評指正。

杜春曉

2016年1月3日

主站蜘蛛池模板: 胶州市| 鄂伦春自治旗| 沂水县| 虎林市| 特克斯县| 大姚县| 泗水县| 花莲县| 留坝县| 藁城市| 新宾| 融水| 澄城县| 新龙县| 武城县| 城步| 祥云县| 伊金霍洛旗| 井陉县| 罗定市| 武威市| 富川| 平顶山市| 龙岩市| 潜江市| 滁州市| 宽甸| 巴林右旗| 东平县| 凌云县| 宁河县| 海安县| 仙居县| 康定县| 莒南县| 中江县| 鸡东县| 濮阳县| 恩平市| 商都县| 宁晋县|