Python網絡爬蟲:從入門到精通
本書主要介紹如何使用Python語言進行網絡爬蟲程序的開發,從Python語言的基本特性入手,詳細介紹Python網絡爬蟲開發的多個方面,涉及HTTP、HTML、正則表達式、JavaScript、自然語言處理、數據處理與科學計算等不同領域的內容。全書共12章,包括基礎篇、進階篇、提高篇和實戰篇4個部分。基礎篇包括第1、2、3章,分別為Python基礎及網絡爬蟲、靜態網頁抓取、數據存儲。進階篇包括第4、5、6章,分別為JavaScript與動態內容、模擬登錄與驗證碼、爬蟲數據的分析與處理。提高篇包括第7、8、9章,分別為爬蟲的靈活性和多樣性、Selenium模擬瀏覽器與網站測試、爬蟲框架Scrapy與反爬蟲。實戰篇提供了3個實戰項目供讀者學習參考。本書內容覆蓋網絡數據抓取與爬蟲編程中的主要知識和前沿技術。同時,本書在重視理論基礎的前提下,從實用性和豐富度出發,結合實例演示爬蟲程序編寫的核心流程,將理論與實踐結合,力求提高讀者的網絡爬蟲實操技能。本書可作為高等院校數據科學、統計學、計算機科學、軟件工程等相關專業課程的教材,也可作為Python語言初學者、網絡爬蟲技術愛好者的參考書。
·11.2萬字