前言

本書內容

本書通過簡單易懂的案例，講解Python語言的爬蟲技術。全書共分為8章，第1章為網頁的內容，第2~7章為爬蟲的內容，第8章為Linux基礎。

第1章：介紹了HTML和CSS的基礎知識，雖然本章并不是直接與爬蟲相關，但它是學習爬蟲技術的基礎。對于已經掌握基本網頁基礎的讀者，可以選擇跳過該章。

第2章：正式進入爬蟲技術的學習階段，這一章介紹了最基本的兩個請求庫（urllib和Requests），有知識點的講解，也有實戰案例的講解。

第3章：本章對正則表達式做了詳細的描述，同時有案例的實踐。學完本章就可以掌握最基本的爬蟲技術了。

第4章：主要介紹XPath解析庫，配有實際的案例進行講解，以幫助讀者加深理解和鞏固。

第5章：主要介紹另一個解析庫Beautiful Soup，它在提取數據中也很方便，對相關知識點以及實際的案例都有所講解。XPath和Beautiful Soup可以使信息的提取更加方便、快捷，是爬蟲必備利器。

第6章：主要介紹selenium自動化測試。現在越來越多的網站內容是經過JavaScript渲染得到的，而原始HTML文本可能不包含任何有效內容，使用模塊selenium實現模擬瀏覽器進行數據爬取是非常好的選擇。

第7章：在大規模數據的爬取中，不太用得上基礎模塊，Scrapy是目前使用最廣泛的爬蟲框架之一，本章介紹了Scrapy爬蟲框架的詳細搭建和實踐。針對數據存儲過程部分使用的MySql數據庫，整章有多個實際的案例，以幫助讀者加深理解和鞏固。

第8章：主要介紹了Linux的基礎知識點，以幫助讀者能夠在服務器部署腳本。

相關資源

本書所有代碼和相關素材可以到GitHub下載獲取，地址為https://github.com/sfvsfv/Crawer。關于代碼的實用性需要聲明：所有代碼都是筆者在寫書階段編寫的，如果有部分爬蟲腳本失效，有可能是網站的結構發生了變化。希望讀者在閱讀本書的過程中，以學習筆者所介紹的方法為主。

致謝

本書的撰寫與出版得益于同行眾多同類教程的啟發，以及陳姍姍老師和同伴周培源的幫助，在此深表感謝。同時也感謝一路走來支持筆者的讀者。由于本人水平有限，書中難免有不妥之處，誠摯期盼專家和廣大讀者批評指正。

作者郵箱：2835809579@qq.com

楊涵文

2023年1月

官术网_书友最值得收藏!