- Python網絡爬蟲入門到實戰
- 楊涵文 周培源 陳姍姍
- 797字
- 2024-03-04 17:25:52
前言
本書內容
本書通過簡單易懂的案例,講解Python語言的爬蟲技術。全書共分為8章,第1章為網頁的內容,第2~7章為爬蟲的內容,第8章為Linux基礎。
第1章:介紹了HTML和CSS的基礎知識,雖然本章并不是直接與爬蟲相關,但它是學習爬蟲技術的基礎。對于已經掌握基本網頁基礎的讀者,可以選擇跳過該章。
第2章:正式進入爬蟲技術的學習階段,這一章介紹了最基本的兩個請求庫(urllib和Requests),有知識點的講解,也有實戰案例的講解。
第3章:本章對正則表達式做了詳細的描述,同時有案例的實踐。學完本章就可以掌握最基本的爬蟲技術了。
第4章:主要介紹XPath解析庫,配有實際的案例進行講解,以幫助讀者加深理解和鞏固。
第5章:主要介紹另一個解析庫Beautiful Soup,它在提取數據中也很方便,對相關知識點以及實際的案例都有所講解。XPath和Beautiful Soup可以使信息的提取更加方便、快捷,是爬蟲必備利器。
第6章:主要介紹selenium自動化測試。現在越來越多的網站內容是經過JavaScript渲染得到的,而原始HTML文本可能不包含任何有效內容,使用模塊selenium實現模擬瀏覽器進行數據爬取是非常好的選擇。
第7章:在大規模數據的爬取中,不太用得上基礎模塊,Scrapy是目前使用最廣泛的爬蟲框架之一,本章介紹了Scrapy爬蟲框架的詳細搭建和實踐。針對數據存儲過程部分使用的MySql數據庫,整章有多個實際的案例,以幫助讀者加深理解和鞏固。
第8章:主要介紹了Linux的基礎知識點,以幫助讀者能夠在服務器部署腳本。
相關資源
本書所有代碼和相關素材可以到GitHub下載獲取,地址為https://github.com/sfvsfv/Crawer。關于代碼的實用性需要聲明:所有代碼都是筆者在寫書階段編寫的,如果有部分爬蟲腳本失效,有可能是網站的結構發生了變化。希望讀者在閱讀本書的過程中,以學習筆者所介紹的方法為主。
致謝
本書的撰寫與出版得益于同行眾多同類教程的啟發,以及陳姍姍老師和同伴周培源的幫助,在此深表感謝。同時也感謝一路走來支持筆者的讀者。由于本人水平有限,書中難免有不妥之處,誠摯期盼專家和廣大讀者批評指正。
作者郵箱:2835809579@qq.com
楊涵文
2023年1月