官术网_书友最值得收藏!

前言

本書內容

本書通過簡單易懂的案例,講解Python語言的爬蟲技術。全書共分為8章,第1章為網頁的內容,第2~7章為爬蟲的內容,第8章為Linux基礎。

第1章:介紹了HTML和CSS的基礎知識,雖然本章并不是直接與爬蟲相關,但它是學習爬蟲技術的基礎。對于已經掌握基本網頁基礎的讀者,可以選擇跳過該章。

第2章:正式進入爬蟲技術的學習階段,這一章介紹了最基本的兩個請求庫(urllib和Requests),有知識點的講解,也有實戰案例的講解。

第3章:本章對正則表達式做了詳細的描述,同時有案例的實踐。學完本章就可以掌握最基本的爬蟲技術了。

第4章:主要介紹XPath解析庫,配有實際的案例進行講解,以幫助讀者加深理解和鞏固。

第5章:主要介紹另一個解析庫Beautiful Soup,它在提取數據中也很方便,對相關知識點以及實際的案例都有所講解。XPath和Beautiful Soup可以使信息的提取更加方便、快捷,是爬蟲必備利器。

第6章:主要介紹selenium自動化測試。現在越來越多的網站內容是經過JavaScript渲染得到的,而原始HTML文本可能不包含任何有效內容,使用模塊selenium實現模擬瀏覽器進行數據爬取是非常好的選擇。

第7章:在大規模數據的爬取中,不太用得上基礎模塊,Scrapy是目前使用最廣泛的爬蟲框架之一,本章介紹了Scrapy爬蟲框架的詳細搭建和實踐。針對數據存儲過程部分使用的MySql數據庫,整章有多個實際的案例,以幫助讀者加深理解和鞏固。

第8章:主要介紹了Linux的基礎知識點,以幫助讀者能夠在服務器部署腳本。

相關資源

本書所有代碼和相關素材可以到GitHub下載獲取,地址為https://github.com/sfvsfv/Crawer。關于代碼的實用性需要聲明:所有代碼都是筆者在寫書階段編寫的,如果有部分爬蟲腳本失效,有可能是網站的結構發生了變化。希望讀者在閱讀本書的過程中,以學習筆者所介紹的方法為主。

致謝

本書的撰寫與出版得益于同行眾多同類教程的啟發,以及陳姍姍老師和同伴周培源的幫助,在此深表感謝。同時也感謝一路走來支持筆者的讀者。由于本人水平有限,書中難免有不妥之處,誠摯期盼專家和廣大讀者批評指正。

作者郵箱:2835809579@qq.com

楊涵文

2023年1月

主站蜘蛛池模板: 溧阳市| 临洮县| 万山特区| 新密市| 太仓市| 松潘县| 泗洪县| 留坝县| 内黄县| 隆化县| 会同县| 石柱| 惠来县| 垣曲县| 江津市| 涞源县| 淮滨县| 偏关县| 隆化县| 涿州市| 玉山县| 鹤峰县| 米脂县| 湾仔区| 酉阳| 册亨县| 纳雍县| 建湖县| 象山县| 东城区| 正宁县| 贵港市| 东山县| 嘉善县| 佛教| 昭觉县| 西丰县| 青阳县| 景谷| 拉孜县| 丹棱县|