- Python網絡爬蟲技術(第2版·微課版)
- 池瑞楠 張良均主編
- 192字
- 2023-11-16 17:59:24
1.1.1 爬蟲的概念
網絡爬蟲(Web Spider,簡稱爬蟲)也被稱為網絡蜘蛛、網絡機器人,是可以自動下載網頁的計算機程序或自動化腳本。網絡爬蟲就像一只蜘蛛一樣在互聯網上爬行,它以一個被稱為種子集的統一資源定位符(Uniform Resource Locator,URL)集合為起點,沿著URL的“絲線”爬行,下載每一個URL所指向的網頁,分析頁面內容,再提取新的URL并記錄下每個已爬行過的URL,如此往復,直到URL隊列為空或滿足設定的終止條件為止,最終爬取所要的信息。