官术网_书友最值得收藏!

1.1.1 爬蟲的概念

網絡爬蟲(Web Spider,簡稱爬蟲)也被稱為網絡蜘蛛、網絡機器人,是可以自動下載網頁的計算機程序或自動化腳本。網絡爬蟲就像一只蜘蛛一樣在互聯網上爬行,它以一個被稱為種子集的統一資源定位符(Uniform Resource Locator,URL)集合為起點,沿著URL的“絲線”爬行,下載每一個URL所指向的網頁,分析頁面內容,再提取新的URL并記錄下每個已爬行過的URL,如此往復,直到URL隊列為空或滿足設定的終止條件為止,最終爬取所要的信息。

主站蜘蛛池模板: 盱眙县| 茶陵县| 宕昌县| 广饶县| 石棉县| 日喀则市| 白沙| 格尔木市| 平罗县| 长顺县| 汉源县| 双桥区| 武隆县| 靖安县| 栾川县| 东港市| 河津市| 德钦县| 汨罗市| 偏关县| 九龙县| 德兴市| 长泰县| 大安市| 湄潭县| 疏附县| 政和县| 无棣县| 普洱| 巩义市| 剑川县| 山西省| 浙江省| 清远市| 师宗县| 周至县| 禄劝| 嵊州市| 确山县| 仲巴县| 德昌县|