任达华代言的乐乐捕鱼

書名： Python網絡爬蟲技術（第2版·微課版）
作者名：池瑞楠張良均主編
本章字數： 1219字
更新時間： 2023-11-16 17:59:25

1.1.3 爬蟲的合法性與robots協議

網絡爬蟲在訪問網站時，需要遵從一定的原則，這樣才能友好地爬取更多的數據資源。即使如此，利用爬蟲技術爬取數據的行為仍會給網站服務器帶來壓力，嚴重時可能會影響網站的正常訪問。因此，針對網絡爬蟲的惡意行為，網站內部通常加入了一些防爬蟲措施。同時，為了健全網絡綜合治理體系，推動形成良好網絡生態，國家也針對網絡爬蟲制定了相關的法律法規。

1.爬蟲的合法性

如今，網絡爬蟲領域還處于早期的拓荒階段，雖然已經由互聯網行業自身的協議建立起一定的道德規范，但是法律部分還在建立和完善中。

目前，多數網站允許將爬蟲爬取的數據用于個人使用或科學研究。但如果將爬取的數據用于其他用途，尤其是轉載或商業用途，則依據各網站的具體情況可能會產生不同的后果，嚴重的可能會觸犯法律或引起民事糾紛。

同時，設計爬蟲的人員需要注意，以下兩種數據是不能爬取的，更不能用于商業用途。

（1）個人隱私數據，如姓名、手機號碼、年齡、血型、婚姻情況等，爬取此類數據將會觸犯《中華人民共和國個人信息保護法》。

（2）明確禁止他人訪問的數據，如用戶設置過權限控制的賬號、密碼或加密過的內容等。

另外，設計爬蟲的人員還需要注意版權相關問題，有作者署名的、受版權保護的內容不允許爬取后隨意轉載或用于商業用途。

2.robots協議

當使用爬蟲爬取網站的數據時，需要遵守網站所有者針對所有爬蟲所制定的協議——robots協議。該協議通常存放在網站根目錄下，里面規定了此網站中哪些內容可以被爬蟲爬取、哪些內容是不允許爬蟲爬取的。robots協議并不是一份規范的協議，只是一個約定俗成的協議。當用戶在爬取網頁信息時，應當遵守robots協議，否則很可能會被網站所有者封禁互聯網協議（Internet Protocol，IP）地址，甚至網站所有者會采取進一步法律行動。

由于爬蟲爬取網站時，模擬的是用戶的訪問行為，所以用戶必須約束自身的行為，遵守網站所有者的規定，避免引起不必要的麻煩。

3.相關法律法規

網絡爬蟲技術屬于技術范疇，利用該技術時，可發揮積極正面的價值，同時，由于技術本身的特點會帶來一定的法律風險。常見的法律風險包含以下3類。

（1）如果爬蟲人員未經授權，利用爬蟲技術爬取競爭對手的數據，并用于自身企業的經營，那么該行為就有可能被認定為截取了競爭對手的競爭優勢，損害其商業資源、妨礙其正常服務，構成不正當競爭行為。

（2）現如今，數據作為一種新型生產要素，被視為“數字經濟”時代的“石油”。有些網頁、數據信息對于競爭對手或上下游關聯的企業來說，具有非常高的價值。為此，部分人便利用爬蟲技術爬取有價值的信息，在爬取信息過程中，極有可能涉嫌構成非法獲取計算機信息系統數據罪、非法侵入計算機信息系統罪、破壞計算機信息系統罪等刑事犯罪。

（3）除技術應用行為本身會帶來法律風險之外，根據爬取內容的性質、領域的不同，爬蟲人員還可能由于爬取到個人信息涉嫌侵犯公民個人信息罪、爬取受著作權保護的內容并加以使用涉嫌侵犯著作權罪、爬取商業秘密范圍的數據等受法律保護的信息涉嫌侵犯商業秘密罪。

官术网_书友最值得收藏!

Python網絡爬蟲技術（第2版·微課版）

1.1.3 爬蟲的合法性與robots協議