财神发发发捕鱼游戏

書名： SEO流量狙擊：搜索優(yōu)化面面觀
作者名：秦建忠
本章字?jǐn)?shù)： 5020字
更新時間： 2019-11-22 18:32:21

2.4　搜索引擎工作原理

一個合格的SEOer必須了解搜索引擎的工作原理（如圖2-16所示），畢竟多數(shù)看上去讓人迷惑的SEO問題及解決方法都是從搜索引擎的工作原理出發(fā)的。

圖2-16　搜索引擎工作原理

說到底，SEO是一項(xiàng)穿梭在用戶與搜索引擎之間的工作，既要保證用戶體驗(yàn)又需要盡量迎合搜索引擎。從某個角度來講，SEO優(yōu)化人員對于網(wǎng)站的優(yōu)化工作就是盡量減少搜索引擎的工作量、降低搜索引擎的工作（識別）難度，致使搜索引擎能夠更加輕松、快速地抓取網(wǎng)站頁面，并準(zhǔn)確地提取頁面內(nèi)容。只有深入了解搜索引擎的工作原理，從用戶的角度出發(fā)考慮如何獲取搜索引擎排名，才能夠清晰地知道怎樣優(yōu)化網(wǎng)站，使其符合搜索引擎的友好度原則。

搜索引擎的主要工作包括頁面抓取、頁面分析、頁面排序及關(guān)鍵字查詢（索引）。

?　頁面抓取：是指搜索引擎通過蜘蛛程序在互聯(lián)網(wǎng)上抓取頁面并進(jìn)行存儲的過程，為搜索引擎開展后續(xù)的各項(xiàng)工作提供數(shù)據(jù)支持。

?　頁面分析：主要是指對蜘蛛程序所抓取回來的網(wǎng)頁進(jìn)行信息提取處理，包括頁面的正文信息，并對正文信息進(jìn)行分詞處理等，為后續(xù)建立關(guān)鍵字索引提供基礎(chǔ)數(shù)據(jù)。

?　頁面排序：搜索引擎結(jié)合頁面的內(nèi)外部因素計算出該頁面與某個關(guān)鍵字的相關(guān)程度，從而得到與該關(guān)鍵字相關(guān)的頁面排序列表。

?　關(guān)鍵字查詢（索引）：搜索引擎接收到來自于用戶的檢索請求，并對檢索信息進(jìn)行切詞及匹配，再向用戶返回響應(yīng)的頁面排序列表。

接下來將向讀者介紹搜索引擎的主要工作流程、原理及作用，以及在對網(wǎng)站進(jìn)行優(yōu)化時應(yīng)該如何應(yīng)對。

2.4.1　搜索引擎抓取策略

搜索引擎對網(wǎng)頁的抓取實(shí)質(zhì)上就是搜索蜘蛛（Spider）或機(jī)器人（Bot）在整個互聯(lián)網(wǎng)平臺上進(jìn)行信息的采集和抓取，這也是搜索引擎最基本的工作。

搜索引擎蜘蛛／機(jī)器人采集的力度直接決定了搜索引擎前端檢索器可提供的信息量及信息覆蓋面，同時影響反饋給用戶檢索查詢信息的質(zhì)量。所以，搜索引擎本身在不斷設(shè)法提高其數(shù)據(jù)采集／抓取及分析的能力。

本節(jié)將著重介紹搜索引擎抓取頁面的流程及方式。

1．頁面收錄／抓取流程

在整個互聯(lián)網(wǎng)中，URL是每個頁面的入口地址，同時搜索引擎蜘蛛程序也是通過URL來抓取網(wǎng)站頁面的，整個流程如圖2-17所示。

圖2-17　搜索引擎抓取／收錄頁面的流程

URL是頁面的入口地址，域名則是整個網(wǎng)站的入口。搜索引擎蜘蛛程序會通過域名進(jìn)入網(wǎng)站，然后對網(wǎng)站內(nèi)的頁面實(shí)施抓取。如圖2-17所示，蜘蛛程序會從原始URL列表出發(fā)，通過URL抓取頁面，然后從該頁面提取新的URL存儲到原始URL列表中（這個步驟會不斷地重復(fù)，周而復(fù)始地累積擴(kuò)大原始URL資源庫），最后將該原始頁面存儲到搜索引擎索引庫。

蜘蛛程序的執(zhí)行步驟可以按照如下分拆步驟理解。

第一步：搜索引擎的爬行程序（俗稱蜘蛛）發(fā)現(xiàn)網(wǎng)站，來到網(wǎng)站上。也就是說，網(wǎng)站首先要存在且能夠被蜘蛛發(fā)現(xiàn)。比如秦建忠的自媒體博客如果想要被搜索引擎收錄，首先網(wǎng)站要存在而且必須有內(nèi)容。

如何讓網(wǎng)站被搜索引擎收錄呢？

方法一：主動向搜索引擎提交URL（此方法快則一周，慢則一月才會被收錄）。

常用搜索引擎提交入口如下。

●　百度：http://zhanzhang.baidu.com/linksubmit/url。

● 360搜索：http://info.so.360.cn/site_submit.html。

●　搜狗：http://zhanzhang.sogou.com/index.php/urlSubmit/index。

●　谷歌：https://www.google.com/webmasters/tools/submit-url?pli=1。

●　必應(yīng)：http://www.bing.com/toolbox/submit-site-url。

方法二：與其他網(wǎng)站建立鏈接關(guān)系，即“外鏈”。使搜索引擎能夠通過外部網(wǎng)站發(fā)現(xiàn)我們的網(wǎng)站，實(shí)現(xiàn)頁面收錄（該方法主要看外部網(wǎng)站鏈接的質(zhì)量、數(shù)量及相關(guān)性，相較主動向搜索引擎提交URL，速度快很多，一般一周左右）。

第二步：蜘蛛開始對入口頁面進(jìn)行抓取，并存儲入口的原始頁面，包含頁面的抓取時間、URL、最后修改時間等。存儲原始頁面的目的是為了下次比對頁面是否有更新，為保證采集的資料最新，它還會回訪已抓取過的網(wǎng)頁。

第三步：提取URL，提取URL包含兩方面的內(nèi)容：提取域名URL和提取內(nèi)部URL。域名URL即網(wǎng)站首頁地址，如www.***.com；內(nèi)部URL即網(wǎng)站內(nèi)部各頁面的地址，如http://www.***.com/SEOxx/151.html。蜘蛛所提取的URL資源會持續(xù)添加到URL列表。

2．頁面抓取方式

相信通過上述內(nèi)容，大家對搜索引擎的抓取原理及流程有了一個大致的了解。然而，在互聯(lián)網(wǎng)這片浩瀚的信息汪洋中，搜索引擎又怎樣保證快速、有效地抓取更多的相對重要的頁面呢？這就需要我們接著來了解搜索引擎的抓取方式。

了解搜索引擎的抓取方式有利于我們建立對搜索引擎友好的網(wǎng)站結(jié)構(gòu)，使搜索引擎蜘蛛能夠在我們網(wǎng)站上停留的時間更久，抓取更多的網(wǎng)站頁面（即收錄數(shù)量），為網(wǎng)站關(guān)鍵詞排名提供有力支撐。常見的搜索引擎抓取頁面的方式有廣度優(yōu)先抓取、深度優(yōu)先抓取、質(zhì)量優(yōu)先抓取、暗網(wǎng)抓取。

（1）廣度優(yōu)先抓取

廣度優(yōu)先抓取是指網(wǎng)絡(luò)蜘蛛會先抓取起始網(wǎng)頁中鏈接的所有網(wǎng)頁，然后選擇其中的一個鏈接網(wǎng)頁，繼續(xù)抓取在此網(wǎng)頁中鏈接的所有網(wǎng)頁。這是最常用的蜘蛛抓取方式，該方法的優(yōu)點(diǎn)是可以讓網(wǎng)絡(luò)蜘蛛并行處理，提高其抓取速度。

廣度優(yōu)先抓取是一種按層次橫向抓取頁面的方式，如圖2-18所示，它會從網(wǎng)頁的最底層，也就是首頁開始抓取頁面，直至該層頁面被抓取完才會進(jìn)入下一層。所以，當(dāng)我們在做網(wǎng)站優(yōu)化的時候，不妨將一些相對重要的信息或欄目在首頁優(yōu)先展示出來（如熱門產(chǎn)品、資訊內(nèi)容等），讓搜索引擎優(yōu)先抓取到網(wǎng)站較為重要的信息。

圖2-18　廣度優(yōu)先抓取的爬行策略

（2）深度優(yōu)先抓取

深度優(yōu)先抓取是指網(wǎng)絡(luò)蜘蛛會從起始頁開始，一個鏈接一個鏈接跟蹤下去，處理完這條線路之后再轉(zhuǎn)入下一個起始頁，繼續(xù)跟蹤鏈接，如圖2-19所示。

圖2-19　深度優(yōu)先抓取的爬行策略

（3）質(zhì)量優(yōu)先抓取

質(zhì)量優(yōu)先抓取一般是針對大型網(wǎng)站，比如新浪、網(wǎng)易、阿里巴巴等類型的網(wǎng)站，由于它們的信息量龐大，而且本身權(quán)重比較高，相對來說更容易為用戶提供更有價值的信息。正因如此，搜索引擎會更愿意優(yōu)先抓取大型網(wǎng)站中的網(wǎng)頁，以保障其可以在最短的時間內(nèi)為用戶提供更有價值的信息（這也是大型網(wǎng)站的內(nèi)容抓取比小站更及時的原因之一）。

搜索引擎整理高質(zhì)量的網(wǎng)站一般分為兩種方式：一種是前期的人工整理大量種子網(wǎng)站，進(jìn)而由種子資源出發(fā)去發(fā)現(xiàn)更多大型網(wǎng)站資源；另一種是對已經(jīng)索引的網(wǎng)站進(jìn)行系統(tǒng)分析，從而識別那些內(nèi)容豐富、規(guī)模較大、信息更新頻繁的網(wǎng)站。

（4）暗網(wǎng)抓取

所謂暗網(wǎng)（又稱深網(wǎng)、不可見網(wǎng)或隱藏網(wǎng)），是指目前搜索引擎爬蟲按照常規(guī)方式很難抓取到的互聯(lián)網(wǎng)頁面。搜索引擎爬蟲必須依賴頁面中的鏈接關(guān)系發(fā)現(xiàn)新的頁面，但是很多網(wǎng)站的內(nèi)容是以數(shù)據(jù)庫方式存儲的，典型的例子是一些垂直領(lǐng)域網(wǎng)站，如攜程旅行網(wǎng)的機(jī)票數(shù)據(jù)，很難使用顯式鏈接指向數(shù)據(jù)庫內(nèi)的所有機(jī)票記錄，往往是服務(wù)網(wǎng)站提供組合查詢界面（如圖2-20所示），只有用戶按照需求輸入查詢之后，才能夠獲得相關(guān)數(shù)據(jù)。所以，常規(guī)的爬蟲無法索引這些數(shù)據(jù)內(nèi)容，這是暗網(wǎng)的命名由來。

圖2-20　攜程網(wǎng)機(jī)票搜索框

為了能夠?qū)Π稻W(wǎng)數(shù)據(jù)進(jìn)行索引，需要研發(fā)與常規(guī)爬蟲機(jī)制不同的系統(tǒng)，這類爬蟲被稱作暗網(wǎng)爬蟲。暗網(wǎng)爬蟲的目的是將暗網(wǎng)數(shù)據(jù)從數(shù)據(jù)庫中挖掘出來，并將其加入搜索引擎的索引，這樣用戶在搜索時便可利用這些數(shù)據(jù)增加信息覆蓋程度。

2.4.2　頁面分析

在頁面收錄過程中，搜索引擎已經(jīng)抓取并存儲了網(wǎng)站上的URL，接下來，搜索引擎會對所抓取的頁面內(nèi)容進(jìn)行分析，如圖2-21所示。

圖2-21　頁面分析流程

在這個過程中，我們看到了兩個“網(wǎng)頁”。第一個“網(wǎng)頁”指的是剛才搜索引擎已經(jīng)收錄的URL資源（即搜索蜘蛛抓取的原始頁面），第二個“網(wǎng)頁”指的是搜索引擎對關(guān)鍵詞進(jìn)行重組之后所對應(yīng)的網(wǎng)頁。搜索引擎對頁面的分析由該原始頁面正式開始。

?　第一步：提取正文信息

這里所提取的正文信息除了包含頁面內(nèi)容外，還包含頁面的頭部標(biāo)簽信息（Title、Keywords、Description）等。

?　第二步：分詞／拆詞

提取完信息后，搜索引擎按照機(jī)械分詞法和統(tǒng)計分詞法將正文信息切分為若干關(guān)鍵詞，這些關(guān)鍵詞組成了關(guān)鍵詞列表。我們大家在搜索引擎里查找內(nèi)容時往往會輸入關(guān)鍵詞查找，這里搜索引擎的工作就是按照一定的規(guī)則將內(nèi)容劃分為詞，以便以后大家搜索。

?　第三步：建立關(guān)鍵字索引

上一步搜索引擎已經(jīng)將正文內(nèi)容切分為了若干關(guān)鍵詞，這些關(guān)鍵詞出現(xiàn)的位置、頻率等是不同的，在這一步，搜索引擎會將關(guān)鍵詞逐一記錄、歸類、建立索引，比如關(guān)鍵詞出現(xiàn)的頻率（建議2%~8%是比較合理的）。

?　第四步：關(guān)鍵詞重組

搜索引擎為頁面關(guān)鍵詞建立索引后，再將這些關(guān)鍵詞重新組合，以關(guān)鍵詞的形式重新組建一個新的網(wǎng)頁，這個網(wǎng)頁上的關(guān)鍵詞是唯一的，全部不重復(fù)。比如，我們剛才在第三步時，A關(guān)鍵詞出現(xiàn)了三次，在第四步，我們只記錄A關(guān)鍵詞1次，在重組網(wǎng)頁后，A關(guān)鍵詞再無重復(fù)。

至此，搜索引擎對頁面的分析完成，在這一環(huán)節(jié)，搜索引擎完成了對頁面正文信息的提取、關(guān)鍵詞的切分、關(guān)鍵詞的索引以及搜索引擎角度上的網(wǎng)頁重組。

2.4.3　頁面排序

前面搜索引擎完成了對頁面的分析，將頁面以唯一關(guān)鍵詞的形式進(jìn)行了重新組合。接下來進(jìn)入頁面排序的環(huán)節(jié)。頁面排序的環(huán)節(jié)實(shí)際上是由用戶配合來完成的。當(dāng)用戶在搜索引擎中輸入關(guān)鍵詞進(jìn)行查詢時，搜索引擎便開始了頁面排序的工作。我們知道，任意輸入一個關(guān)鍵詞就可以在搜索引擎中找到很多網(wǎng)頁，這些網(wǎng)頁的先后順序是怎樣產(chǎn)生的呢？影響頁面排序的因素有哪些？

實(shí)際上，決定頁面排序的因素很多，如頁面相關(guān)性、鏈接權(quán)重及用戶行為。

1. 頁面相關(guān)性

?　關(guān)鍵詞匹配度

我們注意到在全文搜索引擎中，一般情況下搜索引擎列表中都會包含我們所輸入的關(guān)鍵詞。當(dāng)我們輸入關(guān)鍵詞進(jìn)行查詢時，搜索引擎會首先檢查網(wǎng)頁中是否有該關(guān)鍵詞，這是基礎(chǔ)條件。

?　關(guān)鍵詞詞頻（密度計算）

搜索引擎為了能夠有效地防止網(wǎng)站所有者惡意操控搜索結(jié)果，會去比對頁面中關(guān)鍵詞出現(xiàn)的頻率與該網(wǎng)頁詞匯量的比例，以此來衡量頁面中的關(guān)鍵字詞頻是否合理。過高或者過低都不好，最恰當(dāng)?shù)念l率一般認(rèn)為是2%~8%（業(yè)界公認(rèn)最優(yōu)關(guān)鍵詞密度區(qū)間值）。

關(guān)鍵詞密度是指該關(guān)鍵字出現(xiàn)的次數(shù)所占字符數(shù)與該網(wǎng)頁總詞匯量所占字符數(shù)的比例。

?　關(guān)鍵詞分布

關(guān)鍵字在頁面中出現(xiàn)的位置會影響頁面的排序。一般認(rèn)為頁面權(quán)重的遞減順序是左上>右上>左>右>左下>右下。

?　關(guān)鍵詞的權(quán)重標(biāo)簽

權(quán)重可以理解為重要性。權(quán)重標(biāo)簽如< b >、< i >、< em >、< h1 >至< h6 >等，這些標(biāo)簽使得標(biāo)簽內(nèi)的文字不同于其他文字，搜索引擎會給予相應(yīng)權(quán)重提升。

2. 鏈接權(quán)重

鏈接主要分為內(nèi)部鏈接和外部鏈接兩種形式，是在制作網(wǎng)站頁面時用來關(guān)聯(lián)相關(guān)信息的，主要用來告知用戶所鏈接頁面的重要程度，對于搜索引擎而言，則是用來證明頁面與頁面之間的關(guān)聯(lián)性、相關(guān)性或重要性。比如，某一個頁面得到的鏈接越多，在某種程度上就反映了該頁面的重要性，搜索引擎給予的重視程度就會越高。

?　內(nèi)部鏈接

網(wǎng)站內(nèi)部頁面與頁面之間的相互鏈接關(guān)系，一般首頁的權(quán)重最高。在同等情況下，如果有兩個網(wǎng)站的首頁和內(nèi)頁進(jìn)行比較，一般首頁會排在內(nèi)頁前面。

?　外部鏈接

網(wǎng)站與站外頁面之間的鏈接關(guān)系，通俗的說法叫作“外鏈”。外鏈的數(shù)量、質(zhì)量、相關(guān)性都會影響頁面排序。在頁面相關(guān)性上，谷歌比百度更為嚴(yán)格，比如你的網(wǎng)站是做IT的，結(jié)果你去鏈接了很多機(jī)械化工類的網(wǎng)站，這時搜索引擎會很不喜歡，甚至?xí)J(rèn)為你惡意添加外部鏈接。

如圖2-22所示，網(wǎng)頁1與網(wǎng)頁2之間的鏈接關(guān)系可以稱為“內(nèi)部鏈接”或“友情鏈接”，而網(wǎng)頁3與網(wǎng)頁2之間的鏈接關(guān)系則是“外部鏈接”（網(wǎng)頁3是網(wǎng)頁2的外部鏈接）。

圖2-22　頁面鏈接關(guān)系

?　默認(rèn)權(quán)重分配

搜索引擎將頁面被抓取的日期作為一個參考因素，頁面在單位時間內(nèi)獲得鏈接的數(shù)量越多、質(zhì)量越高，則該頁面的質(zhì)量相對越高。

3. 用戶行為

用戶對搜索結(jié)果的點(diǎn)擊行為是衡量頁面相關(guān)性的因素之一，是完善排序結(jié)果、提高排序結(jié)果質(zhì)量的重要補(bǔ)充。

用戶行為主要包括搜索、點(diǎn)擊兩項(xiàng)行為：搜索是用戶獲得信息的過程，搜索引擎通過這個用戶行為學(xué)習(xí)新詞匯、豐富辭典；點(diǎn)擊是指用戶對搜索結(jié)果的反應(yīng)，被點(diǎn)擊的次數(shù)越多，說明越重要，權(quán)重越高。

注　意

搜索引擎為避免馬太效應(yīng)，會對排在后面的鏈接進(jìn)行點(diǎn)擊權(quán)重補(bǔ)償。

2.4.4　關(guān)鍵字查詢

當(dāng)所有頁面的權(quán)重被計算完成之后，搜索引擎便會向用戶提供相關(guān)信息查詢服務(wù)，查詢流程如圖2-23所示。

圖2-23　關(guān)鍵詞查詢處理流程

第一步：用戶輸入關(guān)鍵詞進(jìn)行查詢。

第二步：搜索引擎接到用戶關(guān)鍵詞指令，將用戶的關(guān)鍵詞再次切分。

為什么還要繼續(xù)切分呢？

這是因?yàn)橛脩羲斎氲年P(guān)鍵詞可能會和搜索引擎詞典里的關(guān)鍵詞不符合，這時搜索引擎會將用戶輸入的關(guān)鍵詞再次切分，尤其是長尾關(guān)鍵詞（見4.2.2小節(jié)）。例如用戶搜索“秦建忠的自媒體博客”，這個詞搜索引擎詞典里是沒有的，這個詞就會被切分為“秦建忠的”“自媒體”“博客”三個詞之后再去網(wǎng)頁資源中進(jìn)行匹配（如圖2-24所示）。

圖2-24　百度關(guān)鍵詞切分結(jié)果

第三步：搜索引擎將關(guān)鍵詞切分后，進(jìn)入網(wǎng)頁資源庫中進(jìn)行匹配，查詢合適的內(nèi)容，即“關(guān)鍵詞反向索引表”。如果網(wǎng)頁資源中有查詢到對應(yīng)關(guān)鍵詞，就進(jìn)行頁面分析，按照頁面權(quán)重進(jìn)行網(wǎng)頁排序。如果沒有對應(yīng)關(guān)鍵詞，就返回給用戶一個“空列表”，比如“很抱歉，沒有找到你要查詢的內(nèi)容”。

官术网_书友最值得收藏!

SEO流量狙擊：搜索優(yōu)化面面觀

2.4 搜索引擎工作原理

2.4.1 搜索引擎抓取策略