你知道網(wǎng)頁內(nèi)容是如何被Google搜索引擎提取的嗎？

1210 閱讀 0 評論 2 點贊

我們在做Google等搜索引擎推廣時一定要讓Google抓取你的網(wǎng)頁內(nèi)容，這樣才能有被搜索到的可能，那么搜索引擎是如何抓取網(wǎng)頁內(nèi)容的呢？

Google等搜索引擎旨在為互聯(lián)網(wǎng)用戶尋找答案。它們組織互聯(lián)網(wǎng)，使你能立即發(fā)現(xiàn)你想要搜索相關(guān)的結(jié)果。為了讓你的網(wǎng)站出現(xiàn)在搜索結(jié)果中，你必須讓你的網(wǎng)頁在搜索引擎中獲得排名。這就是為什么搜索引擎優(yōu)化（SEO）是如此重要。如果你想在搜索引擎結(jié)果頁面（SERPs）中出現(xiàn)，你需要一流的SEO技術(shù)。

一、?蜘蛛爬蟲

想要網(wǎng)頁能在Google搜索引擎被用戶搜索到首先要讓網(wǎng)頁被搜索引擎收錄，搜索引擎用來爬行和抓取網(wǎng)頁內(nèi)容的程序叫做蜘蛛爬蟲，簡稱為蜘蛛。搜索引擎為了提高質(zhì)量和速度，它會放很多蜘蛛一起去爬行和抓取網(wǎng)頁內(nèi)容。

蜘蛛訪問任何一個網(wǎng)站時，都會先去訪問網(wǎng)站根目錄下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件或目錄，蜘蛛將遵守協(xié)議，不抓取被禁止的網(wǎng)址。

二、?跟蹤鏈接

為了抓取網(wǎng)上盡量多的頁面，搜索引擎蜘蛛會跟蹤頁面上的鏈接，從一個頁面爬到下一個頁面，就好像蜘蛛在蜘蛛網(wǎng)上爬行一樣。
整個互聯(lián)網(wǎng)是由相互鏈接的網(wǎng)站及頁面組成的。當(dāng)然，由于網(wǎng)站及頁面鏈接結(jié)構(gòu)異常復(fù)雜，蜘蛛需要采取一定的爬行策略才能遍歷網(wǎng)上所有頁面。
最簡單的爬行的策略有：深度優(yōu)先和廣度優(yōu)先。

1、?深度鏈接
深度優(yōu)先指當(dāng)蜘蛛發(fā)現(xiàn)一個鏈接時，它就會順著這個鏈接指出的路一直向前爬行，直到前面再也沒其他鏈接，這時就會返回第一個頁面，然后會繼續(xù)鏈接再一直往前爬行。

2、?廣度鏈接
從seo角度講鏈接廣度優(yōu)先的意思是講的蜘蛛在一個頁面發(fā)現(xiàn)多個鏈接的時候，不是跟著一個鏈接一直向前，而是把頁面上所有第一層鏈接都爬一遍，然后再沿著第二層頁面上發(fā)現(xiàn)的鏈接爬向第三層頁面。

從理論上說，無論是深度優(yōu)先還是廣度優(yōu)先，只要給蜘蛛足夠的時間，都能爬完整個互聯(lián)網(wǎng)。在實際工作中，沒有什么東西是無限的，蜘蛛的帶寬資源和蜘蛛的時間也是一樣都是有限的，也不可能爬完所有頁面。實際上最大的搜索引擎也只是爬行和收錄了互聯(lián)網(wǎng)的一小部分。

3.吸引蜘蛛
蜘蛛程序不可能抓取所有的網(wǎng)頁頁面的，它只會抓取重要的網(wǎng)頁內(nèi)容，以下幾點就是比較重要的內(nèi)容：

1、網(wǎng)站和頁面權(quán)重：
頁面是指網(wǎng)站的所有頁面,主頁尤為重要,不僅美觀,而且質(zhì)量高。無論哪個頁面都有權(quán)重,但搜索引擎都會區(qū)分頁面的權(quán)重給頁面排名site在網(wǎng)站上,有的域名是首頁第一,有的是內(nèi)頁第一,這就是我們所說的頁面權(quán)重。

2、?頁面更新度；

定期更新的網(wǎng)站比很久沒有打理的網(wǎng)站流量要高地多！

3、?網(wǎng)站外鏈：

外鏈就是指在別的網(wǎng)站導(dǎo)入自己網(wǎng)站的鏈接。導(dǎo)入鏈接對于網(wǎng)站優(yōu)化來說是非常重要的一個過程。導(dǎo)入鏈接的質(zhì)量（即導(dǎo)入鏈接所在頁面的權(quán)重）間接影響了我們的網(wǎng)站在搜索引擎中的權(quán)重。

4.地址庫
搜索引擎會建立一個地址庫，這么做可以很好地避免出現(xiàn)過多抓取或者反復(fù)抓取的現(xiàn)象，記錄已經(jīng)被發(fā)現(xiàn)還沒有抓取的頁面，以及已經(jīng)被抓取的頁面。

地址庫中的URL有以下幾個來源：

(1)?人工錄入的種子網(wǎng)站。

(2)?蜘蛛抓取頁面后，從HTML中解析出新的鏈接URL，與地址庫中的數(shù)據(jù)進(jìn)行對比，如果是地址庫中沒有的網(wǎng)址，就存入待訪問地址庫。

(3)?搜索引擎自帶的一種表格提供站長，方便站長提交網(wǎng)址。

由于網(wǎng)站的內(nèi)容經(jīng)常在變化，因此搜索引擎爬蟲也需要不斷地更新其抓取網(wǎng)頁的內(nèi)容，這就需要搜索引擎爬蟲按照一定的周期去掃描網(wǎng)站，查看哪些頁面是需要更新的頁面，哪些頁面是新增頁面，哪些頁面是已經(jīng)過期的死鏈接。

搜索引擎的更新周期對搜索引擎搜索的查全率有很大影響。如果更新周期太長，則總會有一部分新生成的網(wǎng)頁搜索不到；周期過短，技術(shù)實現(xiàn)會有一定難度，而且會對帶寬、服務(wù)器的資源都有浪費。搜索引擎爬蟲并不是所有的網(wǎng)站都采用同一個周期進(jìn)行更新，對于一些重要的更新量大的網(wǎng)站，更新的周期短，如有些新聞網(wǎng)站，幾個小時就更新一次；相反，對于一些不重要的網(wǎng)站，更新的周期就長，可能一兩個月才更新一次。

一般來說，搜索引擎爬蟲在更新網(wǎng)站內(nèi)容的時候，不用把網(wǎng)站網(wǎng)頁重新抓取一遍，對于大部分網(wǎng)頁，只需判斷網(wǎng)頁的屬性(主要是日期)，把得到的屬性和上次抓取的屬性相比較，如果一樣則不用更新。

文章為作者獨立觀點，不代表DLZ123立場。如有侵權(quán),請聯(lián)系我們。( 版權(quán)為作者所有，如需轉(zhuǎn)載，請聯(lián)系作者 )

網(wǎng)站運營至今，離不開小伙伴們的支持。為了給小伙伴們提供一個互相交流的平臺和資源的對接，特地開通了獨立站交流群。群里有不少運營大神，不時會分享一些運營技巧，更有一些資源收藏愛好者不時分享一些優(yōu)質(zhì)的學(xué)習(xí)資料。

現(xiàn)在可以掃碼進(jìn)群，備注【加群】。 ( 群完全免費，不廣告不賣課！)

點贊(2) 打賞

本文分類：SEO
本文標(biāo)簽：Google SEO
瀏覽次數(shù)：1210 次瀏覽
發(fā)布日期：2022-12-11 22:10:34
原文鏈接：https://mp.weixin.qq.com/s/WKn6sj7TBMpYqg3loMX4Sg

上一篇 > 叮！僅需20分鐘的Technical SEO常規(guī)檢查清單，請注意查收~
下一篇 > 如何在 2022 年開始寫博客？博客初學(xué)者指南

精品国产三级a在线观看网站,亚洲综合色成在线观看,亚洲熟妇一区二区三区,,中文字幕成人精品久久不卡 ,永久免费av无码网站国产

你知道網(wǎng)頁內(nèi)容是如何被Google搜索引擎提取的嗎？

評論列表共有 0 條評論

發(fā)表評論取消回復(fù)

精品国产三级a在线观看网站,亚洲综合色成在线观看,亚洲熟妇一区二区三区,,中文字幕成人精品久久不卡 ,永久免费av无码网站国产

你知道網(wǎng)頁內(nèi)容是如何被Google搜索引擎提取的嗎？

谷歌SEO效果不佳？后悔沒有早點優(yōu)化元描述！

80%獨立站都沒有用好這個SEO引流功能！

長期更新，外貿(mào)獨立站谷歌自然排名歷程（3）

SEO優(yōu)化“獨門偏方”分享，教你抓住搜素引擎的“心”

評論列表 共有 0 條評論

發(fā)表評論 取消回復(fù)

谷歌SEO效果不佳？后悔沒有早點優(yōu)化元描述！

80%獨立站都沒有用好這個SEO引流功能！

長期更新，外貿(mào)獨立站谷歌自然排名歷程（3）

評論列表共有 0 條評論

發(fā)表評論取消回復(fù)