精品国产三级a在线观看网站,亚洲综合色成在线观看,亚洲熟妇一区二区三区,,中文字幕成人精品久久不卡 ,永久免费av无码网站国产

Google Bot[1]的工作是在網(wǎng)絡(luò)上發(fā)現(xiàn)網(wǎng)站、抓取和找到頁(yè)面并將其添加到Google的索引中(出現(xiàn)在搜索頁(yè)面)。但是網(wǎng)絡(luò)空間非常大,Google Bot在抓取任何給定網(wǎng)站時(shí)只有有限的時(shí)間和資源,所以優(yōu)化抓取速度很重要。

但從 Gary Illyes 近期的播客上說(shuō)到,谷歌不會(huì)直接 follow 鏈接[2],而是先取鏈接,將它們收集到數(shù)據(jù)庫(kù)中,然后再去逐個(gè)檢查它們,如果有了解爬蟲(chóng)是什么的話,可以再去了解一下爬蟲(chóng)的工作機(jī)制,以及各種爬取比如深度、廣度、權(quán)重爬取策略等。

為什么要關(guān)注抓取速率?抓取速率直接影響 Google 發(fā)現(xiàn)、索引和排名網(wǎng)站內(nèi)容的速度。

googlebot爬取頁(yè)面的流程

怎么看爬取速率?

登錄?Google Search Console[3]?即可:

  1. 1.?在左側(cè)導(dǎo)航菜單中,找到并點(diǎn)擊“設(shè)置”(Settings)。

  2. 2.?在“設(shè)置”頁(yè)面上,找到“抓取統(tǒng)計(jì)信息”(Crawl Stats)[4]并點(diǎn)擊進(jìn)入。

GSC打開(kāi)抓取統(tǒng)計(jì)信息

怎么優(yōu)化谷歌爬蟲(chóng)抓?。?/h2>
  • ??Robots.txt:這個(gè)看?robots 教程[5]就好,它具體會(huì)指明理應(yīng)爬取什么。

  • ??利用 Sitemaps:?站點(diǎn)地圖[6]可以幫助 Googlebot 了解站點(diǎn)的結(jié)構(gòu)和重要頁(yè)面的優(yōu)先級(jí),但一定要注意,站點(diǎn)地圖不能有重復(fù)、異常的頁(yè)面。除此之外,Priority 也是很重要的,例如,將暢銷(xiāo)產(chǎn)品或新上架產(chǎn)品的優(yōu)先級(jí)設(shè)置為高,將庫(kù)存較少或即將下架的產(chǎn)品優(yōu)先級(jí)設(shè)置為低。Shopify 對(duì) sitemap 做了基礎(chǔ)的分類(lèi),這也是一種方式:

  • ??URL 參數(shù)URL參數(shù)是附加在網(wǎng)頁(yè)地址(URL)后面的查詢字符串,用于傳遞信息或指令給服務(wù)器。通常,URL參數(shù)以問(wèn)號(hào)???開(kāi)始,參數(shù)之間用?&?分隔,比如/page?category=shoes&color=red。如果你用了大量的查詢參數(shù),又沒(méi)有指定規(guī)范化標(biāo)簽[7],就會(huì)讓谷歌不斷爬取不同參數(shù)的 URL,從而造成資源浪費(fèi)。同樣的,如果你有大量的重復(fù)內(nèi)容,也需要使用 canonical URL。

  • ??避免無(wú)限爬?。?/strong>?無(wú)限滾動(dòng)的分頁(yè)可能會(huì)導(dǎo)致Googlebot浪費(fèi)資源在抓取不必要的頁(yè)面上。這一點(diǎn)你可以看下谷歌的分頁(yè)加載規(guī)范[8]。當(dāng)然,以上 2 點(diǎn)有很多人也來(lái)用作有意或者無(wú)意的蜘蛛陷阱[9](Spider trap)——一種會(huì)在網(wǎng)站上陷入無(wú)限循環(huán)或重復(fù)抓取的情況。

  • ??監(jiān)控抓取錯(cuò)誤:?在抓取統(tǒng)計(jì)信息中,會(huì)顯示當(dāng)前的響應(yīng)情況、信息,可以逐個(gè)點(diǎn)擊進(jìn)入查看。

  • Googlebot爬取頁(yè)面的狀態(tài)
  • ??服務(wù)器端因素:如果遇到了 DNS問(wèn)題或服務(wù)器阻塞等問(wèn)題,也會(huì)可能產(chǎn)生抓取問(wèn)題,這是一個(gè)坑點(diǎn),有時(shí)會(huì)導(dǎo)致網(wǎng)站所有者誤以為問(wèn)題出在Googlebot上,所以可以先判斷服務(wù)器有沒(méi)有問(wèn)題、分析日志的錯(cuò)誤,是否因?yàn)樽ト∷俾驶蛘叻?wù)器返回了錯(cuò)誤。

  • ??If-Amendment-since 頭: 這個(gè) header 可以讓 Googlebot 檢查頁(yè)面是否發(fā)生了更改,通過(guò)比較服務(wù)器返回的 Last-Modified 時(shí)間與 GoogleBot 本地緩存的頁(yè)面時(shí)間,而無(wú)需再次下載整個(gè)內(nèi)容,從而節(jié)省帶寬和資源。

5 個(gè)谷歌爬蟲(chóng)抓取的認(rèn)知誤區(qū)

誤區(qū)1. 網(wǎng)站越大,Googlebot 就會(huì)抓取越多的頁(yè)面。

Googlebot 的抓取是基于算法和優(yōu)先級(jí)的,它會(huì)優(yōu)先抓取重要、高質(zhì)量、更新頻繁的頁(yè)面,而不是簡(jiǎn)單地根據(jù)網(wǎng)站大小來(lái)決定抓取量。

誤區(qū)2. 抓取越多,網(wǎng)站權(quán)重越高

普遍認(rèn)為,谷歌機(jī)器人(Googlebot)越來(lái)越多的爬蟲(chóng)行為意味著網(wǎng)站質(zhì)量越來(lái)越高。但這種假設(shè)具有誤導(dǎo)性,僅僅因?yàn)?Googlebot 經(jīng)常抓取網(wǎng)站并不一定意味著內(nèi)容是好的。這也可能是由于其他因素,例如:

  • ??被入侵的網(wǎng)站: 如果一個(gè)網(wǎng)站被入侵,Googlebot 可能會(huì)抓取它更頻繁索引新的網(wǎng)址創(chuàng)建的掛馬中毒頁(yè)面、外部惡意鏈接或者無(wú)效頁(yè)面。

  • ??靜態(tài)內(nèi)容: 如果一個(gè)網(wǎng)站一段時(shí)間沒(méi)有改變,Googlebot 可能會(huì)降低其爬行頻率,但并不代表內(nèi)容不行。

誤區(qū)3. Googlebot 只抓取文本內(nèi)容?

Googlebot 有不同等級(jí)的爬蟲(chóng),谷歌爬蟲(chóng)還可以抓取和理解圖片、視頻、JavaScript 等多種類(lèi)型的內(nèi)容。但這不代表你就可以隨心所欲用客戶端渲染之類(lèi)的“現(xiàn)代化”前端操作,必要的 SEO 頁(yè)面規(guī)范還是要遵循的,靜態(tài)化永遠(yuǎn)第一。

誤區(qū)4. 增加網(wǎng)站內(nèi)容就會(huì)自動(dòng)提高 Googlebot 的抓取頻率

雖然新內(nèi)容可能會(huì)吸引 Googlebot 更頻繁地訪問(wèn)網(wǎng)站,但抓取頻率還受到其他因素的影響,如網(wǎng)站質(zhì)量、更新頻率、服務(wù)器性能等。另外,如果你的內(nèi)容質(zhì)量不佳(純 AI、無(wú)個(gè)人見(jiàn)解),也會(huì)導(dǎo)致谷歌判定網(wǎng)站權(quán)重下降,從而導(dǎo)致抓取速率和頻率下降。

誤區(qū)5. 可以通過(guò)人工方式強(qiáng)制 Googlebot 更頻繁地抓取網(wǎng)站

有這種方法,但比較灰黑帽 SEO[10],一般不會(huì)用,因?yàn)閷?duì)于網(wǎng)站有傷害。實(shí)際上,Googlebot 的抓取頻率由算法決定,人工干預(yù)通常無(wú)效,甚至可能適得其反。還有種說(shuō)法是,降低抓取頻率可以提高排名,這也是錯(cuò)誤的,新內(nèi)容無(wú)法被及時(shí)索引是非常大的 SEO 問(wèn)題。

Google Bot谷歌爬蟲(chóng)的一些FAQs

  • ??要禁止 Googlebot 抓取一些網(wǎng)頁(yè)??使用?robots.txt 文件[11],指引各種搜索引擎的爬蟲(chóng)遵循規(guī)范(雖然不一定會(huì)遵循)。

  • ??不希望 Google 將某個(gè)或者某些網(wǎng)頁(yè)編入索引?使用?noindex,禁止編入索引,并配合?GSC 的刪除頁(yè)面功能[12]。

  • ??需要完全阻止抓取工具或用戶訪問(wèn)某個(gè)網(wǎng)頁(yè)?請(qǐng)使用其他方法,例如密碼保護(hù)[13],但從 SEO 角度,請(qǐng)不要使用地區(qū)保護(hù)方式(比如只限制某個(gè)國(guó)家地區(qū)訪問(wèn)或 IP 屏蔽),以防 Googlebot 混淆。

  • ??爬蟲(chóng)爬太快了,壓力太大?Google 會(huì)自行確定最佳的網(wǎng)站抓取速度,如果你想要讓抓取速度在短時(shí)間內(nèi)減慢[14],則應(yīng)向抓取請(qǐng)求返回 500、503 或?429[15]?HTTP 響應(yīng)狀態(tài)代碼(而非 200),如果實(shí)在不行,可以提交過(guò)度抓取報(bào)告[16]來(lái)降低爬取速率。

  • ??Googlebot 會(huì)判斷性能分?jǐn)?shù)嗎?不會(huì),谷歌使用真實(shí)的 Chrome 使用數(shù)據(jù)來(lái)引入有關(guān)特定頁(yè)面的核心網(wǎng)絡(luò)生命周期的數(shù)據(jù)。其中包括?LCP、FID 和 CLS 分?jǐn)?shù)[17]。Googlebot 抓取并不是 Google 獲取此數(shù)據(jù)的來(lái)源,而是瀏覽器的實(shí)際訪問(wèn)行為。

谷歌爬蟲(chóng)算是非?;A(chǔ)且老生常談的話題,Google 官方文檔和各類(lèi)資料都很齊全,遇到問(wèn)題就具體情況具體分析。

參考鏈接

[1]?Google Bot:?https://developers.google.com/search/docs/crawling-indexing/googlebot?hl=zh-cn
[2]?谷歌不會(huì)直接 follow 鏈接:?https://www.seroundtable.com/google-follow-links-37892.html
[3]?Google Search Console:?https://search.google.com/search-console
[4]?“抓取統(tǒng)計(jì)信息”(Crawl Stats):?https://search.google.com/search-console/settings/crawl-stats
[5]?robots 教程:?https://developers.google.com/search/docs/crawling-indexing/robots/robots_txt?hl=zh_cn
[6]?站點(diǎn)地圖:?https://developers.google.com/search/docs/crawling-indexing/url-structure?hl=zh_cn
[7]?規(guī)范化標(biāo)簽:?https://www.semrush.com/blog/canonical-url-guide/
[8]?分頁(yè)加載規(guī)范:?https://developers.google.com/search/docs/specialty/ecommerce/pagination-and-incremental-page-loading?hl=zh-cn
[9]?蜘蛛陷阱:?https://yoast.com/spider-trap/
[10]?灰黑帽 SEO:?https://seo.yiguotech.com/archives/what-is-white-hat-seo
[11]?robots.txt 文件:?https://developers.google.com/search/docs/crawling-indexing/robots/intro?hl=zh-cn
[12]?GSC 的刪除頁(yè)面功能:?https://search.google.com/search-console/removals
[13]?其他方法,例如密碼保護(hù):?https://developers.google.com/search/docs/crawling-indexing/control-what-you-share?hl=zh-cn
[14]?讓抓取速度在短時(shí)間內(nèi)減慢:?https://developers.google.com/search/docs/crawling-indexing/reduce-crawl-rate?hl=zh-cn
[15]?429:?https://www.webfx.com/web-development/glossary/http-status-codes/what-is-a-429-status-code/
[16]?提交過(guò)度抓取報(bào)告:?https://search.google.com/search-console/googlebot-report?hl=zh-cn
[17]?LCP、FID 和 CLS 分?jǐn)?shù):?https://seo.yiguotech.com/archives/seo-web-core-vital-inp
[18]?谷歌搜索中心近期的播客: Crawl smarter, not harder:?https://youtu.be/UTAo-mfM75o
[19]?Gary Illyes在Linkedin上的關(guān)于GoogleBot的討論:?https://www.linkedin.com/posts/garyillyes_crawling-smarter-not-harder-activity-7228608152844337152-4H2b/


點(diǎn)贊(3) 打賞

評(píng)論列表 共有 0 條評(píng)論

暫無(wú)評(píng)論

服務(wù)號(hào)

訂閱號(hào)

備注【拉群】

商務(wù)洽談

微信聯(lián)系站長(zhǎng)

發(fā)表
評(píng)論
立即
投稿
返回
頂部