如何管理大型網(wǎng)站的抓取配額？

551 閱讀 0 評論 1 點贊

首圖 00_00_00-00_00_30.gif

優(yōu)化您的網(wǎng)站，讓谷歌更快地發(fā)現(xiàn)和索引您的內(nèi)容，有助于提高網(wǎng)站的可見度和流量。互聯(lián)網(wǎng)是一個不斷演進的虛擬宇宙，擁有著11億多個網(wǎng)站。你認(rèn)為谷歌可以抓取世界上的每個網(wǎng)站嗎？雖然谷歌擁有大量資源、資金和數(shù)據(jù)，但它不能也不想抓取整個網(wǎng)絡(luò)。

什么是抓取配額？抓取配額重要嗎？

抓取配額指的是谷歌爬蟲在一個域名中抓取頁面所花費的時間和資源量。

優(yōu)化您的網(wǎng)站非常重要，因為這樣谷歌能更快地找到您的內(nèi)容并對其進行索引，以此提高網(wǎng)站的可見度和流量。

如果您擁有包含數(shù)百萬個頁面的大型網(wǎng)站，那么管理抓取配額尤為重要，這將幫助谷歌更易抓到您網(wǎng)站的重要頁面，并更好地理解頁面的內(nèi)容。

谷歌指出：

“如果您的網(wǎng)站沒有大量快速變化的頁面，或者您的頁面在發(fā)布當(dāng)天就被抓取，那么不斷更新站點地圖并定期檢查索引覆蓋范圍就足夠了。谷歌還規(guī)定必須對每個頁面進行審查、整合和評估，以確定其抓取后的索引位置。

抓取配額主要由兩個因素決定：抓取速度限制和抓取需求

抓取需求是指谷歌希望在您的網(wǎng)站上進行抓取的程度。較受歡迎的頁面，例如CNN的熱門報道和有顯著變化的頁面，會被抓取得更多。

谷歌爬蟲希望在不給您的服務(wù)器帶來過大負(fù)擔(dān)的情況下抓取網(wǎng)站。為防止這種情況發(fā)生，谷歌機器人會計算抓取速度限制，即谷歌爬蟲可用于抓取網(wǎng)站的最大并連數(shù)，以及抓取之間的時間延遲。

結(jié)合抓取速度和抓取需求，谷歌將抓取配額定義為谷歌爬蟲可以且希望抓取的URL集合。即使未達到抓取速度限制，在抓取需求較低時，谷歌機器人也會減少對網(wǎng)站的抓取。

以下是管理大中型網(wǎng)站（擁有10,000個URL到數(shù)百萬個URL）抓取配額的12個建議：

確定哪些頁面重要，哪些頁面不需要被抓取

確定哪些頁面重要，哪些頁面不值得抓?。ü雀钑^少訪問不重要的頁面）。

通過分析確定這一點后，就可以知道網(wǎng)站上哪些頁面值得抓取，哪些頁面不值得抓取，并將其排除在抓取范圍之外。

例如，Macys.com有200多萬個已編入索引的頁面。

2023年6月，谷歌搜索 [site:macys.com] 的截圖

該網(wǎng)站通過在robots.txt文件中通知谷歌不要抓取站點上的某些頁面來管理其抓取配額。谷歌爬蟲可能會認(rèn)為不值得花時間查看網(wǎng)站的其他部分或增加抓取配額。因此要確保通過robots.txt文件阻止分面導(dǎo)航和會話標(biāo)識符的訪問。

管理重復(fù)內(nèi)容

雖然谷歌不會對重復(fù)內(nèi)容進行處罰，但您還是希望向谷歌提供原創(chuàng)和獨特的信息，以滿足終端用戶的搜索需求，并使其具有相關(guān)性和實用性。確保有使用robots.txt文件。

谷歌建議不要使用noindex標(biāo)簽，因為谷歌仍會請求但隨后會放棄。

使用robots.txt文件阻止抓取不重要的URL，并告訴谷歌可以抓取哪些頁面

對于擁有數(shù)百萬個頁面的企業(yè)級網(wǎng)站，谷歌建議使用robots.txt文件來阻止抓取不重要的URL。

此外，您還要確保谷歌機器人和其他搜索引擎可以抓取您的重要頁面、包含重要內(nèi)容的目錄以及關(guān)鍵頁面。

長重定向鏈

如果可能的話，請保持較少數(shù)量的重定向。過多的重定向或循環(huán)重定向可能會使谷歌產(chǎn)生困惑，并降低抓取限制。

谷歌指出，長重定向鏈可能會對抓取產(chǎn)生負(fù)面影響。

使用HTML

使用HTML可以增加任何搜索引擎爬蟲訪問您網(wǎng)站的幾率。

雖然谷歌機器人在抓取和索引JavaScript方面已經(jīng)有所改進，但其他搜索引擎爬蟲并不像谷歌那樣復(fù)雜，因此可能會在HTML以外的其他語言方面出現(xiàn)問題。

確保頁面加載迅速，提供良好的用戶體驗

確保您的網(wǎng)站對網(wǎng)站核心指標(biāo)（Core Web Vitals）進行了優(yōu)化。

您的內(nèi)容加載速度越快（即三秒以內(nèi)），谷歌就能越快地向終端用戶提供信息。如果用戶喜歡您的網(wǎng)站，谷歌將繼續(xù)索引您的內(nèi)容，因為您的網(wǎng)站顯示出良好的谷歌抓取健康狀況，也可能會因此增加您的抓取配額。

確保內(nèi)容有用

谷歌認(rèn)為，內(nèi)容是根據(jù)質(zhì)量而非頁面新舊評估的。必要時需要創(chuàng)建和更新內(nèi)容，但通過微小的改動和更新頁面日期來人為地讓頁面看起來更新并沒有額外的價值。

如果您的內(nèi)容滿足終端用戶的需求，那么新舊并不重要，只要它有幫助且相關(guān)即可。

如果用戶認(rèn)為您的內(nèi)容沒有幫助且無關(guān)，那么建議您更新和刷新內(nèi)容，使其更新、相關(guān)且有用，并通過社交媒體進行推廣。

此外，在主頁增加鏈接到您的頁面，這樣可能增加重要性，被抓取的次數(shù)也會更多。

注意抓取錯誤

如果您刪除了網(wǎng)站上的某些頁面，請確保URL返回404或410狀態(tài)，表示永久刪除。404狀態(tài)碼表明將不再抓取該URL。

不過，被阻止的URL會在抓取隊列中保留更長時間，并且將在阻止解除后被重新抓取。

此外，谷歌還規(guī)定要移除所有軟404頁面，這些頁面將繼續(xù)被抓取，浪費您的抓取配額。如要測試這一點，可以進入谷歌GSC并查看索引覆蓋率報告，查找軟404錯誤。

如果您的網(wǎng)站存在許多5xx HTTP響應(yīng)狀態(tài)碼（服務(wù)器錯誤）或連接超時信號，抓取速度就會變慢。谷歌建議您密切關(guān)注搜索控制臺中的抓取統(tǒng)計報告，并盡量減少服務(wù)器錯誤的數(shù)量。

另外，谷歌不會遵守非標(biāo)準(zhǔn)的“抓取延遲”robots.txt規(guī)則。

即使您使用了nofollow標(biāo)簽，但如果您網(wǎng)站上的其他頁面或者任何其他頁面未將該鏈接標(biāo)記為nofollow，那么該頁面仍可能被抓取，從而浪費抓取配額。

及時更新站點地圖

XML站點地圖對于幫助谷歌發(fā)現(xiàn)您的內(nèi)容并加快抓取速度非常重要。

以下幾點至關(guān)重要：保持站點地圖URL的更新，使用<lastmod>標(biāo)簽標(biāo)記已更新的內(nèi)容，以及遵循SEO最佳實踐，包括但不限于以下幾點：

僅包含您希望被搜索引擎索引的URL。

僅包含返回200狀態(tài)碼的URL。

確保單個站點地圖文件不超過50MB或少于50,000個URL。如果決定使用多個站點地圖，請創(chuàng)建一個索引站點地圖，列出所有站點地圖。

確保您的站點地圖采用UTF-8編碼。

包含指向每個URL的本地化版本鏈接。

及時更新站點地圖，即每當(dāng)有新的URL，或者舊的URL已更新或刪除時，都要更新您的站點地圖。

建立良好的網(wǎng)絡(luò)架構(gòu)

擁有良好的網(wǎng)站架構(gòu)對于SEO排名和索引以及用戶體驗至關(guān)重要。

網(wǎng)站架構(gòu)可以在多方面影響搜索引擎結(jié)果頁面（SERP）的結(jié)果，包括抓取能力、點擊率和用戶體驗。

擁有清晰的網(wǎng)站架構(gòu)可以有效利用抓取配額，從而幫助谷歌機器人找到任何新的或已更新的內(nèi)容。

請始終牢記三次點擊規(guī)則，即任何用戶最多點擊三次即可從網(wǎng)站上的任何頁面跳轉(zhuǎn)到另一個頁面。

111

內(nèi)部鏈接

網(wǎng)站越容易被搜素引擎抓取和瀏覽，抓取工具就越容易識別您的網(wǎng)站結(jié)構(gòu)、上下文和重要內(nèi)容。

建立指向某個頁面的內(nèi)部鏈接可以讓谷歌知道該頁面的重要性，有助于建立特定網(wǎng)站的信息層次結(jié)構(gòu)，并有助于在整個網(wǎng)站中傳播鏈接權(quán)益。

時刻監(jiān)控抓取統(tǒng)計數(shù)據(jù)

始終查看和監(jiān)控GSC，以了解網(wǎng)站在抓取過程中是否存在任何問題，并尋找提高抓取效率的方法。

您可以使用抓取統(tǒng)計報告來查看谷歌機器人在抓取您的網(wǎng)站時是否遇到任何問題。

如果GSC報告了您網(wǎng)站的可用性錯誤或警告，請在主機可用性圖表中查找谷歌爬蟲請求超過紅色限制線的情況，點擊進入圖表查看哪些URL存在問題，并嘗試將其與您網(wǎng)站上的問題聯(lián)系起來。

此外，您還可以使用URL Inspector工具來隨機測試網(wǎng)站上的幾個URL。

如果URL檢測工具返回主機負(fù)載警告，這就意味著谷歌爬蟲無法從您的網(wǎng)站中抓取到它所發(fā)現(xiàn)的多個URL。

總結(jié)

由于大型網(wǎng)站規(guī)模龐大、結(jié)構(gòu)復(fù)雜，因此抓取配額優(yōu)化對于大型網(wǎng)站來說至關(guān)重要。

由于頁面和動態(tài)內(nèi)容眾多，搜索引擎爬蟲在高效抓取和索引網(wǎng)站內(nèi)容方面面臨挑戰(zhàn)。

通過優(yōu)化抓取配額，網(wǎng)站所有者可以優(yōu)先抓取重要和更新的頁面并編制索引，確保搜索引擎合理有效地利用資源。

這一優(yōu)化過程包括改進網(wǎng)站架構(gòu)、管理URL參數(shù)、設(shè)置抓取優(yōu)先級和消除重復(fù)內(nèi)容等技術(shù)，從而提高搜索引擎的可見度，改善用戶體驗，增加大型網(wǎng)站的有機流量。

原文鏈接：（點擊文末閱讀原文可跳轉(zhuǎn)）

https://www.searchenginejournal.com/crawl-budget-for-large-sites/

END

文章為作者獨立觀點，不代表DLZ123立場。如有侵權(quán),請聯(lián)系我們。( 版權(quán)為作者所有，如需轉(zhuǎn)載，請聯(lián)系作者 )

網(wǎng)站運營至今，離不開小伙伴們的支持。為了給小伙伴們提供一個互相交流的平臺和資源的對接，特地開通了獨立站交流群。群里有不少運營大神，不時會分享一些運營技巧，更有一些資源收藏愛好者不時分享一些優(yōu)質(zhì)的學(xué)習(xí)資料。

現(xiàn)在可以掃碼進群，備注【加群】。 ( 群完全免費，不廣告不賣課！)

點贊(1) 打賞