[SEO]Robots.txt文件怎樣寫+實(shí)例分析Robots.txt設(shè)置（附各大搜索引擎蜘蛛特征）

1446 閱讀 0 評(píng)論 0 點(diǎn)贊

robots.txt是任何搜索引擎優(yōu)化的重要組成部分，也是SEOer的重要一課。

但是，有時(shí)候robots.txt文件會(huì)被網(wǎng)站優(yōu)化師SEOer忽視。

無論你是否剛剛起步，或者你是一個(gè)優(yōu)化老手，都需要知道robots.txt文件應(yīng)該怎樣寫。

那么，我們先來了解：

什么是robots.txt文件？

robots.txt文件可以用于各種各樣的事情。

例如從讓搜索引擎知道去哪里找到你的網(wǎng)站站點(diǎn)地圖、告訴他們哪些頁面不需要抓取，以管理網(wǎng)站爬行預(yù)算。

搜索引擎會(huì)定期檢查網(wǎng)站的robots.txt文件，看看是否有任何抓取網(wǎng)站的說明。我們稱這些特別的說明為“指令”。

如果沒有robots.txt文件或者沒有適用的指令，搜索引擎將抓取整個(gè)網(wǎng)站。

Okay，那什么是爬行預(yù)算(Crawl Budget)？

簡(jiǎn)單解釋下：

谷歌和其他搜索引擎一樣，他們只有有限的資源可用于抓取和索引你網(wǎng)站的內(nèi)容。

如果你的網(wǎng)站只有幾百個(gè)網(wǎng)址，那么Google應(yīng)該可以輕松抓取到所有網(wǎng)頁并將其編入索引。

但是，如果網(wǎng)站很大，例如電子商務(wù)網(wǎng)站，有數(shù)千個(gè)包含大量自動(dòng)生成的網(wǎng)頁（如搜索頁），那么Google可能無法抓取所有這些網(wǎng)頁，你將失去許多潛在的流量和可見性。

所以我們要通過設(shè)置robots.txt文件用于管理網(wǎng)站爬行預(yù)算。

谷歌表示：

“?擁有許多低價(jià)值的網(wǎng)址會(huì)對(duì)網(wǎng)站的抓取和索引產(chǎn)生負(fù)面影響?！?/section>

那些低價(jià)值的網(wǎng)址就比如像搜索頁一類的頁面。生成太多這些頁面，谷歌蜘蛛如果去爬行的話，將消耗大量爬行預(yù)算，以至于一些重要的頁面可能就不能被收錄了。

使用robots.txt文件來幫助管理網(wǎng)站抓取預(yù)算，確保搜索引擎盡可能高效地（尤其是大型網(wǎng)站）抓取重要網(wǎng)頁而不是浪費(fèi)時(shí)間去抓取登錄，注冊(cè)或支付頁面等頁面。

你為什么需要robots.txt？

從搜索引擎優(yōu)化SEO的角度來看，robots.txt文件起著至關(guān)重要的作用。它告訴搜索引擎他們?nèi)绾巫詈玫刈ト∧愕木W(wǎng)站。

使用robots.txt文件可以阻止搜索引擎訪問網(wǎng)站的某些部分，防止重復(fù)內(nèi)容，并為搜索引擎提供有關(guān)如何更有效地抓取你網(wǎng)站的有用提示。

在對(duì)robots.txt進(jìn)行更改時(shí)要小心：因?yàn)樵O(shè)置失誤可能會(huì)使搜索引擎無法訪問網(wǎng)站的大部分內(nèi)容。

在Googlebot，Bingbot等機(jī)器人抓取網(wǎng)頁之前，它會(huì)首先檢查是否存在robots.txt文件，如果存在，則通常會(huì)遵循該文件中找到的路線。

你可以通過robots.txt文件控制以下事情：

阻止訪問網(wǎng)站的某個(gè)部分（開發(fā)和登臺(tái)環(huán)境等）
保持網(wǎng)站內(nèi)部搜索結(jié)果頁面不被抓取，編入索引或顯示在搜索結(jié)果中
指定站點(diǎn)地圖或站點(diǎn)地圖的位置
通過阻止訪問低價(jià)值頁面來優(yōu)化抓取預(yù)算（登錄，支付頁面，購物車等）
防止將網(wǎng)站上的某些文件（圖像，PDF等）編入索引

讓我們看一個(gè)例子來說明這一點(diǎn)：

你有一個(gè)電子商務(wù)網(wǎng)站，訪問者可以使用篩選功能快速搜索你的產(chǎn)品，如通過銷量、價(jià)格排列。

此篩選生成的頁面基本上顯示與其他頁面相同的內(nèi)容。

這對(duì)用戶很有用，但會(huì)混淆搜索引擎，因?yàn)樗鼤?huì)創(chuàng)建重復(fù)的內(nèi)容。

如果搜索引擎把這些網(wǎng)頁編入索引，將浪費(fèi)你寶貴的抓取資源。

因此，應(yīng)該設(shè)置規(guī)則，以便搜索引擎不訪問這些頁面。

檢查您是否有robots.txt文件

如果你不熟悉robots.txt文件，或者不確定你的網(wǎng)站是否有該文件，可以快速查看。

方法：

將 /robots.txt 添加到首頁URL的末尾。

示例：www.yoursite.com/robots.txt

如果沒有顯示任何內(nèi)容，那么說明你的站點(diǎn)沒有robots.txt文件。那就應(yīng)該設(shè)置一個(gè)了。

如何創(chuàng)建robots.txt文件

創(chuàng)建robots.txt文件是一個(gè)相當(dāng)簡(jiǎn)單的過程：

新建文本文檔 ——>重命名為robots.txt（所有文件必須小寫）——> 編寫規(guī)則 ——>用FTP把文件上（放到根目錄下）傳到空間

下面的文章是谷歌官方介紹，將向你robots.txt文件的創(chuàng)建過程，可以幫助你輕松建立你自己的robots.txt文件：

https://support.google.com/webmasters/answer/6062596?hl=zh-Hans

注意：

robots.txt自身是一個(gè)文本文件。它必須位于域名的根目錄中并被命名為"robots.txt"。位于子目錄中的 robots.txt 文件無效，因?yàn)榕老x只在域名的根目錄中查找此文件。

例如，http://www.example.com/robots.txt 是有效位置，http://www.example.com/mysite/robots.txt 則不是。

如果你用WordPress建站，可以用virtual robots、yoast、all in one seo等插件創(chuàng)建和設(shè)置。

Robots.txt示例

以下是可以在自己的網(wǎng)站上使用robots.txt文件的幾個(gè)示例。

允許所有爬蟲 /蜘蛛訪問所有網(wǎng)站內(nèi)容：

User-agent：*
Disallow：

禁止所有爬蟲 /蜘蛛訪問所有網(wǎng)站內(nèi)容：

User-agent：*
Disallow：/

這里可以了解到在創(chuàng)建站點(diǎn)robots.txt時(shí)出錯(cuò)是多么容易，因?yàn)樽柚拐麄€(gè)站點(diǎn)被看到的區(qū)別在于：disallow指令（Disallow：/）中的簡(jiǎn)單斜杠。

阻止谷歌爬蟲 /蜘蛛訪問：

User-agent：Googlebot
Disallow：/

阻止爬蟲 /蜘蛛訪問特定頁面：

User-agent：
Disallow：/thankyou.html

從服務(wù)器的一部分中排除所有爬蟲：

User-agent：*
Disallow：/ cgi-bin /
Disallow：/ tmp /
Disallow：/junk/

這是theverge.com網(wǎng)站上robots.txt文件的示例：

一、說明theverge不想谷歌爬蟲去抓取這些目錄下的內(nèi)容

二、說明theverge不想任何爬蟲去抓取這些目錄下的內(nèi)容

三、theverge把所有的站點(diǎn)地圖列在robots.txt里面

可以在此處查看示例文件：www.theverge.com/robots.txt

可以看到The Verge如何使用他們的robots.txt文件，專門支出Google的新聞蜘蛛“Googlebot-News”（第一點(diǎn)），以確保它不會(huì)抓取網(wǎng)站上的這些目錄。

重要的是要記住，如果想確保爬蟲不會(huì)抓取你網(wǎng)站上的某些頁面或目錄，那么可以在robots.txt文件的“Disallow”聲明中調(diào)出這些頁面和/或目錄，如上面例示的做法。

另外，還可以在robots.txt規(guī)范指南中查看Google如何處理robots.txt文件，Google對(duì)robots.txt文件的當(dāng)前最大文件大小限制。

Google的最大大小設(shè)置為500KB，因此請(qǐng)務(wù)必注意您的網(wǎng)站robots.txt文件的大小。

robots.txt文件的最佳做法

以下內(nèi)容提取于谷歌官方介紹，原文：

https://support.google.com/webmasters/answer/6062596?hl=zh-Hans

位置規(guī)則和文件名

robots.txt文件應(yīng)始終放在root網(wǎng)站的位置（在主機(jī)的頂級(jí)目錄中）并帶有文件名robots.txt，例如：https://www.example.com/robots.txt。

請(qǐng)注意，robots.txt文件的URL與其他任何URL一樣，區(qū)分大小寫。

如果在默認(rèn)位置找不到robots.txt文件，搜索引擎會(huì)認(rèn)為沒有指令。

文件必須命名為 robots.txt。
網(wǎng)站只能有 1 個(gè) robots.txt 文件。
robots.txt 文件必須位于它所應(yīng)用到的網(wǎng)站主機(jī)的根目錄下。例如，要控制對(duì)?http://www.example.com/?下所有網(wǎng)址的抓取，就必須將 robots.txt 文件放在根目錄下（即?http://www.example.com/robots.txt），而不能放在子目錄下（例如?http://example.com/pages/robots.txt）。
robots.txt 文件可應(yīng)用到子網(wǎng)域（例如?http://website.example.com/robots.txt）或非標(biāo)準(zhǔn)端口（例如?http://example.com:8181/robots.txt）。

語法

robots.txt 必須是 ASCII 或 UTF-8 文本文件。不允許包含其他字符。
robots.txt 文件由一條或多條規(guī)則組成。
每條規(guī)則由多條指令（說明）組成，每條指令各占一行。
每條規(guī)則包含以下信息：

此規(guī)則的適用對(duì)象（即User-agent）
代理可以訪問的目錄或文件，和/或
代理無法訪問的目錄或文件。

系統(tǒng)會(huì)按照從上到下的順序處理這些規(guī)則，而且一個(gè)用戶代理只能匹配 1 個(gè)規(guī)則集（即與相應(yīng)用戶代理匹配的首條最具體的規(guī)則）。
系統(tǒng)的默認(rèn)假設(shè)是：用戶代理可以抓取所有未被?Disallow:?規(guī)則禁止訪問的網(wǎng)頁或目錄。
規(guī)則區(qū)分大小寫。例如，Disallow: /file.asp?適用于?http://www.example.com/file.asp，但不適用于?http://www.example.com/FILE.asp。

規(guī)則	示例
禁止抓取整個(gè)網(wǎng)站。?請(qǐng)注意，在某些情況下，Google 即使未抓取網(wǎng)站的網(wǎng)址，仍可能會(huì)將其編入索引。注意：這不適用于各種 AdsBot 抓取工具，此類抓取工具必須明確指定。	User-agent: * Disallow: /
禁止抓取某一目錄及其內(nèi)容（在目錄名后面添加一道正斜線）。請(qǐng)注意，若想禁止訪問私密內(nèi)容，則不應(yīng)使用 robots.txt，而應(yīng)改用適當(dāng)?shù)纳矸蒡?yàn)證機(jī)制。對(duì)于 robots.txt 文件所禁止抓取的網(wǎng)址，Google 仍可能會(huì)在不進(jìn)行抓取的情況下將其編入索引；另外，由于 robots.txt 文件可供任何人隨意查看，因此可能會(huì)泄露您的私密內(nèi)容的位置。	User-agent: * Disallow: /calendar/ Disallow: /junk/
僅允許使用某一抓取工具	User-agent: Googlebot-news Allow: / User-agent: * Disallow: /
允許使用除某一抓取工具以外的其他所有抓取工具	User-agent: Unnecessarybot Disallow: / User-agent: * Allow: /
禁止抓取某一網(wǎng)頁（在正斜線后面列出網(wǎng)頁）：	Disallow: /private_file.html
禁止 Google 圖片訪問某一特定圖片：	User-agent: Googlebot-Image Disallow: /images/dogs.jpg
禁止 Google 圖片訪問您網(wǎng)站上的所有圖片：	User-agent: Googlebot-Image Disallow: /
禁止抓取某一特定類型的文件（例如 .gif）：	User-agent: Googlebot Disallow: /*.gif$
禁止抓取整個(gè)網(wǎng)站，但允許在這些網(wǎng)頁上顯示 AdSense 廣告（禁止使用除 Mediapartners-Google 以外的所有網(wǎng)頁抓取工具）。這種方法會(huì)阻止您的網(wǎng)頁顯示在搜索結(jié)果中，但?Mediapartners-Google?網(wǎng)頁抓取工具仍能分析這些網(wǎng)頁，以確定要向您網(wǎng)站上的訪問者顯示哪些廣告。	User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: /
匹配以某一特定字符串結(jié)尾的網(wǎng)址?- 需使用美元符號(hào) ($)。例如，示例代碼會(huì)禁止訪問以 .xls 結(jié)尾的所有網(wǎng)址：	User-agent: Googlebot Disallow: /*.xls$

優(yōu)先順序

重要的是要注意搜索引擎處理robots.txt文件的方式不同。默認(rèn)情況下，第一個(gè)匹配指令總是有優(yōu)先權(quán)。

但是Google谷歌和Bing必應(yīng)，更偏重于具體的目錄。

就是說：如果指令的字符長度較長，則谷歌和必應(yīng)會(huì)跟看重Allow指令。

例子

User-agent：*

Allow：/ about / company /

Disallow：/ about /

在上面的示例中/about/，除了子目錄之外，所有搜索引擎（包括Google和Bing）都不允許訪問該目錄/about/company/。

例子

User-agent：*

Disallow：/ about /

Allow：/ about / company /

在上面的示例中，除Google和Bing之外的所有搜索引擎都不允許訪問/about/目錄，包括/about/company/。

但允許?Google和Bing?訪問/about/company/，因?yàn)樵?code>Allow指令比Disallow指令長，目錄位置更具體。

指令

你只能為每個(gè)搜索引擎定義一組指令。為一個(gè)搜索引擎設(shè)置多組指令會(huì)使它們混淆。

User-agent：[必需，每條規(guī)則需含一個(gè)或多個(gè) User-agent 條目] ，填寫搜索引擎蜘蛛（抓取工具）的名稱。這是每條規(guī)則的首行內(nèi)容。Web Robots Database 和 Google User Agent(抓取工具)列表中列出了大多數(shù)用戶代理名稱。支持使用星號(hào) (*) 通配符表示路徑前綴、后綴或整個(gè)字符串。像下例中那樣使用星號(hào) (*) 可匹配除各種 AdsBot 抓取工具之外（此類抓取工具必須明確指定）的所有抓取工具。示例：
```
# 示例 1：僅屏蔽 Googlebot
User-agent: Googlebot
Disallow: /

# 示例 2：屏蔽 Googlebot 和 Adsbot
User-agent: Googlebot
User-agent: AdsBot-Google
Disallow: /

# 示例 3：屏蔽除 AdsBot 抓取工具之外的所有抓取工具
User-agent: *
Disallow: /
```
Disallow：[每條規(guī)則需含至少一個(gè)或多個(gè) Disallow 或 Allow 條目] 用戶代理不應(yīng)抓取的目錄或網(wǎng)頁（相對(duì)于根網(wǎng)域而言）。如果要指定網(wǎng)頁，就應(yīng)提供瀏覽器中顯示的完整網(wǎng)頁名稱；如果要指定目錄，則應(yīng)以標(biāo)記“/”結(jié)尾。支持使用通配符“*”表示路徑前綴、后綴或整個(gè)字符串。
Allow：[每條規(guī)則需含至少一個(gè)或多個(gè) Disallow 或 Allow 條目] 上文中提到的用戶代理應(yīng)抓取的目錄或網(wǎng)頁（相對(duì)于根網(wǎng)域而言）。此指令用于替換 Disallow 指令，從而允許抓取已禁止訪問的目錄中的子目錄或網(wǎng)頁。如果要指定網(wǎng)頁，就應(yīng)提供瀏覽器中顯示的完整網(wǎng)頁名稱；如果要指定目錄，則應(yīng)以標(biāo)記“/”結(jié)尾。支持使用通配符“*”表示路徑前綴、后綴或整個(gè)字符串。
Sitemap：[可選，每個(gè)文件可含零個(gè)或多個(gè) Sitemap 條目] 相應(yīng)網(wǎng)站的站點(diǎn)地圖的位置。必須是完全限定的網(wǎng)址；Google 不會(huì)假定存在或檢查是否存在 http/https/www/非 www 等網(wǎng)址變體。站點(diǎn)地圖是一種用于指示 Google 應(yīng)抓取哪些內(nèi)容（而不是可以或無法抓取哪些內(nèi)容）的好方法。詳細(xì)了解站點(diǎn)地圖。?示例：
```
Sitemap: https://example.com/sitemap.xml
Sitemap: http://www.example.com/sitemap.xml
```

要盡可能具體

disallow指令也會(huì)觸發(fā)部分匹配。

在定義Disallow指令時(shí)盡可能具體，以防止無意中禁止訪問文件。

例子

User-agnet：*

Disallow：/directory

上面的示例不允許搜索引擎訪問：

/directory
/directory/
/directory-name-1
/directory-name.html
/directory-name.php
/directory-name.pdf

所以要指明那個(gè)目錄是需要被禁止爬行的。

另外

網(wǎng)站管理員必須使蜘蛛程序遠(yuǎn)離某些服務(wù)器上的目錄——保證服務(wù)器性能。比如：大多數(shù)網(wǎng)站服務(wù)器都有程序儲(chǔ)存在“cgi-bin”目錄下，因此在robots.txt文件中加入“Disallow: /cgi-bin”是個(gè)好主意，這樣能夠避免將所有程序文件被蜘蛛索引，可以節(jié)省服務(wù)器資源。一般網(wǎng)站中不需要蜘蛛抓取的文件有：后臺(tái)管理文件、程序腳本、附件、數(shù)據(jù)庫文件、編碼文件、樣式表文件、模板文件、導(dǎo)航圖片和背景圖片等等。

特定User Agent的指令，不包含在所有User Agent抓取工具的指令

這個(gè)是什么意思？

讓我們看一個(gè)明確的例子：

User-agent: *

Disallow：/ secret /

Disallow：/ test /

Disallow：/ not-started-yet /

User-agent：googlebot

Disallow：/ not-started-yet /

在上面的示例中，除Google之外的所有搜索引擎都不允許訪問/secret/，/test/和/not-launched-yet/。

Google不允許訪問/not-launched-yet/，但允許訪問/secret/和/test/。

如果您不想讓googlebot訪問/secret/，/not-launched-yet/，那么需要googlebot特別重復(fù)這些指令：

User-agent：*

Disallow：/ secret /

Disallow：/ test /

Disallow：/ not-started-yet /

User-agent：googlebot

Disallow：/ secret /

Disallow：/ not-started-yet /

robots.txt文件有哪些限制？

頁面仍出現(xiàn)在搜索結(jié)果中

由于robots.txt而導(dǎo)致搜索引擎無法訪問的網(wǎng)頁，但如果它們是從已抓取的網(wǎng)頁進(jìn)行鏈接，則仍會(huì)顯示在搜索結(jié)果中。例子：

Google描述不可用robots.txt

Protip：可以使用Google Search Console的網(wǎng)址刪除工具從Google中刪除這些網(wǎng)址。請(qǐng)注意，這些網(wǎng)址只會(huì)被暫時(shí)刪除。為了讓他們不在Google的結(jié)果頁面中，需要每90天刪除一次網(wǎng)址。

緩存

谷歌表示robots.txt文件通常緩存最多24小時(shí)。在robots.txt文件中進(jìn)行更改時(shí)，請(qǐng)務(wù)必考慮到這一點(diǎn)。

目前還不清楚其他搜索引擎如何處理robots.txt的緩存，但一般來說，最好避免緩存你的robots.txt文件，以避免搜索引擎花費(fèi)超過必要的時(shí)間來接收更改。

文件大小

對(duì)于robots.txt文件，Google目前支持的文件大小限制為500 kb。可以忽略此最大文件大小之后的任何內(nèi)容。

檢查robots.txt文件和URL

可以在舊版谷歌站長工具進(jìn)行檢查。

點(diǎn)擊? 抓取 > robots.txt測(cè)試工具

可以看到你的robots內(nèi)容，下面輸入想測(cè)試的url，點(diǎn)擊測(cè)試，就能知道該url是否有被robots.txt的指令給限制了。

也可以通過下面鏈接直接進(jìn)入：

https://support.google.com/webmasters/answer/6062598?hl=zh-Hans

總結(jié)最佳做法：

確保所有重要頁面都是可抓取的
不要阻止網(wǎng)站JavaScript和CSS文件
在站長工具檢查重要的URL是否被禁止抓取
正確大寫目錄，子目錄和文件名
將robots.txt文件放在網(wǎng)站根目錄中
Robots.txt文件區(qū)分大小寫，文件必須命名為“robots.txt”（沒有其他變體）
請(qǐng)勿使用robots.txt文件隱藏私人用戶信息，因?yàn)樗匀豢梢?/p>
將站點(diǎn)地圖位置添加到robots.txt文件中。

注意事項(xiàng)：

如果你有一個(gè)子域或多個(gè)子域在網(wǎng)站，那么你將需要對(duì)每個(gè)子域以及在主根域robots.txt文件。

這看起來像這個(gè)

store.yoursite.com/robots.txt和yoursite.com/robots.txt。

原因是，其他頁面可能鏈接到該信息，如果有直接鏈接，它將繞過robots.txt規(guī)則，并且內(nèi)容可能仍會(huì)被索引。

如果您需要阻止您的網(wǎng)頁在搜索結(jié)果中真正被編入索引，請(qǐng)使用不同的方法，例如添加密碼保護(hù)或向這些網(wǎng)頁添加noindex元標(biāo)記。Google無法登錄受密碼保護(hù)的網(wǎng)站/網(wǎng)頁，因此他們無法抓取或索引這些網(wǎng)頁。

不要在robots.txt中使用noindex

雖然有人說noindex在robots.txt文件中使用指令是個(gè)好主意，但它不是官方標(biāo)準(zhǔn)，谷歌公開建議不要使用它。

谷歌尚未明確原因，但我們認(rèn)為我們應(yīng)該認(rèn)真對(duì)待他們的建議，因?yàn)椋?/p>

如果使用多種方式發(fā)出不索引的信號(hào)，那么很難跟蹤哪些頁面不應(yīng)該被索引。
該noindex指令不是萬無一失的，因?yàn)樗皇枪俜綐?biāo)準(zhǔn)。可能它不會(huì)被谷歌100％追蹤。
我們只知道Google使用該noindex指令，其他搜索引擎（可能）不會(huì)將其用于noindex頁面。

結(jié)論

如果你之前從未使用過robots.txt文件，可能會(huì)有點(diǎn)緊張，但請(qǐng)放心使用，而且設(shè)置相當(dāng)簡(jiǎn)單。

一旦熟悉了文件的細(xì)節(jié)，就可以增強(qiáng)網(wǎng)站的搜索引擎優(yōu)化。

通過正確設(shè)置robots.txt文件，將幫助搜索引擎爬蟲明智地花費(fèi)他們的抓取預(yù)算，并幫助確保他們不浪費(fèi)時(shí)間和資源來抓取不需要抓取的網(wǎng)頁。

這將有助于他們以盡可能最好的方式在SERP中組織和顯示你的網(wǎng)站內(nèi)容，意味著你將獲得更多的曝光。

設(shè)置robots.txt文件并不一定需要花費(fèi)大量的時(shí)間和精力。在大多數(shù)情況下，它是一次性設(shè)置，然后可以進(jìn)行一些小的調(diào)整和更改，以幫助更好地塑造網(wǎng)站。

我希望本文中介紹的做法、提示和建議有助你著手創(chuàng)建/調(diào)整你的網(wǎng)站robots.txt文件。

附各大搜索引擎蜘蛛特征

1. 百度蜘蛛：Baiduspider網(wǎng)上的資料百度蜘蛛名稱有BaiduSpider、baiduspider等，都洗洗睡吧，那是舊黃歷了。百度蜘蛛最新名稱為Baiduspider。日志中還發(fā)現(xiàn)了Baiduspider-image這個(gè)百度旗下蜘蛛，查了下資料（其實(shí)直接看名字就可以了……），是抓取圖片的蜘蛛。常見百度旗下同類型蜘蛛還有下面這些：Baiduspider-mobile（抓取wap）、Baiduspider-image（抓取圖片）、Baiduspider-video（抓取視頻）、Baiduspider-news（抓取新聞）。注：以上百度蜘蛛目前常見的是Baiduspider和Baiduspider-image兩種。

2. 谷歌蜘蛛：Googlebot這個(gè)爭(zhēng)議較少，但也有說是GoogleBot的。谷歌蜘蛛最新名稱為“compatible; Googlebot/2.1;”。還發(fā)現(xiàn)了Googlebot-Mobile，看名字是抓取wap內(nèi)容的。

3. 360蜘蛛：360Spider，它是一個(gè)很“勤奮抓爬”的蜘蛛。

4、SOSO蜘蛛：Sosospider，也可為它頒一個(gè)“勤奮抓爬”獎(jiǎng)的蜘蛛。

5、雅虎蜘蛛：“Yahoo! Slurp China”或者Yahoo!名稱中帶“Slurp”和空格，名稱有空格robots里名稱可以使用“Slurp”或者“Yahoo”單詞描述，不知道有效無效。

6、有道蜘蛛：YoudaoBot，YodaoBot（兩個(gè)名字都有，中文拼音少了個(gè)U字母讀音差別很大嘎，這都會(huì)少？）

7、搜狗蜘蛛：Sogou News Spider搜狗蜘蛛還包括如下這些：

Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider，（參考一些網(wǎng)站的robots文件，搜狗蜘蛛名稱可以用Sogou概括，無法驗(yàn)證不知道有沒有效）看看最權(quán)威的百度的robots.txt ，http://www.baidu.com/robots.txt 就為Sogou搜狗蜘蛛費(fèi)了不少字節(jié)，占了一大塊領(lǐng)地?！癝ogou web spider；Sogou inst spider；Sogou spider2；Sogou blog；Sogou News Spider；Sogou Orion spider”目前6個(gè)，名稱都帶空格。線上常見”Sogou web spider/4.0″ ；”Sogou News Spider/4.0″ ；”Sogou inst spider/4.0″ 可以為它頒個(gè)“占名為王”獎(jiǎng)。

8、MSN蜘蛛：msnbot，msnbot-media（只見到msnbot-media在狂爬……）

9、必應(yīng)蜘蛛：bingbot線上(compatible; bingbot/2.0;)

10、一搜蜘蛛：YisouSpider

11、Alexa蜘蛛：ia_archiver

12、宜sou蜘蛛：EasouSpider

13、即刻蜘蛛：JikeSpider

14、一淘網(wǎng)蜘蛛：EtaoSpider“Mozilla/5.0 (compatible; EtaoSpider/1.0; http://省略/EtaoSpider)”根據(jù)上述蜘蛛中選擇幾個(gè)常用的允許抓取，其余的都可以通過robots屏蔽抓取。如果你暫時(shí)空間流量還足夠使用，等流量緊張了就保留幾個(gè)常用的屏蔽掉其它蜘蛛以節(jié)省流量。至于那些蜘蛛抓取對(duì)網(wǎng)站能帶來有利用的價(jià)值，網(wǎng)站的管理者眼睛是雪亮的。

另外還發(fā)現(xiàn)了如 YandexBot、AhrefsBot和ezooms.bot這些蜘蛛，據(jù)說這些蜘蛛國外，對(duì)中文網(wǎng)站用處很小。那不如就節(jié)省下資源。

Peace Out

公眾號(hào)ID：yestupa

掃碼關(guān)注圖帕先生
獲取更多國外SEM、SEO干貨

給我【在看】

你也越好看！

文章為作者獨(dú)立觀點(diǎn)，不代表DLZ123立場(chǎng)。如有侵權(quán),請(qǐng)聯(lián)系我們。( 版權(quán)為作者所有，如需轉(zhuǎn)載，請(qǐng)聯(lián)系作者 )

網(wǎng)站運(yùn)營至今，離不開小伙伴們的支持。為了給小伙伴們提供一個(gè)互相交流的平臺(tái)和資源的對(duì)接，特地開通了獨(dú)立站交流群。群里有不少運(yùn)營大神，不時(shí)會(huì)分享一些運(yùn)營技巧，更有一些資源收藏愛好者不時(shí)分享一些優(yōu)質(zhì)的學(xué)習(xí)資料。

現(xiàn)在可以掃碼進(jìn)群，備注【加群】。 ( 群完全免費(fèi)，不廣告不賣課！)

點(diǎn)贊(0) 打賞

本文分類：SEO
本文標(biāo)簽：seo
瀏覽次數(shù)：1446 次瀏覽
發(fā)布日期：2019-07-07 12:34:12
原文鏈接：https://mp.weixin.qq.com/s/r3jiMCbRjsxWq5DFRs0lRg

上一篇 > 你一直在找的網(wǎng)站SEO最全檢查清單
下一篇 > 文章/外鏈不收錄- 3招教你解決問題

精品国产三级a在线观看网站,亚洲综合色成在线观看,亚洲熟妇一区二区三区,,中文字幕成人精品久久不卡 ,永久免费av无码网站国产

[SEO]Robots.txt文件怎樣寫+實(shí)例分析Robots.txt設(shè)置（附各大搜索引擎蜘蛛特征）

這是theverge.com網(wǎng)站上robots.txt文件的示例：

位置規(guī)則和文件名

語法

優(yōu)先順序

指令

要盡可能具體

特定User Agent的指令，不包含在所有User Agent抓取工具的指令

檢查robots.txt文件和URL

如果你有一個(gè)子域或多個(gè)子域在網(wǎng)站，那么你將需要對(duì)每個(gè)子域以及在主根域robots.txt文件。

不要在robots.txt中使用noindex

評(píng)論列表共有 0 條評(píng)論

發(fā)表評(píng)論取消回復(fù)

精品国产三级a在线观看网站,亚洲综合色成在线观看,亚洲熟妇一区二区三区,,中文字幕成人精品久久不卡 ,永久免费av无码网站国产

[SEO]Robots.txt文件怎樣寫+實(shí)例分析Robots.txt設(shè)置（附各大搜索引擎蜘蛛特征）

這是theverge.com網(wǎng)站上robots.txt文件的示例：

位置規(guī)則和文件名

語法

優(yōu)先順序

指令

要盡可能具體

特定User Agent的指令，不包含在所有User Agent抓取工具的指令

檢查robots.txt文件和URL

如果你有一個(gè)子域或多個(gè)子域在網(wǎng)站，那么你將需要對(duì)每個(gè)子域以及在主根域robots.txt文件。

不要在robots.txt中使用noindex

一文探秘海外網(wǎng)紅營銷如何有效助力品牌SEO?

外貿(mào)推廣｜2023年海外推廣怎么做？你真的懂嗎？

站內(nèi)SEO不可忽略的Video優(yōu)化指南

TikTok SEO：TikTok會(huì)取代谷歌嗎？

評(píng)論列表 共有 0 條評(píng)論

發(fā)表評(píng)論 取消回復(fù)

特定User Agent的指令，不包含在所有User Agent抓取工具的指令

如果你有一個(gè)子域或多個(gè)子域在網(wǎng)站，那么你將需要對(duì)每個(gè)子域以及在主根域robots.txt文件。

外貿(mào)推廣｜2023年海外推廣怎么做？你真的懂嗎？

TikTok SEO：TikTok會(huì)取代谷歌嗎？

評(píng)論列表共有 0 條評(píng)論

發(fā)表評(píng)論取消回復(fù)