撞見女廁所的男人，誰在笑，誰在叫，詳解 robots.txt 規(guī)則

571 閱讀 0 評(píng)論 9 點(diǎn)贊

大家好！我是SEO小平，微信號(hào)直接復(fù)制?Xiao_Ping_Up?，或者掃描二維碼

當(dāng)尖叫與奸笑撕破女廁所的平靜 —— 是標(biāo)識(shí)牌誤導(dǎo)讓老實(shí)人誤入歧途？還是法外狂徒硬闖？

你的獨(dú)立站 robots.txt 正面臨和【廁所指示牌】同樣困境：爬蟲大軍中混雜著迷路的「誤闖者」也有蓄謀已久的「偷窺狂」。

你的獨(dú)立站 robots.txt 文檔就好像是一個(gè)廁所的指示牌，告訴了男人們進(jìn)哪一邊，女人們進(jìn)哪一邊。但是你可能把這個(gè)標(biāo)識(shí)牌寫錯(cuò)了，導(dǎo)致男人們走錯(cuò)路跑到了女廁所。另外，也有可能是指示牌是正確的，遇到一個(gè)根本不遵守指示牌指引的流氓故意硬闖進(jìn)來的。

當(dāng)谷歌，Bing ，Yandex這些正規(guī)的搜索引擎進(jìn)入網(wǎng)站，搜索引擎的爬蟲蜘蛛進(jìn)入你的網(wǎng)站第一個(gè)訪問的文檔就是 robots.txt?，他們會(huì)根據(jù)robots.txt 指引的規(guī)則路線來爬取你的網(wǎng)站。

當(dāng)黑客，或者暴力蜘蛛進(jìn)入你網(wǎng)站，他根本不會(huì)看你的robots.txt 指引，直接開始他的猖狂行為。這種情況獨(dú)立站運(yùn)營是毫無辦法的，除非給你造成重大損失，此時(shí)只能搜集證據(jù)，告上法庭?？聪旅娴陌咐俣榷寄眠@種情況沒辦法，只能告他。

既然流氓我們只能告他，那我們該怎么防止老實(shí)人【誤闖禁區(qū)】呢？robots這么重要，作為獨(dú)立站運(yùn)營我們該怎么編輯這個(gè)文檔，怎么規(guī)定爬行規(guī)則。今天SEO小平就詳細(xì)給你分析robots的全面知識(shí)。

怎么修改網(wǎng)站的 robots.xtx 文檔

分2部分 Shopify 與 WordPress（Yoast）的路徑指南

1. Shopify 平臺(tái)的 robots.txt 修改流程

Shopify 為商家提供了編輯 robots.txt 文件的功能，以此對(duì)搜索引擎爬蟲的抓取范圍進(jìn)行自主調(diào)控，具體操作步驟如下：

登錄 Shopify 管理后臺(tái)
使用商家賬號(hào)登錄 Shopify 店鋪的管理頁面。
進(jìn)入主題編輯界面
點(diǎn)擊頁面中的 “在線商店” 選項(xiàng)，隨后選擇 “主題”。在主題頁面中，找到正在使用的 “實(shí)時(shí)主題” 板塊，點(diǎn)擊其旁邊的 “操作” 按鈕，并選擇 “編輯代碼”。
創(chuàng)建 robots.txt 模板
在代碼編輯界面左側(cè)的文件目錄中，找到 “模板” 部分，點(diǎn)擊 “添加新模板”。此時(shí)會(huì)彈出一個(gè)選項(xiàng)框，將 “創(chuàng)建新模板用于” 的選項(xiàng)更改為 “robots.txt”，最后點(diǎn)擊 “創(chuàng)建模板”。Shopify 會(huì)自動(dòng)生成一個(gè)名為 “robots.txt.liquid” 的文件，這個(gè)文件包含了店鋪默認(rèn)的 robots.txt 規(guī)則。
編輯 robots.txt 內(nèi)容
在生成的 “robots.txt.liquid” 文件中，你可以根據(jù)實(shí)際需求修改規(guī)則。比如，若要阻止特定搜索引擎爬蟲訪問某個(gè)目錄，可以添加類似 “Disallow: / 特定目錄名 /” 的指令；若要添加網(wǎng)站地圖鏈接，可使用 “Sitemap: https:// 你的域名 /sitemap.xml” 的格式進(jìn)行添加。完成修改后，點(diǎn)擊保存，新的規(guī)則便會(huì)生效。

2. 借助 Yoast 插件修改 WordPress 的 robots.txt

Yoast SEO 插件是 WordPress 生態(tài)中一款強(qiáng)大的 SEO 優(yōu)化工具，利用它可以便捷地對(duì) robots.txt 文件進(jìn)行修改：

安裝并激活 Yoast SEO 插件
登錄 WordPress 網(wǎng)站的后臺(tái)管理界面，點(diǎn)擊 “插件” 菜單，選擇 “添加新插件”。在搜索框中輸入 “Yoast SEO”，找到該插件后點(diǎn)擊 “安裝” 按鈕，安裝完成后再點(diǎn)擊 “激活”。
進(jìn)入文件編輯器
在 WordPress 后臺(tái)左側(cè)菜單中點(diǎn)擊 “Yoast SEO”，在展開的選項(xiàng)中選擇 “工具”，然后點(diǎn)擊 “文件編輯器”。若 WordPress 禁用了文件編輯功能，該菜單選項(xiàng)可能不會(huì)出現(xiàn)，此時(shí)需要先在服務(wù)器層面或通過主機(jī)提供商開啟文件編輯權(quán)限。
編輯 robots.txt
點(diǎn)擊 “創(chuàng)建 robots.txt 文件” 按鈕（若已存在該文件，則直接顯示文件內(nèi)容），Yoast SEO 會(huì)展示生成的默認(rèn) robots.txt 內(nèi)容。在這里，你可以對(duì)文件進(jìn)行編輯操作，例如添加或刪除特定的 “Disallow”“Allow” 指令等。修改完成后，點(diǎn)擊保存即可。

無論是WordPress 還是Shopify 只要修改了robots.txt要第一時(shí)間到谷歌GSC后臺(tái)來更新，刷新看看是不是你更新的最新版本的robots.txt

本來robots.txt就是給谷歌蜘蛛看的，所以要確保最新版的文檔要展示給蜘蛛，谷歌經(jīng)常有24小時(shí)緩存，你要主動(dòng)去刷新。

如下圖是GSC后臺(tái)截圖：

SEO小平陪跑課學(xué)員的線上課程有詳細(xì)視頻告訴你們怎么操作。加我微信直接復(fù)制?Xiao_Ping_Up了解陪跑詳情

下面SEO小平把robots.txt的復(fù)雜理論詳細(xì)闡述在以下文章中：

一、基礎(chǔ)規(guī)范：從命名到緩存的底層邏輯

1. 命名與位置：爬蟲識(shí)別的 “門檻”

命名規(guī)則
文件名必須嚴(yán)格為小寫的robots.txt，大小寫錯(cuò)誤（如Robots.TXT）會(huì)導(dǎo)致爬蟲直接忽略文件內(nèi)容，進(jìn)而引發(fā)抓取失控。
存儲(chǔ)位置
文件需放置在網(wǎng)站根目錄（如https://example.com/robots.txt），子目錄存儲(chǔ)（如/pages/robots.txt）無效。此外，不同協(xié)議（HTTP/HTTPS）、主機(jī)名或子域名（如shop.example.com）需單獨(dú)配置獨(dú)立的 robots.txt 文件，避免規(guī)則沖突。

2. 路徑與指令的大小寫敏感機(jī)制

路徑匹配
Disallow和Allow指令中的 URL 路徑區(qū)分大小寫（如/folder/與/Folder/視為不同規(guī)則），錯(cuò)誤的大小寫會(huì)導(dǎo)致規(guī)則失效。
爬蟲名稱匹配
谷歌對(duì)User-agent值（如Googlebot）不區(qū)分大小寫，但其他搜索引擎可能敏感，建議統(tǒng)一使用小寫規(guī)范。

3. 緩存機(jī)制：修改生效的 “時(shí)間差”

谷歌通常緩存 robots.txt 內(nèi)容長達(dá) 24 小時(shí)，若遇服務(wù)器錯(cuò)誤（如 5xx 狀態(tài)碼），緩存時(shí)間可能更長。
可通過Cache-Control響應(yīng)頭的max-age指令調(diào)整緩存周期，或借助 Google Search Console（GSC）請(qǐng)求加速刷新。

二、核心指令：精準(zhǔn)控制抓取行為的 “工具箱”

1. User-agent：定位目標(biāo)爬蟲

通配符規(guī)則
User-agent: *匹配所有遵守協(xié)議的爬蟲，規(guī)則優(yōu)先級(jí)低于具體爬蟲聲明（如Googlebot）。
各種爬蟲細(xì)分
針對(duì)不同功能的谷歌爬蟲（如Googlebot-Image負(fù)責(zé)圖片抓?。?，可單獨(dú)配置規(guī)則，實(shí)現(xiàn)精細(xì)化控制。

2. Disallow 與 Allow：禁止與放行的博弈

禁止抓取
Disallow: /可阻止指定爬蟲訪問全站；路徑支持文件（如/private.html）、目錄（如/admin/）或通配符模式（如/*?sessionid=*禁止含會(huì)話 ID 的 URL）。
精準(zhǔn)放行

3. 優(yōu)先級(jí)邏輯：最長匹配與沖突解決

路徑長度優(yōu)先
當(dāng)同一 URL 匹配多條規(guī)則時(shí)，路徑前綴最長的規(guī)則生效。例如：Allow: /folder/page（長度 12）優(yōu)于Disallow: /folder/（長度 8）。
沖突處理
若路徑長度相同（如Allow: /page與Disallow: /page），谷歌遵循 “限制性最小” 原則，優(yōu)先執(zhí)行Allow。

4. 通配符高級(jí)應(yīng)用：* 與 $ 的組合藝術(shù)

*?匹配任意字符
可用于禁止含特定參數(shù)的 URL（如/*?color=阻止含顏色過濾參數(shù)的頁面）或文件類型（如/*.pdf禁止所有 PDF 文件）。
$?匹配路徑結(jié)尾
精準(zhǔn)區(qū)分目錄與文件（如Allow: /search/$僅允許根目錄的search頁面，排除/search/results.html）。

三、策略對(duì)比：robots.txt 與其他 SEO 工具的協(xié)同

抓取/索引控制方法對(duì)比表

控制方法	主要目的	實(shí)現(xiàn)位置	對(duì)抓取的影響	對(duì)索引的影響	谷歌SEO適用場景
`robots.txt Disallow`	阻止抓取	網(wǎng)站根目錄?`robots.txt`?文件	阻止爬蟲訪問指定URL/路徑	間接影響：可能仍被索引（無描述），但內(nèi)容未被讀取	管理抓取預(yù)算，阻止訪問后臺(tái)、測試區(qū)、重復(fù)參數(shù)URL；不用于阻止索引
`noindex` ?Meta標(biāo)簽	阻止索引	HTML頁面的?`<head>`?部分	頁面必須可抓取	明確阻止頁面出現(xiàn)在搜索結(jié)果中	阻止HTML頁面（如感謝頁、低質(zhì)量內(nèi)容頁）被索引，但允許爬蟲讀取頁面
`X-Robots-Tag: noindex`	阻止索引	服務(wù)器HTTP響應(yīng)頭	資源必須可抓取	明確阻止資源（包括非HTML文件如PDF、圖片）出現(xiàn)在搜索結(jié)果中	阻止非HTML文件被索引；對(duì)HTML頁面也有效，可用于大規(guī)模應(yīng)用或無法修改HTML頭部的情況
`rel="canonical"` ?標(biāo)簽	指定首選URL，處理重復(fù)內(nèi)容	HTML頁面的?`<head>`?部分或HTTP響應(yīng)頭	頁面必須可抓取	幫助谷歌整合相似頁面的信號(hào)到首選URL，減少重復(fù)內(nèi)容索引問題	處理因URL參數(shù)、打印版本等產(chǎn)生的重復(fù)或高度相似內(nèi)容，將權(quán)重集中到規(guī)范版本

1. 與 noindex 的分工

注意：若頁面在 robots.txt 中被Disallow，谷歌將無法讀取其noindex標(biāo)簽，導(dǎo)致索引控制失效。

2. 與 Canonical 標(biāo)簽的互補(bǔ)

rel="canonical"
用于整合重復(fù)內(nèi)容的權(quán)重，需確保非規(guī)范頁面可被抓取（即不被 robots.txt 阻止），否則標(biāo)簽無效。
策略選擇
參數(shù)化 URL 若需保留鏈接信號(hào)，優(yōu)先使用canonical；若需徹底阻止抓取，再用Disallow。

四、實(shí)戰(zhàn)場景：從參數(shù)處理到資源優(yōu)化

1. 參數(shù)化 URL 管理

會(huì)話 ID 與跟蹤參數(shù)
通過Disallow: /*?sessionid=或/*?utm_source=阻止無價(jià)值參數(shù)頁面。
分面導(dǎo)航
結(jié)合通配符（如/*?*color=）與canonical標(biāo)簽，保留核心過濾組合頁面，屏蔽冗余參數(shù)組合。

2. 分頁內(nèi)容處理

推薦策略
索引第一頁，后續(xù)頁面使用noindex, follow，允許抓取以傳遞鏈接權(quán)重。
避免誤區(qū)
禁止通過robots.txt阻止分頁 URL，否則會(huì)阻斷深層內(nèi)容的發(fā)現(xiàn)路徑。

3. 資源文件抓取策略

核心原則
允許抓取 CSS、JS 等渲染必需資源，避免谷歌無法正確解析頁面內(nèi)容。
例外情況
僅當(dāng)資源為裝飾性或非必要（如第三方跟蹤腳本）時(shí)，可謹(jǐn)慎阻止。

在更廣闊的SEO圖景中的定位

五、通過?robots.txt?禁止抓取某個(gè)URL，并不能保證該URL不會(huì)被索引

如果谷歌通過其他途徑（如外部鏈接、內(nèi)部鏈接或站點(diǎn)地圖）發(fā)現(xiàn)了這個(gè)被禁止抓取的URL，它仍然可能將該URL編入索引。正如女廁所有一個(gè)側(cè)門，有一些男人從側(cè)門進(jìn)入了女廁所。這種情況下，由于谷歌未能抓取頁面內(nèi)容，搜索結(jié)果中通常不會(huì)顯示該頁面的描述，有時(shí)可能會(huì)顯示URL本身或指向該頁面的鏈接錨文本?。??

我是9年獨(dú)立站賣家SEO小平，一直分享谷歌SEO的干貨，更多關(guān)于外包SEO的詳細(xì)干貨我會(huì)在我們的陪跑課程里面系統(tǒng)分享。歡迎報(bào)名我們的下次陪跑課程。先加我的微信?Xiao_Ping_Up?，或者掃描二維碼

以往的文章也是干貨，歡迎閱讀和轉(zhuǎn)發(fā)

獨(dú)立站 SEO 全面指南

SEO 必備 HTML 代碼知識(shí)

SEO必須知道的谷歌算法

Google SEO 術(shù)語掃盲貼，你是否都知道這些含義

社媒短視頻流量那么大，2025還要不要做外貿(mào)獨(dú)立站

AI就是個(gè)充氣娃娃，擺弄什么姿勢（知識(shí)）取決于你的技術(shù)

谷歌算法又雙叒叕更新？Google SEO算法為啥一直在更新？

谷歌SEO需要多久才會(huì)有效果?

給小白的寶典:SEO關(guān)鍵詞調(diào)研和布局-文字+視頻

Google內(nèi)部的頂級(jí)域名變更對(duì)小語種 SEO 沒有任何影響

SEO外鏈就是 “偉哥”，SEO小平教你怎么服用

文章為作者獨(dú)立觀點(diǎn)，不代表DLZ123立場。如有侵權(quán),請(qǐng)聯(lián)系我們。( 版權(quán)為作者所有，如需轉(zhuǎn)載，請(qǐng)聯(lián)系作者 )

網(wǎng)站運(yùn)營至今，離不開小伙伴們的支持。為了給小伙伴們提供一個(gè)互相交流的平臺(tái)和資源的對(duì)接，特地開通了獨(dú)立站交流群。群里有不少運(yùn)營大神，不時(shí)會(huì)分享一些運(yùn)營技巧，更有一些資源收藏愛好者不時(shí)分享一些優(yōu)質(zhì)的學(xué)習(xí)資料。

現(xiàn)在可以掃碼進(jìn)群，備注【加群】。 ( 群完全免費(fèi)，不廣告不賣課！)

點(diǎn)贊(9) 打賞

本文分類：實(shí)戰(zhàn)分享
本文標(biāo)簽：無
瀏覽次數(shù)：571 次瀏覽
發(fā)布日期：2025-05-21 08:10:19
原文鏈接：https://mp.weixin.qq.com/s/qX83WB1Z5L-hXPWwBGtbiw

上一篇 > 使用轉(zhuǎn)碼域名釣魚
下一篇 > 獨(dú)立站刪掉的內(nèi)容怎么辦？？？都需要做301跳轉(zhuǎn)嗎？

精品国产三级a在线观看网站,亚洲综合色成在线观看,亚洲熟妇一区二区三区,,中文字幕成人精品久久不卡 ,永久免费av无码网站国产

撞見女廁所的男人，誰在笑，誰在叫，詳解 robots.txt 規(guī)則

當(dāng)尖叫與奸笑撕破女廁所的平靜 —— 是標(biāo)識(shí)牌誤導(dǎo)讓老實(shí)人誤入歧途？還是法外狂徒硬闖？

你的獨(dú)立站 robots.txt 正面臨和【廁所指示牌】同樣困境：爬蟲大軍中混雜著迷路的「誤闖者」也有蓄謀已久的「偷窺狂」。

怎么修改網(wǎng)站的 robots.xtx 文檔