當(dāng)尖叫與奸笑撕破女廁所的平靜 —— 是標(biāo)識(shí)牌誤導(dǎo)讓老實(shí)人誤入歧途?還是法外狂徒硬闖?
你的獨(dú)立站 robots.txt 正面臨和 【廁所指示牌】同樣困境:爬蟲大軍中混雜著迷路的「誤闖者」也有蓄謀已久的「偷窺狂」。

怎么修改網(wǎng)站的 robots.xtx 文檔
分2部分 Shopify 與 WordPress(Yoast)的路徑指南
1. Shopify 平臺(tái)的 robots.txt 修改流程
Shopify 為商家提供了編輯 robots.txt 文件的功能,以此對(duì)搜索引擎爬蟲的抓取范圍進(jìn)行自主調(diào)控,具體操作步驟如下:
-
登錄 Shopify 管理后臺(tái)
使用商家賬號(hào)登錄 Shopify 店鋪的管理頁面。 -
進(jìn)入主題編輯界面
點(diǎn)擊頁面中的 “在線商店” 選項(xiàng),隨后選擇 “主題”。在主題頁面中,找到正在使用的 “實(shí)時(shí)主題” 板塊,點(diǎn)擊其旁邊的 “操作” 按鈕,并選擇 “編輯代碼”。 -
創(chuàng)建 robots.txt 模板
在代碼編輯界面左側(cè)的文件目錄中,找到 “模板” 部分,點(diǎn)擊 “添加新模板”。此時(shí)會(huì)彈出一個(gè)選項(xiàng)框,將 “創(chuàng)建新模板用于” 的選項(xiàng)更改為 “robots.txt”,最后點(diǎn)擊 “創(chuàng)建模板”。Shopify 會(huì)自動(dòng)生成一個(gè)名為 “robots.txt.liquid” 的文件,這個(gè)文件包含了店鋪默認(rèn)的 robots.txt 規(guī)則。 -
編輯 robots.txt 內(nèi)容
在生成的 “robots.txt.liquid” 文件中,你可以根據(jù)實(shí)際需求修改規(guī)則。比如,若要阻止特定搜索引擎爬蟲訪問某個(gè)目錄,可以添加類似 “Disallow: / 特定目錄名 /” 的指令;若要添加網(wǎng)站地圖鏈接,可使用 “Sitemap: https:// 你的域名 /sitemap.xml” 的格式進(jìn)行添加。完成修改后,點(diǎn)擊保存,新的規(guī)則便會(huì)生效。
2. 借助 Yoast 插件修改 WordPress 的 robots.txt
Yoast SEO 插件是 WordPress 生態(tài)中一款強(qiáng)大的 SEO 優(yōu)化工具,利用它可以便捷地對(duì) robots.txt 文件進(jìn)行修改:
-
安裝并激活 Yoast SEO 插件
登錄 WordPress 網(wǎng)站的后臺(tái)管理界面,點(diǎn)擊 “插件” 菜單,選擇 “添加新插件”。在搜索框中輸入 “Yoast SEO”,找到該插件后點(diǎn)擊 “安裝” 按鈕,安裝完成后再點(diǎn)擊 “激活”。 -
進(jìn)入文件編輯器
在 WordPress 后臺(tái)左側(cè)菜單中點(diǎn)擊 “Yoast SEO”,在展開的選項(xiàng)中選擇 “工具”,然后點(diǎn)擊 “文件編輯器”。若 WordPress 禁用了文件編輯功能,該菜單選項(xiàng)可能不會(huì)出現(xiàn),此時(shí)需要先在服務(wù)器層面或通過主機(jī)提供商開啟文件編輯權(quán)限。 -
編輯 robots.txt
點(diǎn)擊 “創(chuàng)建 robots.txt 文件” 按鈕(若已存在該文件,則直接顯示文件內(nèi)容),Yoast SEO 會(huì)展示生成的默認(rèn) robots.txt 內(nèi)容。在這里,你可以對(duì)文件進(jìn)行編輯操作,例如添加或刪除特定的 “Disallow”“Allow” 指令等。修改完成后,點(diǎn)擊保存即可。

一、基礎(chǔ)規(guī)范:從命名到緩存的底層邏輯
1. 命名與位置:爬蟲識(shí)別的 “門檻”
-
命名規(guī)則
文件名必須嚴(yán)格為小寫的 robots.txt
,大小寫錯(cuò)誤(如Robots.TXT
)會(huì)導(dǎo)致爬蟲直接忽略文件內(nèi)容,進(jìn)而引發(fā)抓取失控。 -
存儲(chǔ)位置
文件需放置在網(wǎng)站根目錄(如 https://example.com/robots.txt
),子目錄存儲(chǔ)(如/pages/robots.txt
)無效。此外,不同協(xié)議(HTTP/HTTPS)、主機(jī)名或子域名(如shop.example.com
)需單獨(dú)配置獨(dú)立的 robots.txt 文件,避免規(guī)則沖突。
2. 路徑與指令的大小寫敏感機(jī)制
-
路徑匹配
Disallow
和Allow
指令中的 URL 路徑區(qū)分大小寫(如/folder/
與/Folder/
視為不同規(guī)則),錯(cuò)誤的大小寫會(huì)導(dǎo)致規(guī)則失效。 -
爬蟲名稱匹配
谷歌對(duì) User-agent
值(如Googlebot
)不區(qū)分大小寫,但其他搜索引擎可能敏感,建議統(tǒng)一使用小寫規(guī)范。
3. 緩存機(jī)制:修改生效的 “時(shí)間差”
-
谷歌通常緩存 robots.txt 內(nèi)容長達(dá) 24 小時(shí),若遇服務(wù)器錯(cuò)誤(如 5xx 狀態(tài)碼),緩存時(shí)間可能更長。 -
可通過 Cache-Control
響應(yīng)頭的max-age
指令調(diào)整緩存周期,或借助 Google Search Console(GSC)請(qǐng)求加速刷新。
二、核心指令:精準(zhǔn)控制抓取行為的 “工具箱”
1. User-agent:定位目標(biāo)爬蟲
-
通配符規(guī)則
User-agent: *
匹配所有遵守協(xié)議的爬蟲,規(guī)則優(yōu)先級(jí)低于具體爬蟲聲明(如Googlebot
)。 -
各種爬蟲細(xì)分
針對(duì)不同功能的谷歌爬蟲(如 Googlebot-Image
負(fù)責(zé)圖片抓?。?,可單獨(dú)配置規(guī)則,實(shí)現(xiàn)精細(xì)化控制。
2. Disallow 與 Allow:禁止與放行的博弈
-
禁止抓取
Disallow: /
可阻止指定爬蟲訪問全站;路徑支持文件(如/private.html
)、目錄(如/admin/
)或通配符模式(如/*?sessionid=*
禁止含會(huì)話 ID 的 URL)。 -
精準(zhǔn)放行

-
路徑長度優(yōu)先
當(dāng)同一 URL 匹配多條規(guī)則時(shí),路徑前綴最長的規(guī)則生效。例如: Allow: /folder/page
(長度 12)優(yōu)于Disallow: /folder/
(長度 8)。 -
沖突處理
若路徑長度相同(如 Allow: /page
與Disallow: /page
),谷歌遵循 “限制性最小” 原則,優(yōu)先執(zhí)行Allow
。
4. 通配符高級(jí)應(yīng)用:* 與 $ 的組合藝術(shù)
-
*?
匹配任意字符可用于禁止含特定參數(shù)的 URL(如 /*?color=
阻止含顏色過濾參數(shù)的頁面)或文件類型(如/*.pdf
禁止所有 PDF 文件)。 -
$?
匹配路徑結(jié)尾精準(zhǔn)區(qū)分目錄與文件(如 Allow: /search/$
僅允許根目錄的search
頁面,排除/search/results.html
)。
三、策略對(duì)比:robots.txt 與其他 SEO 工具的協(xié)同
robots.txt Disallow |
robots.txt ?文件 |
||||
noindex |
<head> ?部分 |
||||
X-Robots-Tag: noindex |
|||||
rel="canonical" |
<head> ?部分或HTTP響應(yīng)頭 |
1. 與 noindex 的分工
注意:若頁面在 robots.txt 中被Disallow
,谷歌將無法讀取其noindex
標(biāo)簽,導(dǎo)致索引控制失效。
2. 與 Canonical 標(biāo)簽的互補(bǔ)
-
rel="canonical"
用于整合重復(fù)內(nèi)容的權(quán)重,需確保非規(guī)范頁面可被抓取(即不被 robots.txt 阻止),否則標(biāo)簽無效。 -
策略選擇
參數(shù)化 URL 若需保留鏈接信號(hào),優(yōu)先使用 canonical
;若需徹底阻止抓取,再用Disallow
。
四、實(shí)戰(zhàn)場景:從參數(shù)處理到資源優(yōu)化
1. 參數(shù)化 URL 管理
-
會(huì)話 ID 與跟蹤參數(shù)
通過 Disallow: /*?sessionid=
或/*?utm_source=
阻止無價(jià)值參數(shù)頁面。 -
分面導(dǎo)航
結(jié)合通配符(如 /*?*color=
)與canonical
標(biāo)簽,保留核心過濾組合頁面,屏蔽冗余參數(shù)組合。
2. 分頁內(nèi)容處理
-
推薦策略
索引第一頁,后續(xù)頁面使用 noindex, follow
,允許抓取以傳遞鏈接權(quán)重。 -
避免誤區(qū)
禁止通過 robots.txt
阻止分頁 URL,否則會(huì)阻斷深層內(nèi)容的發(fā)現(xiàn)路徑。
3. 資源文件抓取策略
-
核心原則
允許抓取 CSS、JS 等渲染必需資源,避免谷歌無法正確解析頁面內(nèi)容。 -
例外情況
僅當(dāng)資源為裝飾性或非必要(如第三方跟蹤腳本)時(shí),可謹(jǐn)慎阻止。
在更廣闊的SEO圖景中的定位
robots.txt
?禁止抓取某個(gè)URL,并不能保證該URL不會(huì)被索引如果谷歌通過其他途徑(如外部鏈接、內(nèi)部鏈接或站點(diǎn)地圖)發(fā)現(xiàn)了這個(gè)被禁止抓取的URL,它仍然可能將該URL編入索引。正如女廁所有一個(gè)側(cè)門,有一些男人從側(cè)門進(jìn)入了女廁所。這種情況下,由于谷歌未能抓取頁面內(nèi)容,搜索結(jié)果中通常不會(huì)顯示該頁面的描述,有時(shí)可能會(huì)顯示URL本身或指向該頁面的鏈接錨文本?
我是9年獨(dú)立站賣家SEO小平,一直分享谷歌SEO的干貨,更多關(guān)于外包SEO的詳細(xì)干貨我會(huì)在我們的陪跑課程里面系統(tǒng)分享。歡迎報(bào)名我們的下次陪跑課程。先加我的微信?Xiao_Ping_Up?,或者掃描二維碼

以往的文章也是干貨,歡迎閱讀和轉(zhuǎn)發(fā)
Google SEO 術(shù)語掃盲貼,你是否都知道這些含義
社媒短視頻流量那么大,2025還要不要做外貿(mào)獨(dú)立站
AI就是個(gè)充氣娃娃,擺弄什么姿勢(知識(shí))取決于你的技術(shù)
谷歌算法又雙叒叕更新?Google SEO算法為啥一直在更新?
給小白的寶典:SEO關(guān)鍵詞調(diào)研和布局-文字+視頻
文章為作者獨(dú)立觀點(diǎn),不代表DLZ123立場。如有侵權(quán),請(qǐng)聯(lián)系我們。( 版權(quán)為作者所有,如需轉(zhuǎn)載,請(qǐng)聯(lián)系作者 )

網(wǎng)站運(yùn)營至今,離不開小伙伴們的支持。 為了給小伙伴們提供一個(gè)互相交流的平臺(tái)和資源的對(duì)接,特地開通了獨(dú)立站交流群。
群里有不少運(yùn)營大神,不時(shí)會(huì)分享一些運(yùn)營技巧,更有一些資源收藏愛好者不時(shí)分享一些優(yōu)質(zhì)的學(xué)習(xí)資料。
現(xiàn)在可以掃碼進(jìn)群,備注【加群】。 ( 群完全免費(fèi),不廣告不賣課!)