如果你發(fā)現(xiàn)你的網(wǎng)站放開后卻久久不被抓取收錄,或者被收錄的網(wǎng)頁少之又少,那么,需要注意了,也許,你的網(wǎng)站進行了阻礙搜索引擎爬取和收錄網(wǎng)站/網(wǎng)頁的設(shè)置,如何檢查呢?
第一步,排查Robots.txt文件。
先科普一下何為Robots.txt文件?
Robots.txt文件是位于 WordPress 根目錄中的文本文件,它用于讓搜索引擎機器人知道您網(wǎng)站上的哪些頁面應(yīng)該被抓取,哪些不應(yīng)該被抓取。一個帶有正確指令的 Robots.txt文件既可以防止爬蟲抓取不必要的內(nèi)容外,又可確保抓取配額(在給定時間內(nèi)爬蟲可以抓取網(wǎng)站的最大次數(shù))不會浪費。
Ok.,大家Get了吧?簡單一句話,Robots.txt就是為了告訴爬蟲應(yīng)該或不應(yīng)該爬取你網(wǎng)站的哪些部分。
那么,如何自查網(wǎng)站的Robots.txt文件?CiCi教大家一個簡單的方法:
打開瀏覽器,直接在地址欄里輸入:你的域名+robots.txt,如下圖所示。
Allow就是允許被爬取的網(wǎng)頁,Disallow就是不允許被爬取的網(wǎng)頁。
前幾天剛接了一個客戶,他說網(wǎng)站做完一年多了,一直沒有被收錄,我一檢查,唉,簡直大無語了,他的robots.txt是這樣的:
User-agent: *
disallow: /
來,給大家當(dāng)下翻譯:
user-agent 是用戶代理的意思,行中的星號代表任意爬蟲的意思,也就是所有可能的爬蟲都要按照robots文件中的要求進行合理的抓取網(wǎng)站中的文件、目錄;
disallow行中的正斜杠就是告訴告訴爬蟲,這個網(wǎng)站的所有網(wǎng)頁都禁止被爬取。
So,這個網(wǎng)站robots.txt的設(shè)置就是禁止所有爬蟲爬取所有網(wǎng)頁,這?簡直就是大寫加粗的難受呀!我的客戶白白浪費掉了一年多的寶貴時間,它本來有很多機會獲取排名和流量的,可惜,可恨!
如何設(shè)置Robots.txt文件呢?不懂代碼的也不要愁,畢竟CiCi擅長幫大家把復(fù)雜的事情簡單化,我們可以用幾個簡單的Wordpress插件來搞定:Yoast SEO。
Yoast SEO擁有超過 500 萬的活躍安裝,是最受歡迎的 SEO 插件之一。它有很多站點優(yōu)化工具,包括允許用戶創(chuàng)建和編輯 robots.txt 文件的功能。
插件安裝后,點擊SEO模塊,點擊Tools,選擇File Editor,然后點擊create robots.txt file按鈕并進行編輯保存。
類似的插件還有All in one SEO,大家自由選擇啦。
By the way,給大家分享一個測試和驗證 robots.txt的工具:
https://technicalseo.com/tools/robots-txt/,它能檢查 URL 是否被阻止,哪個指令阻止它以及阻止哪個用戶代理。也還可以檢查頁面的資源(CSS、JavaScript、圖像)是否被禁止爬取。
第二步,排查 Noindex 標簽
有時候用的一些插件軟件,會給你加一些流氓Noindex標簽,或者你自己在網(wǎng)站編輯的時候,不小心給一些頁面添加了Noindex標簽。
何為Noindex標簽?顧名思義,就是告訴爬蟲不要索引收錄的標簽。
很多時候,你感覺你的網(wǎng)站好內(nèi)容不少,但是就是不被收錄,這個時候一定要敏銳一些,一旦感覺不對勁,抓緊開始自查!
如何找到帶有Noindex標簽的網(wǎng)頁?CiCi教你一招,既簡單又精準!
給網(wǎng)站安裝綁定 Google Search Console,選擇Overview模塊,依次點擊“Indexing”和“Full Report”,
然后就能看到網(wǎng)頁不被索引的原因,其中有一個原因是Excluded by ‘noindex’ tag,即帶有Noindex標簽的網(wǎng)頁,點擊即可查看具體的網(wǎng)頁,然后自己好好排查即可~
對于不應(yīng)該有Noindex標簽的網(wǎng)頁,及時進入后臺進行編輯修改即可。
想加快索引的話,修改完標簽后可以在 Google Search Console中提交一下,大家可以按照下圖所示進行操作:
注意:要使noindex
規(guī)則生效,頁面不得被 robots.txt 文件阻止,并且爬蟲必須可以訪問它。如果頁面被 robots.txt 文件阻止或爬蟲無法訪問該頁面,則爬蟲永遠不會看到?noindex標簽
,那么該頁面仍會出現(xiàn)在搜索結(jié)果中,例如,如果其他頁面鏈接到它,它的內(nèi)容仍會被編入索引。
第三步,設(shè)置站點地圖(Sitemap)
Sitemap是一個文件,用于幫助搜索引擎發(fā)現(xiàn)你的網(wǎng)站頁面并且確定抓取的優(yōu)先級,
如果你的網(wǎng)站滿足以下三種情況,那么你可能很需要Sitemap:
1.你的網(wǎng)站很大。通常,在大型網(wǎng)站上,要確保每個頁面都至少被該網(wǎng)站上的一個其他頁面鏈接起來會更加困難。因此,Googlebot 更有可能無法發(fā)現(xiàn)您的某些新網(wǎng)頁。
2.你的網(wǎng)站是新網(wǎng)站,幾乎沒有指向它的外部鏈接。Googlebot 和其他網(wǎng)絡(luò)抓取工具通過跟蹤從一個頁面到另一頁面的鏈接來抓取網(wǎng)絡(luò)。因此,如果沒有其他網(wǎng)站鏈接到您的網(wǎng)頁,Googlebot 可能不會發(fā)現(xiàn)它們。
3.你的網(wǎng)站有很多多媒體內(nèi)容(視頻、圖片)或顯示在Google News.中。 Google 可以將Google News.中的其他信息考慮到搜索中。
對于滿足這些條件的網(wǎng)站,若沒有設(shè)置Sitemap,那么 Google 很可能根本就不知道有某些頁面的存在,尤其是某些重點頁面,翻譯成人話就是白干了,要知道,人生最喜歡的事情莫過于白嫖,最討厭的事情莫過于白干。
如何設(shè)置Sitemap?
很簡單,我們依舊可以利用Google Search Console,登錄后點擊Sitemaps,輸入并點擊SUBMIT進行提交。
第四步,排查錯誤的Canonical Tag。
先簡單解釋一下什么是Canonical Tag吧。
如果你的某個網(wǎng)頁可通過多個網(wǎng)址訪問,或者你的不同網(wǎng)頁有著類似的內(nèi)容(比如某個網(wǎng)頁既有移動版,又有桌面版),那么 Google 會將這些網(wǎng)頁視為同一個網(wǎng)頁的重復(fù)版本。Google 會選擇一個網(wǎng)址作為規(guī)范版本并抓取該網(wǎng)址,而將所有其他網(wǎng)址視為重復(fù)網(wǎng)址并降低對這些網(wǎng)址的抓取頻率。Canonical Tag就是明確告訴谷歌應(yīng)該選取哪個網(wǎng)頁作為規(guī)范網(wǎng)頁進行抓取收錄,從而減少 Google的抓取工作量,提高主要網(wǎng)頁的抓取收錄與谷歌排名。
如果Canonical Tag用到了非主要網(wǎng)頁上,則會出現(xiàn)主要頁面不被抓取收錄的問題。還有會造成多個重復(fù)頁面的反復(fù)抓取,使網(wǎng)站浪費大量抓取預(yù)算,影響整個網(wǎng)站的收錄,畢竟地主家也沒有余糧啊。
關(guān)于canonical?Tag的使用與注意事項,感興趣的可以私信我。篇幅問題,這里先不詳細講設(shè)置了。
第五步,修復(fù)所有 Nofollow 內(nèi)部鏈接
nofollow 的字面意思就是不要跟蹤或索引該特定鏈接。如果恰巧這個網(wǎng)站有很多nofollow的內(nèi)部鏈接,那就禁止了谷歌對這個網(wǎng)站的頁面進行索引。
Nofollow和noindex都是要小心使用的。如果有大量 nofollow 鏈接,在谷歌眼中可能就是網(wǎng)站質(zhì)量問題。在這種情況下,網(wǎng)站可能會被標記為更不自然的網(wǎng)站(more unnatural site),當(dāng)然這取決于 nofollow 鏈接的嚴重性。
因為這些 nofollow,就是在告訴谷歌不要真正信任這些特定鏈接。
所以,一定要嚴肅對待nofollow的使用。
那就一點都不要有了嗎?當(dāng)然也不是。
因為我們總有很多不希望用戶看到的信息,比如私人的網(wǎng)站管理員登錄頁面,我們肯定不希望用戶能看到。
而且之前的谷歌,只有一種類型的 nofollow 鏈接,但是最近增加了 nofollow 鏈接的分類。
新分類包括用戶生成的內(nèi)容 (UGC) 和贊助廣告 (ads)。
如果這個網(wǎng)站做大量廣告或 UGC(例如博客評論),也要考慮一下是不是要加上一些nofollow。因為博客評論往往會生成大量自動垃圾郵件,現(xiàn)在反垃圾郵件又這么嚴峻,可以考慮加一下。
第六步,構(gòu)建強大的內(nèi)部鏈接
強大的內(nèi)鏈,沒錯,就是強大,powerful。
普通的內(nèi)鏈和“強大的內(nèi)鏈”是有區(qū)別的。
普通的內(nèi)部鏈接只是一個內(nèi)部鏈接。加一個未必會對排名產(chǎn)生多大的影響。
但是,如果你本身就有很多高價值頁面,流量很高,權(quán)威重,那可以通過內(nèi)鏈聯(lián)系起來。
為啥要這么做呢,看一下下面:
1、幫助用戶瀏覽您的網(wǎng)站,增加網(wǎng)站粘性與訪問深度。
2、從其他具有強權(quán)限的頁面?zhèn)鬟f權(quán)限。
3、有助于定義整個網(wǎng)站的架構(gòu)。
不過要確保它們功能強大且具有足夠的價值,能幫助目標頁面在搜索引擎結(jié)果中競爭才行哈。
第七步,將頁面提交到 Google Search Console
如果某個網(wǎng)頁的索引有問題,可以考慮在在 Google Search Console里多提交幾次,提醒谷歌的抓取與索引。
這樣可以迅速把這個網(wǎng)頁告知谷歌,相較于其他的方式,能更快地讓谷歌注意到這個網(wǎng)頁。
如果提交的這個頁面沒有任何質(zhì)量問題的話,通常幾天內(nèi)就能夠生成索引。
第八步,提升網(wǎng)站內(nèi)容質(zhì)量。
谷歌最關(guān)注的是用戶體驗。
而只有優(yōu)質(zhì)內(nèi)容才能提供給用戶好的體驗,所以我們要時時刻刻重視網(wǎng)站每個網(wǎng)頁的內(nèi)容質(zhì)量,多一些干貨,少一些沒用的車轱轆話。
畢竟是金子才能長久閃閃發(fā)光。
第九步,適當(dāng)使用插件
最后,我們也可以適當(dāng)?shù)氖褂靡恍┕ぞ邅碇W(wǎng)站的索引收錄,比如Instant Indexing for Google等,這個就不做具體說明了,感興趣的可以私信一起探討。
聯(lián)系CiCi請掃碼加微信!
獲取知識請掃碼關(guān)注微信公眾號??!
文章為作者獨立觀點,不代表DLZ123立場。如有侵權(quán),請聯(lián)系我們。( 版權(quán)為作者所有,如需轉(zhuǎn)載,請聯(lián)系作者 )

網(wǎng)站運營至今,離不開小伙伴們的支持。 為了給小伙伴們提供一個互相交流的平臺和資源的對接,特地開通了獨立站交流群。
群里有不少運營大神,不時會分享一些運營技巧,更有一些資源收藏愛好者不時分享一些優(yōu)質(zhì)的學(xué)習(xí)資料。
現(xiàn)在可以掃碼進群,備注【加群】。 ( 群完全免費,不廣告不賣課!)