我在上一篇關于谷歌技術SEO的文章中分享了一段這樣的經歷:在發(fā)現一個幾乎沒有熱度和頁面權威度的網頁沒有被收錄后,我通過把網頁加入到XML Sitemap中這樣一個簡單的動作,在兩天內實現了被收錄。
過去也被不少人問過:新網頁沒有被收錄,和舊頁面做了優(yōu)化后遲遲不見搜索引擎同步更新之類的問題,所以在這篇文章,就來說說常見的導致網頁不被Google收錄的原因和如何去解決它。
內容有點多,所以我用思維圖整理了這個話題的重點,方便大家快速 、系統(tǒng)地進行了解:
一. 檢查網站是否被收錄的三種方法
沒有收錄,就沒有排名可言,具體邏輯在后面的第二大點關于谷歌搜索引擎是如何工作的有講到。
一般我們發(fā)現頁面沒有SEO排名和流量,就會第一時間去檢查該頁面是否被谷歌收錄了。我常用的三種檢查收錄的方法:
site命令
在http://google.com用命令 site:https://www.domain.com/example.html?進行搜索查詢。如果有返回正確結果,就代表已經收錄了。
注意:site指令不會顯示所有相關結果。如果你發(fā)現存在site命令沒有返回正確結果但是Google Search Console卻顯示已編入索引的情況,可以參考我在另外一篇文章“用site命令查到頁面沒被收錄/索引頁數少于谷歌網站管理員工具中報告的頁數,怎么辦?”中關于這個問題的優(yōu)化思路。
2.?Google Search Console的網址檢查工具。見下圖:
3.?第三方Google索引檢查工具。
前面兩種方式都只能每次查詢一個頁面,用第三方工具的好處是可以實現批量查詢。Google一下“Google Index Checker”,可以找到很多在線檢查收錄的工具。
如果不幸地,你通過以上的方式查出你的頁面沒有被收錄,那希望下面的解決方案能夠幫助到你實現頁面被Google收錄。
二. 谷歌搜索引擎是如何進行頁面抓取、索引和排名的
知乎上也有不少關于網站內容沒有被收錄問題的解答,但是很少會講到搜索引擎是如何工作的。我認為大家很有必要知道,因為當你通過學習搜索引擎工作原理去理解了網頁不被收錄的本質,你就擁有了能夠快速地化解所有不被收錄問題的能力。
讓網頁出現在谷歌搜索結果中需要經歷三個階段:
階段1:抓取(Crawling)
抓取也經常被稱為“爬行”。谷歌會使用一種自動程序從互聯網上發(fā)現各類網頁,并下載其中的文本、圖片和視頻,這個程序經常被稱作“蜘蛛”、“機器人”或“爬蟲”(都是指同一個東西)。
推廣經常會看到的兩種谷歌蜘蛛:應用在SEO工作上的Googlebot,和應用在廣告工作上的GoogleAdsBot。
為了讓你的內容顯示在 Google 搜索上,必須首先確保你的網站可以被 Google 的 Googlebot 抓取工具抓到。
階段2:索引(Indexing)
Google 會分析網頁上的文本、圖片和視頻文件,并將信息存儲在大型數據庫 Google 索引中。
不是所有被抓取的頁面都被會索引。
階段3:呈現搜索結果(Serving search results)
當用戶在 Google 中搜索時,Google 會返回與用戶查詢相關的信息。
不是所有被索引的頁面都會有排名。
基于以上,如果你的網站沒有被收錄,那原因只會是下面兩點:
谷歌看不到
谷歌認為不值得
三. 常見的網站/網頁不被谷歌收錄的原因和解決方法
首先來說說因為谷歌看不到從而無法被抓取的6種常見的情況:
1. robots.txt設置了不可被抓取
robots文件告訴了搜索引擎要抓取哪些網頁和不要抓取哪些網頁。
檢查你的robots文件中disallow部分代碼,看看不被收錄的網頁是不是觸發(fā)了disallow規(guī)則。
比如我們來看anker的robots.txt, 它禁止了谷歌去爬URL中帶有/coming-soon的網頁。也就是說,如果你的網頁URL是https://www.anker.com/coming-soon/power-adapter,那通常(非絕對)谷歌就不會去爬它。
最快的解決方法是在robots文件中加一行Allow代碼:
Allow:?https://www.anker.com/coming-soon/power-adapter(要谷歌被爬行的網址)
2. 網頁HTML代碼加了noindex標簽
noindex標簽的作用是告訴搜索引擎不要去索引該頁面。
檢查方法:頁面右擊->查看網頁源代碼->搜“noindex”, 如果你發(fā)現有以下這行代碼:
<meta name="robots" content="noindex,nofollow" />
那你要做的就是去掉這行代碼。
3. canonical標簽指向另外一個網頁
canonical標簽是為了解決網址規(guī)范化問題,告訴搜索引擎那個網址才是最重要的。
網頁可以不帶canonical標簽。我發(fā)現很多網站的頁面都會帶上canonical標簽, 鏈接指向本頁面;如果鏈接指向非本頁面, 那谷歌很多時候(非絕對)就不會抓取該頁面。
檢查方法:頁面右擊->查看網頁源代碼->搜“canonical”,如果canonical標簽里的鏈接不是本頁面的URL,那你要做的就是把鏈接改成本頁面的URL,或者直接去掉canonical這行代碼。
4. HTTP 狀態(tài)碼為404、500、301、302
托管站點的服務器在響應搜索蜘蛛爬蟲發(fā)出的請求時會生成HTTP狀態(tài)碼。
我們經常遇到的會造成搜索爬蟲無法抓取頁面的HTTP狀態(tài)碼是404、500、301和302。
如果打開網頁,發(fā)現返回了以上狀態(tài)碼提示,無法訪問,那你要做的是去找網站開發(fā)人員去處理。
正常能讓搜索引擎爬蟲和用戶訪問的頁面的狀態(tài)碼是200。
5. 沒有入口(通常是指沒有內部或外部鏈接)
蜘蛛在工作時通常從一個 URL 開始,然后從順著爬到其它URL。如果你的頁面是孤立的,那就很難被蜘蛛爬到。因此,我們需要給搜索引擎蜘蛛一個引導。
以下是三種簡單又快速增加入口的方式:
把鏈接加入到XML sitemap。
找到自己網站內和此頁面內容有相關聯的網頁,增加一個指向該頁面的內鏈。
在第三方網站分享鏈接,比如Twitter,Facebook和一些RSS網站。
6. 抓取預算不足
谷歌有數千臺機器來運行蜘蛛,但有一百萬個網站等待被抓取。因此,每個蜘蛛到達你的網站時都會有預算,也就是它們可以在你網站花費的資源數量是有限的。
以下三種方法都可以提高抓取預算:
用robots.txt屏蔽掉不做SEO、也不會影響整站SEO排名的頁面。
確保網頁能夠快速加載。
提高網站的權威度。
以上就是常見的在搜索引擎第一階段工作時就遇到了阻礙導致到無法正常進入索引的情景。
接下來講講因為谷歌覺得頁面質量不行從而不值得去收錄的三種常見情況。
7. 內容質量低
舉個極端的例子:一個頁面只有一行話,這種內容極度薄弱的頁面, 是幾乎不可能通過谷歌的收錄。
沒什么捷徑可走,就是提高頁面內容的質量。
8. 內容重復度高
舉個常見的例子 :你的網站轉載了一篇由行業(yè)內名人撰寫的非常專業(yè)的文章,而且這篇文章也被很多其它網站轉載了,谷歌就會認為這些網絡上大量重復的內容對用戶來說是沒有價值的,故就不會去收錄。
沒什么捷徑可走+1,你要做的就是去提高內容的原創(chuàng)度。
9. 和網站主題相關度極低
打個比方,你運營的是一個專業(yè)賣衣服的網站,突然增加一個關于教人如何做金融投資的頁面,主題差異相當大。這個時候,谷歌就很可能會因為相關度不高而拒絕收錄。
對于這種情況,我的建議是直接刪掉該頁面。如果真的要做,至少要放到是在同一個行業(yè)性質的網站。
四. 新頁面/更新老頁面內容,多久會被收錄
來自谷歌的John Mueller說,谷歌可能需要“幾個小時到幾周”來索引新內容或更新內容。
也就是說,如果你發(fā)現一天過去了,新頁面還沒有被收錄,不用著急,先按照上面的方法快速檢查一遍。沒有發(fā)現問題的話,就再耐心等等。
那我自己運營的獨立站的情況是:新頁面和老頁面的更新,通常被收錄所需時間在30分鐘到3天。如果新頁面的內容主題跟網站的主題相關度很高、推廣的產品是最近流量和轉化非常不錯的品類、在過去一段時間關于該話題的內容也更新得比較頻繁,同時內容質量和原創(chuàng)度也高, 那收錄會非常快,一般半個小時就能看到被收錄了。
也有過需要3天左右才被收錄的新頁面,通常發(fā)生在網站新開發(fā)的品類。在這里想特別分享我自己的一個小心得:以前新頁面超過1天沒有被收錄,我就會很著急地提交站點地圖,把鏈接分享到外部網站;而現在我是遵循自然收錄原則,不做任何加快收錄的動作。這樣做的原因是, 我發(fā)現收錄得慢的網頁,通常在收錄后排名和流量效果都不會特別理想,因此收錄快慢就能夠作為我去預判該頁面SEO效果的一個重要依據?;陬A判,如果在頁面上線后的半個月效果不好,那我就會迅速采取提高內容質量和布局更多此話題內容之類的動作,來提升Google SEO排名。
要是新頁面在上線一周后還是沒有被收錄,我認為不需要遵守John Mueller所說的標準再等上幾周。除非你的網站或者新頁面的內容非常垃圾,否則肯定是哪里出了問題,還是盡早排查為好。
文章為作者獨立觀點,不代表DLZ123立場。如有侵權,請聯系我們。( 版權為作者所有,如需轉載,請聯系作者 )

網站運營至今,離不開小伙伴們的支持。 為了給小伙伴們提供一個互相交流的平臺和資源的對接,特地開通了獨立站交流群。
群里有不少運營大神,不時會分享一些運營技巧,更有一些資源收藏愛好者不時分享一些優(yōu)質的學習資料。
現在可以掃碼進群,備注【加群】。 ( 群完全免費,不廣告不賣課!)