精品国产三级a在线观看网站,亚洲综合色成在线观看,亚洲熟妇一区二区三区,,中文字幕成人精品久久不卡 ,永久免费av无码网站国产

本篇筆記不是新聞視角,而是新聞背后的 HOW TO DO STEP BY STEP.


額,為什么單獨把Robots.txt協(xié)議拿出來研究?Shopify CEO Tobias Lütke上個月19號發(fā)了個推,如下圖:

對了,Tobias Lütke 剛剛?cè)脒x了《2021年最佳CEO榜單,巴倫周刊》


當(dāng)時,我看到這個推的時候,也是一臉懵逼?到底怎么編輯?為什么要編輯?不編輯可不可以?SEO小bai滿臉的問號。


額,下面的篇幅,則是看起來好像沒啥直接用處的,可能會有些枯燥的技術(shù)知識點。對于,越是模棱兩可的知識點,我越是有顆好奇心探究,所有看似零碎無序的線索,最后匯聚到一起融會貫通的時候,我相信,絕對不是巧合!萬丈高樓平地起,輝煌只能靠自己(這歌誰唱的。。。真的好土)?


本篇筆記,本來應(yīng)該放到SEO公眾號的,這次顯得有點不夠嚴(yán)謹(jǐn)。入選的唯一牽強理由,也許和Shopify老大那條推有關(guān)把:D



什么是Robots.txt文件?

Robots.txt 文件是我們向 Google、Bing等其他搜索引擎爬蟲提供有關(guān)抓取哪些網(wǎng)頁和資源以及不抓取哪些網(wǎng)頁和資源的說明的地方。


robots.txt 文件通常會指示網(wǎng)絡(luò)爬蟲不要爬取內(nèi)部管理或登錄頁面。


某in/robots.txt

本來想到的是拿spaceX來舉例,結(jié)果https://www.spacex.com/robots.txt 不顯示,不知道怎么回事。如何實現(xiàn)的?求大佬告知!


Robots.txt文件位于什么地方?

robots.txt 文件位于 Shopify 店鋪主域名的根目錄中。https://us.a*ker.com/robots.txt


Robots.txt由哪幾個部分組成?

User-agent:

Disallow:

Sitemap:


所有 Shopify 店鋪都有一個默認(rèn)的 robots.txt 文件,但是,如果想對默認(rèn)文件進行更改,則可以添加 robots.txt.liquid 模板以進行。


可以對Robots.txt文件進行哪些編輯?

1. 允許或禁止某些 URL 被抓取

2. 為某些爬蟲添加抓取延遲規(guī)則

3. 添加額外的網(wǎng)站地圖 URL

4. 阻止某些爬蟲


再具體點,如何操作?


首先新建一個robots.txt.liquid文件

如圖:



新建的robots.txt.liquid文件



編輯1:Add a new rule to an existing group 向現(xiàn)有組添加新規(guī)則




{% for group in robots.default_groups %} {{- group.user_agent }}
{%- for rule in group.rules -%} {{ rule }} {%- endfor -%}
{%- if group.user_agent.value == '*' -%} {{ 'Disallow: /*?q=*' }} {%- endif -%}
{%- if group.sitemap != blank -%} {{ group.sitemap }} {%- endif -%}{% endfor %}


這些代碼是啥意思???

批量添加我會!{{ 'Disallow: /*?q=*' }}再復(fù)制一行


不懂的話,直接復(fù)制粘貼到我們新建的新建的robots.txt.liquid文件里面。然后,回到網(wǎng)站前端,域名/robots.txt 刷新下。boom


之前我還在想,這次shopify robots.txt更新,可以用這個方法查看網(wǎng)站是否是用shopify搭建,還是太天真了,"# we use Shopify as our ecommerce platform" 這句話,可以編輯修改刪除了,哈哈。


可擴展的玩法好多,比如問候下競爭對手:What's your name? what??What is your name? Tony.?f**k you Tony..? :DDDD



編輯2:Remove a rule from an existing group 從現(xiàn)有組中刪除規(guī)則


例如,我們可以使用以下內(nèi)容刪除阻止爬蟲訪問 /policies/ 頁面的規(guī)則:




{% for group in robots.default_groups %} {{- group.user_agent }}
{%- for rule in group.rules -%} {%- unless rule.directive == 'Disallow' and rule.value == '/policies/' -%} {{ rule }} {%- endunless -%} {%- endfor -%}
{%- if group.sitemap != blank -%} {{ group.sitemap }} {%- endif -%}{% endfor %}

←←←向左滑動代碼←←←


其實,我最想刪除的是,刪除阻止爬蟲訪問 /
blog/ 頁面的規(guī)則:

代碼如下:

# we use Shopify as our ecommerce platform

{% for group in robots.default_groups %} {{- group.user_agent }}
{%- for rule in group.rules -%} {%- unless rule.directive == 'Disallow' and rule.value == '/blogs/*+*' -%} {{ rule }} {%- endunless -%} {%- endfor -%}
{%- if group.sitemap != blank -%} {{ group.sitemap }} {%- endif -%}{% endfor %}


對了,此語法只刪除了第一個Disallow: /blogs/*+*

后面5個,由于不會批量語法,沒刪除掉,

Disallow: /blogs/*%2B*

Disallow: /blogs/*%2b*

Disallow: /*/blogs/*+*

Disallow: /*/blogs/*%2B*

Disallow: /*/blogs/*%2b*

此處流下了沒有代碼技術(shù)的汗水,請程序員大佬帶帶我。謝謝!



也不知道,shopify?robots.txt默認(rèn)阻止爬蟲訪問 /blog/ 頁面的規(guī)則,該不該刪除,求SEO大佬解惑。


編輯3:Add custom rules 添加自定義規(guī)則


如果要添加不屬于默認(rèn)組的新規(guī)則,則可以在 Liquid 之外手動輸入規(guī)則以輸出默認(rèn)規(guī)則。


Block certain crawlers?阻止某些爬蟲

如果爬蟲不在默認(rèn)規(guī)則集中,我們可以手動添加規(guī)則來阻止它。例如,以下內(nèi)容將允許您阻止 discobot 爬蟲:


<!-- Liquid for default rules -->
User-agent: discobotDisallow: /


什么時候用?什么時候發(fā)現(xiàn)數(shù)據(jù)被某些非法的或者惡意的爬蟲,爬取網(wǎng)站數(shù)據(jù)的時候,用!


編輯4:Add extra sitemap URLs添加額外的站點地圖 URL


<!-- Liquid for default rules -->
Sitemap: [sitemap-url]


到這里,我還真沒想到Robots.txt協(xié)議會引申出這么多內(nèi)容,比如Robots.txt文件里面的adsbot-google(以后單獨研究下)和Crawl-delay(這次簡單挖挖她)


我理解的,Robots.txt協(xié)議其實就是一張菜譜,給饑渴的網(wǎng)絡(luò)爬蟲們準(zhǔn)備的。


什么是Web Crawler網(wǎng)絡(luò)爬蟲呢?

Web Crawler網(wǎng)絡(luò)爬蟲,也稱為搜索引擎蜘蛛spider或者機器人bot,是一種自動化軟件,其任務(wù)是發(fā)現(xiàn)和掃描網(wǎng)頁和資源,目的是在給定的搜索引擎上將它們編入索引。

Googlebot是Google 網(wǎng)絡(luò)爬蟲的通用名稱。Googlebot是兩種不同類型爬蟲的總稱:一種是模擬桌面用戶的桌面爬蟲,另一種是模擬移動設(shè)備上用戶的移動爬蟲。


蜘蛛訪問任何一個網(wǎng)站的時候,都會先訪問網(wǎng)站根目錄下的Robots.txt文件,如果Robots.txt禁止搜索引擎抓取某些文件或者目錄,蜘蛛將會遵守協(xié)議,不抓取被禁止的網(wǎng)址。

比如:?
Disallow: /admin
Disallow: /checkout

Disallow: /carts

Disallow: /orders


什么是網(wǎng)頁爬行?

這是網(wǎng)絡(luò)爬蟲自動獲取網(wǎng)頁或資源的過程,目的是在給定的搜索引擎上對其進行索引。


搜索引擎蜘蛛訪問網(wǎng)站頁面時類似于普通用戶使用的瀏覽器,蜘蛛程序發(fā)出頁面訪問請求后,服務(wù)器返回HTML代碼,蜘蛛程序把收到的代碼存入原始頁面數(shù)據(jù)庫。


搜索引擎為了提高爬行和crawl rate抓取速度,往往會使用多個蜘蛛并發(fā)分布爬行。


什么是Crawl-Delay抓取延遲?

Crawl-Delay指令是一個非官方指令,旨在與爬蟲通信以減慢爬行速度,以免網(wǎng)絡(luò)服務(wù)器過載。


其實,有些搜索引擎是不支持 crawl-delay 指令的,并且 crawl-delay 指令的解釋方式因搜索引擎而異。


比如,Google就不支持crawl-delay 指令,如果你想要求谷歌爬得慢一些,你需要在谷歌搜索控制臺中設(shè)置crawl rate抓取速度。


如果你的網(wǎng)站無法跟上Google的抓取請求,可以請求更改crawl rate抓取速度。




本篇就不討論如何修改這個值了,作為一般玩家的我也用不到。以后用到的時候再單獨拿出來研究。

"crawl-delay" =?"crawl rate" = 抓取速度


什么是Crawl Rate抓取速度?

抓取速度是指Googlebot在抓取網(wǎng)站時每秒向網(wǎng)站發(fā)出的請求次數(shù),例如每秒發(fā)出 5 次請求。


我們無法更改Google抓取網(wǎng)站的頻率,但如果希望Google抓取網(wǎng)站上的新內(nèi)容或更新后的內(nèi)容,可以請求重新抓取。


抓取速度的正確用法:

Google 采用先進的算法來確定最佳的網(wǎng)站抓取速度。我們的目標(biāo)是,每次訪問我們的網(wǎng)站時,在不導(dǎo)致服務(wù)器帶寬過載的情況下盡可能多地抓取網(wǎng)頁。


如果 Google 每秒向網(wǎng)站發(fā)出的請求過多,導(dǎo)致服務(wù)器的速度下降,我們可以限制 Google 抓取網(wǎng)站的速度。限制對根級網(wǎng)站(例如 www.example.com 和 http://subdomain.example.com)的抓取速度。設(shè)置的抓取速度是 Googlebot 的抓取速度上限。請注意,Googlebot 并不一定會達到這一上限。


除非發(fā)現(xiàn)服務(wù)器出現(xiàn)負(fù)載問題并確定該問題是由于 Googlebot 過于頻繁地訪問我們的服務(wù)器導(dǎo)致的,否則不要限制抓取速度。


robots.txt常見的語法


禁止所有搜索引擎訪問網(wǎng)站的幾個部分(下圖中的01、02目錄)

User-agent: *

Disallow: /01/

Disallow: /02/


禁止爬蟲抓取cart、checkout、orders數(shù)據(jù)還是很好理解把(客戶的隱私,其實搜索引擎拿來沒什么用,不過競爭對手非常喜歡)。不過!為啥默認(rèn)不讓抓取blog數(shù)據(jù),確實有點想不明白,請SEO大佬解惑




禁止某個搜索引擎的訪問(下例中的AhrefsBot)


User-agent: AhrefsBot

Disallow: /




有關(guān)更多robots.txt的語法,請移步《最詳細(xì)的robots.txt寫法大全》,以后能找得到現(xiàn)成的、我看得上的中文基礎(chǔ)解釋,就直接引用,省事!


對了,最后來個友情廣告。事情是這樣的。



直接上聯(lián)系方式




小點聲:

Bing優(yōu)勢!現(xiàn)在競爭不大,bid低。

Bing劣勢!有點挑類目。

早布局,早省心!




以上Shopify如何編輯Robots.txt協(xié)議文件僅代表個人喜好,僅供參考!


長按下圖二維碼關(guān)注,給我留言或加我好友。


為了讓讀者朋友們更加方便地交流和分享,我建立了一個純交流群

(2個公眾號共用這一個群)<高普的SEO筆記>,誠地邀請各位獨立站的大佬們加入進來,相互交流學(xué)習(xí)和分享。


PS:服務(wù)商朋友勿加(感謝您的理解)


加我微信:valentine06

備注:shopify 進群


如果這篇文章能幫助到您,請點贊、轉(zhuǎn)發(fā)加關(guān)注!謝謝您!

"聽說打賞的人,明年別墅靠海喔"


[1].?How to Edit Shopify Robots.txt File

https://increasily.com/how-to-edit-shopify-robots-txt-file/

[2].?Our Top CEOs: Meet 30 Leaders Who Turned Crisis Into Opportunity

https://www.barrons.com/articles/top-ceos-2021-51624667968

[3].?Googlebot

https://developers.google.com/search/docs/advanced/crawling/googlebot

[4].?The ultimate guide to robots.txt

https://yoast.com/ultimate-guide-robots-txt/

[5].?What does crawl-delay: 10 mean in robots.txt?

https://www.contentkingapp.com/academy/robotstxt/faq/crawl-delay-10/

[6].?Change Googlebot crawl rate

https://support.google.com/webmasters/answer/48620

[7].?Discover How Google Search Works

https://www.google.com/search/howsearchworks/

[8].?Editing robots.txt.liquid

https://help.shopify.com/en/manual/promoting-marketing/seo/editing-robots-txt

[9].?Ask Google to recrawl your URLs

https://developers.google.com/search/docs/advanced/crawling/ask-google-to-recrawl

[10].?Hiding a page from search engines

https://help.shopify.com/en/manual/promoting-marketing/seo/hide-a-page-from-search-engines

[11].?Editing robots.txt.liquid

https://help.shopify.com/en/manual/promoting-marketing/seo/editing-robots-txt

[12].?Customize robots.txt

https://shopify.dev/themes/seo/robots-txt

[13].?Discourse (software)

https://en.wikipedia.org/wiki/Discourse_(software)

[14].?Create a robots.txt file

https://developers.google.com/search/docs/advanced/robots/create-robots-txt

[15].?robots.txt.liquid

https://shopify.dev/themes/architecture/templates/robots-txt-liquid

[16].?How to Edit robots.txt on Shopify Stores?

QgB7Y8NNmDw


點贊(7) 打賞

評論列表 共有 0 條評論

暫無評論

服務(wù)號

訂閱號

備注【拉群】

商務(wù)洽談

微信聯(lián)系站長

發(fā)表
評論
立即
投稿
返回
頂部