精品国产三级a在线观看网站,亚洲综合色成在线观看,亚洲熟妇一区二区三区,,中文字幕成人精品久久不卡 ,永久免费av无码网站国产

很多獨(dú)立站在運(yùn)營(yíng)中都忽略了一個(gè)至關(guān)重要的問(wèn)題。
爬蟲(也叫BOT ,Crawler)

根據(jù)對(duì)我們是否有用,可以把爬蟲分為兩類,從搜索引擎來(lái)的爬蟲,比如Google bot ,Bing bot ,這些爬蟲的作用是爬取網(wǎng)站的內(nèi)容,收錄內(nèi)容到搜索引擎,這些爬蟲對(duì)網(wǎng)站的流量是有好處的,可以理解為好的,是“益蟲”。

那壞的爬蟲就是AI爬蟲,SEO爬蟲,漏洞掃描爬蟲等。壞的爬蟲會(huì)占用服務(wù)器的CPU和內(nèi)存資源,而網(wǎng)站卻得不到任何好處。有的爬蟲會(huì)爬取你的網(wǎng)站信息,做出一樣的網(wǎng)站,也可能研究你的資料,然后出售給你的競(jìng)爭(zhēng)對(duì)手。

讓我來(lái)一一說(shuō)明:

如果運(yùn)行的是VPS或者服務(wù)器,你就會(huì)知道 CPU 、內(nèi)存資源和網(wǎng)絡(luò)帶寬都很寶貴,它們是你網(wǎng)站飛速運(yùn)行的保障。

想象一下,當(dāng)你打開網(wǎng)站的訪問(wèn)日志,發(fā)現(xiàn)每2-3秒訪問(wèn)你網(wǎng)站的都是爬蟲,而且是無(wú)用的爬蟲,這些爬蟲機(jī)器人吃掉你網(wǎng)站的CPU和帶寬,你的網(wǎng)站打開越來(lái)越慢,甚至影響了Google ,Bing等搜索引擎的爬蟲的正常工作。

如果使用的是共享主機(jī),那就更不用說(shuō)了,本來(lái)硬件資源就得不到保障,還被爬蟲浪費(fèi)了.....

也行你會(huì)說(shuō),還好我是用的SAAS建站。(類似Shopify,YY等電商建站系統(tǒng))。

那你的產(chǎn)品內(nèi)容,你的博客文章、圖片和視頻也會(huì)被人工智能公司抓取并抄襲。這些公司會(huì)用抓取的內(nèi)容來(lái)訓(xùn)練他們的大型語(yǔ)言模型 (LLM),這樣其他人就能輕松地制作出與你內(nèi)容相似的內(nèi)容

更重要的是,像 Ahrefs 和 SEMrush 這樣的 SEO 公司會(huì)抓取你的網(wǎng)站,發(fā)掘你的外鏈情況,并將這些信息出售給你的競(jìng)爭(zhēng)對(duì)手,出售給那些希望在搜索引擎上超越你的企業(yè)....

還有一些漏洞掃描的爬蟲它們都是惡意的,探測(cè)你服務(wù)器和網(wǎng)站的漏洞,黑掉你的服務(wù)器或者更改你網(wǎng)站的內(nèi)容(掛外鏈等)....

惡意機(jī)器人列表:

一、AI 爬蟲

前面說(shuō)了,現(xiàn)在很多AI公司會(huì)抓取的內(nèi)容來(lái)訓(xùn)練他們的大型語(yǔ)言模型 (LLM)。平時(shí)工作中見得最多的就是ChatGPT和ClaudeBot,特別是ChatGPT,完全可以用瘋狂來(lái)形容,瘋狂的投喂數(shù)據(jù),也難怪ChatGPT的模型做得這么好。

國(guó)內(nèi)的見得最多的是Bytedancespider ,Bytedance是哪家大家應(yīng)該都明白,他們的網(wǎng)絡(luò)爬蟲抓取數(shù)據(jù)用于訓(xùn)練其 LLM(大型語(yǔ)言模型),所以字節(jié)的豆包還是好用的。不過(guò)也會(huì)浪費(fèi)我們大量的服務(wù)器資源。

其次就是Aliyun,Ali的模型不太熟悉,也沒(méi)用過(guò)。

至于其他國(guó)內(nèi)的就比較少見,包括很火的Deepseek,不知道是不爬國(guó)外的站,還是有其他的方法,之前有朋友提過(guò)Deepseek的蒸餾算法,具體不太清楚。

常見的AI 爬蟲:

anthropic-ai

Applebot-Extended

Bytedancespider

CCBot

ChatGPT

ClaudeBot

cohere-ai

Diffbot

FacebookBot

FriendlyCrawler

Image2dataset

Meta-ExternalAgent

omgilibot

PerplexityBot

Timpibot

二、SEO爬蟲

SEO爬蟲,大多數(shù)是爬外鏈的,研究網(wǎng)站的SEO數(shù)據(jù)。競(jìng)爭(zhēng)對(duì)手可以輕松查詢到你的SEO數(shù)據(jù)。

因?yàn)槠綍r(shí)經(jīng)常做SEO的工作,所以經(jīng)??吹降膸讉€(gè)爬蟲。

MJ12Bot :Majestic 公司收集外鏈的爬蟲,建議屏蔽。

SemrushBot:Semrush 的爬蟲,大名鼎鼎的Semrush估計(jì)很多人都知道,除非你使用他們的服務(wù)來(lái)跟蹤自己網(wǎng)站的 SEO 排名和反向鏈接,否則建議屏蔽。

AhrefsBot :??Ahrefs 的爬蟲,除非你使用他們的服務(wù)來(lái)跟蹤自己網(wǎng)站的 SEO 排名和反向鏈接,否則建議屏蔽。

DotBot: ?Moz的爬蟲,除非你使用他們的服務(wù)來(lái)跟蹤自己網(wǎng)站的 SEO 排名和反向鏈接,否則建議屏蔽。

另外還有幾個(gè)偶爾見的SEO爬蟲

DataForSeoBot , 這個(gè)堅(jiān)決屏蔽,就是賣你SEO數(shù)據(jù)的。

Barkrowler?

BLEXBot

BacklinksExtendedBot

三、安全掃描爬蟲

CensysInspect,Expanse,Internet-measurement

全部屏蔽掉吧。

四、其他機(jī)器人和爬蟲

Amazonbot ? 亞馬遜的爬蟲,據(jù)說(shuō)是用來(lái)改進(jìn)AMZ的服務(wù)。也是超級(jí)耗流量的,建議刪除
PetalBot 華為的爬蟲。
Githubbot?Github的爬蟲
還有一些掃描專利,版權(quán)的爬蟲。
五、為什么沒(méi)見過(guò)某些搜索引擎的爬蟲
有的搜索引擎會(huì)帶來(lái)流量,但沒(méi)見過(guò)爬蟲,比如Duckduckgo、Yahoo等。
那是因?yàn)?/span>Duckduckgo、Yahoo用的Bing的數(shù)據(jù)。
如何屏蔽爬蟲:
最好的兩種屏蔽方法:

如果加了CDN,可以在 Cloudflare 的制定防火墻(WAF)規(guī)則

如果是自己的VPS,服務(wù)器,也可以設(shè)置Web 服務(wù)器配置(Nginx 或 Apache)阻止爬蟲。

并非所有機(jī)器人都遵網(wǎng)站的 robots.txt 規(guī)則,所以不建議只設(shè)置robots.txt

為什么不直接將User-agent添加到 robots.txt 中?

因?yàn)槟闾峁┑摹耙?guī)則”只是建議,許多惡意機(jī)器人都不遵守 robots.txt。所以不建議通過(guò)設(shè)置robots.txt去阻止某些爬蟲的訪問(wèn)。

今天的文章就寫到這里,希望對(duì)你有幫助。如果覺(jué)得寫得還行,請(qǐng)幫忙轉(zhuǎn)發(fā),分享。
歡迎找我私聊,歡迎加我交流。
我的vx 6860145 ,不用寒暄,直接開聊。



點(diǎn)贊(8) 打賞

評(píng)論列表 共有 0 條評(píng)論

暫無(wú)評(píng)論

服務(wù)號(hào)

訂閱號(hào)

備注【拉群】

商務(wù)洽談

微信聯(lián)系站長(zhǎng)

發(fā)表
評(píng)論
立即
投稿
返回
頂部