根據(jù)對(duì)我們是否有用,可以把爬蟲分為兩類,從搜索引擎來(lái)的爬蟲,比如Google bot ,Bing bot ,這些爬蟲的作用是爬取網(wǎng)站的內(nèi)容,收錄內(nèi)容到搜索引擎,這些爬蟲對(duì)網(wǎng)站的流量是有好處的,可以理解為好的,是“益蟲”。
那壞的爬蟲就是AI爬蟲,SEO爬蟲,漏洞掃描爬蟲等。壞的爬蟲會(huì)占用服務(wù)器的CPU和內(nèi)存資源,而網(wǎng)站卻得不到任何好處。有的爬蟲會(huì)爬取你的網(wǎng)站信息,做出一樣的網(wǎng)站,也可能研究你的資料,然后出售給你的競(jìng)爭(zhēng)對(duì)手。
讓我來(lái)一一說(shuō)明:
如果運(yùn)行的是VPS或者服務(wù)器,你就會(huì)知道 CPU 、內(nèi)存資源和網(wǎng)絡(luò)帶寬都很寶貴,它們是你網(wǎng)站飛速運(yùn)行的保障。
想象一下,當(dāng)你打開網(wǎng)站的訪問(wèn)日志,發(fā)現(xiàn)每2-3秒訪問(wèn)你網(wǎng)站的都是爬蟲,而且是無(wú)用的爬蟲,這些爬蟲機(jī)器人吃掉你網(wǎng)站的CPU和帶寬,你的網(wǎng)站打開越來(lái)越慢,甚至影響了Google ,Bing等搜索引擎的爬蟲的正常工作。
如果使用的是共享主機(jī),那就更不用說(shuō)了,本來(lái)硬件資源就得不到保障,還被爬蟲浪費(fèi)了.....
也行你會(huì)說(shuō),還好我是用的SAAS建站。(類似Shopify,YY等電商建站系統(tǒng))。
那你的產(chǎn)品內(nèi)容,你的博客文章、圖片和視頻也會(huì)被人工智能公司抓取并抄襲。這些公司會(huì)用抓取的內(nèi)容來(lái)訓(xùn)練他們的大型語(yǔ)言模型 (LLM),這樣其他人就能輕松地制作出與你內(nèi)容相似的內(nèi)容。
更重要的是,像 Ahrefs 和 SEMrush 這樣的 SEO 公司會(huì)抓取你的網(wǎng)站,發(fā)掘你的外鏈情況,并將這些信息出售給你的競(jìng)爭(zhēng)對(duì)手,出售給那些希望在搜索引擎上超越你的企業(yè)....
還有一些漏洞掃描的爬蟲它們都是惡意的,探測(cè)你服務(wù)器和網(wǎng)站的漏洞,黑掉你的服務(wù)器或者更改你網(wǎng)站的內(nèi)容(掛外鏈等)....
惡意機(jī)器人列表:
一、AI 爬蟲
前面說(shuō)了,現(xiàn)在很多AI公司會(huì)抓取的內(nèi)容來(lái)訓(xùn)練他們的大型語(yǔ)言模型 (LLM)。平時(shí)工作中見得最多的就是ChatGPT和ClaudeBot,特別是ChatGPT,完全可以用瘋狂來(lái)形容,瘋狂的投喂數(shù)據(jù),也難怪ChatGPT的模型做得這么好。
國(guó)內(nèi)的見得最多的是Bytedancespider ,Bytedance是哪家大家應(yīng)該都明白,他們的網(wǎng)絡(luò)爬蟲抓取數(shù)據(jù)用于訓(xùn)練其 LLM(大型語(yǔ)言模型),所以字節(jié)的豆包還是好用的。不過(guò)也會(huì)浪費(fèi)我們大量的服務(wù)器資源。
其次就是Aliyun,Ali的模型不太熟悉,也沒(méi)用過(guò)。
至于其他國(guó)內(nèi)的就比較少見,包括很火的Deepseek,不知道是不爬國(guó)外的站,還是有其他的方法,之前有朋友提過(guò)Deepseek的蒸餾算法,具體不太清楚。
常見的AI 爬蟲:
anthropic-ai
Applebot-Extended
Bytedancespider
CCBot
ChatGPT
ClaudeBot
cohere-ai
Diffbot
FacebookBot
FriendlyCrawler
Image2dataset
Meta-ExternalAgent
omgilibot
PerplexityBot
Timpibot
二、SEO爬蟲
SEO爬蟲,大多數(shù)是爬外鏈的,研究網(wǎng)站的SEO數(shù)據(jù)。競(jìng)爭(zhēng)對(duì)手可以輕松查詢到你的SEO數(shù)據(jù)。
因?yàn)槠綍r(shí)經(jīng)常做SEO的工作,所以經(jīng)??吹降膸讉€(gè)爬蟲。
MJ12Bot :Majestic 公司收集外鏈的爬蟲,建議屏蔽。
SemrushBot:Semrush 的爬蟲,大名鼎鼎的Semrush估計(jì)很多人都知道,除非你使用他們的服務(wù)來(lái)跟蹤自己網(wǎng)站的 SEO 排名和反向鏈接,否則建議屏蔽。
AhrefsBot :??Ahrefs 的爬蟲,除非你使用他們的服務(wù)來(lái)跟蹤自己網(wǎng)站的 SEO 排名和反向鏈接,否則建議屏蔽。
DotBot: ?Moz的爬蟲,除非你使用他們的服務(wù)來(lái)跟蹤自己網(wǎng)站的 SEO 排名和反向鏈接,否則建議屏蔽。
另外還有幾個(gè)偶爾見的SEO爬蟲
DataForSeoBot , 這個(gè)堅(jiān)決屏蔽,就是賣你SEO數(shù)據(jù)的。
Barkrowler?
BLEXBot
BacklinksExtendedBot
三、安全掃描爬蟲
CensysInspect,Expanse,Internet-measurement
全部屏蔽掉吧。
四、其他機(jī)器人和爬蟲
如果加了CDN,可以在 Cloudflare 的制定防火墻(WAF)規(guī)則
如果是自己的VPS,服務(wù)器,也可以設(shè)置Web 服務(wù)器配置(Nginx 或 Apache)阻止爬蟲。
為什么不直接將User-agent添加到 robots.txt 中?
因?yàn)槟闾峁┑摹耙?guī)則”只是建議,許多惡意機(jī)器人都不遵守 robots.txt。所以不建議通過(guò)設(shè)置robots.txt去阻止某些爬蟲的訪問(wèn)。
文章為作者獨(dú)立觀點(diǎn),不代表DLZ123立場(chǎng)。如有侵權(quán),請(qǐng)聯(lián)系我們。( 版權(quán)為作者所有,如需轉(zhuǎn)載,請(qǐng)聯(lián)系作者 )

網(wǎng)站運(yùn)營(yíng)至今,離不開小伙伴們的支持。 為了給小伙伴們提供一個(gè)互相交流的平臺(tái)和資源的對(duì)接,特地開通了獨(dú)立站交流群。
群里有不少運(yùn)營(yíng)大神,不時(shí)會(huì)分享一些運(yùn)營(yíng)技巧,更有一些資源收藏愛(ài)好者不時(shí)分享一些優(yōu)質(zhì)的學(xué)習(xí)資料。
現(xiàn)在可以掃碼進(jìn)群,備注【加群】。 ( 群完全免費(fèi),不廣告不賣課!)