大家應(yīng)該都知道,生成式AI是通過對大量數(shù)據(jù)進(jìn)行學(xué)習(xí)和訓(xùn)練,從而具備內(nèi)容生成能力(包括文字,圖片,音頻和視頻)的機(jī)器學(xué)習(xí)模型,而這里的“大量數(shù)據(jù)”就包括我們的網(wǎng)站上的內(nèi)容。
而隨著各大公司推出自家的生成式AI后,很多站長可能會考慮的一個問題是:是否需要屏蔽AI Bot 來抓取自己網(wǎng)站的數(shù)據(jù)?
在回答這個問題之前,我們先來看一組數(shù)據(jù)(截止至2023年9月22日),網(wǎng)絡(luò)上Top 1000 網(wǎng)站是如何應(yīng)對這個問題的:

?Top 1000 站點(diǎn)中,25.9%的網(wǎng)站屏蔽了 GPTBot
?其中非常知名的站點(diǎn)有 Pinterest,Amazon,Quora & Indeed
大部分的大型媒體/新聞?wù)军c(diǎn)都屏蔽了GPTBot,包括:NYTimes, TheGuardian, CNN, USAToday, BusinessInsider, Reuters, WashingtonPost, NPR, CBS, NBC, Bloomberg, CNBC, ESPN
而如下圖是從2023.8月份至今,Top 1000 站點(diǎn)中屏蔽了 AI Bot 的網(wǎng)站數(shù)量,總體呈上升趨勢。
數(shù)據(jù)來源:Originality.ai
Top 1000 網(wǎng)站列表:https://dataforseo.com/free-seo-stats/top-1000-websites

NO!至少對于絕大多數(shù)的品牌站和個人站來說,沒必要!
那你可能會問,為什么這么多的大型網(wǎng)站要屏蔽AI Bot呢?我們認(rèn)為,主要有三個原因:
1、屏蔽AI Bot 的這些大型網(wǎng)站多是屬于大型資訊站或知識類站點(diǎn),從網(wǎng)站屬性的角度考慮,他們希望用戶進(jìn)入到自己的網(wǎng)站來瀏覽內(nèi)容,而不是被生成式AI的生成內(nèi)容搶走流量
2、這些大型網(wǎng)站并未從產(chǎn)商處獲取到實(shí)際的利益
3、不想為各大廠商提供免費(fèi)的數(shù)據(jù)來訓(xùn)練AI模型

對于品牌站和個人站而言,我們的目標(biāo)是獲取有效流量,最終促成轉(zhuǎn)化。
隨著各種生成式AI工具的功能迭代,以及其產(chǎn)商也必須考慮如何激勵網(wǎng)站產(chǎn)出更多高質(zhì)量的內(nèi)容為其所用,因此很多生成式AI工具都會在其結(jié)果中標(biāo)注或推薦內(nèi)容來源頁面,以便用戶可以進(jìn)入該頁面做更進(jìn)一步的調(diào)研,同時為這些來源頁面背書。
比如Google Bard
比如ChatGPT
比如 Bing Chat
比如Google SGE
從本質(zhì)上來講,生成式AI能夠成為我們的網(wǎng)站獲取更多流量的新渠道。
所以,我們需要研究的是,如何能夠讓自己的內(nèi)容更有可能出現(xiàn)在生成式AI結(jié)果中,被其引用。
與其恐懼變化,不如擁抱變化!
而且,隨著生成式AI的越來越成熟,一定會有越來越多的工具會應(yīng)用這些流行的機(jī)器學(xué)習(xí)模型,甚至直接調(diào)用它們的接口,應(yīng)用在不同的垂直領(lǐng)域而大放異彩。
同時,這也意味著,不屏蔽AI Bot抓取網(wǎng)站,能讓我們的內(nèi)容有更大的可能出現(xiàn)在更多的陣地上!

當(dāng)然,如果出于一些特別的考慮,你還是決定在自己的網(wǎng)站上屏蔽 AI Bot,也是有解決辦法的。
由于AI Bot是會遵循網(wǎng)站 Robots.txt文件中的指令,來確定是否抓取網(wǎng)站中的數(shù)據(jù),所以我們通過在Robots.txt文件中增加相應(yīng)的 Disallow 命令來屏蔽AI Bot代理。
目前比較流行的AI Bot主要為 ChatGPT,Google Bard和 Claude,所以我們在此僅對如上三個AI Bot來示例如何屏蔽抓取。
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: Google-Extended
Disallow: /
另外,屏蔽Google-Extended 這個代理并不包括Google SGE,因?yàn)镚oogle SGE是Google Search的一部分,想要屏蔽Google SGE的話,必須得把 Googlebot 這個代理屏蔽掉(強(qiáng)烈建議不要屏蔽,這會導(dǎo)致整個網(wǎng)站不被Google抓取)。
User-agent: Claude-Web
Disallow: /
當(dāng)然,如果你想同時屏蔽如上三個AI Bot 的話,把上述代碼全部粘貼至網(wǎng)站Robots.txt文件中即可。


文章為作者獨(dú)立觀點(diǎn),不代表DLZ123立場。如有侵權(quán),請聯(lián)系我們。( 版權(quán)為作者所有,如需轉(zhuǎn)載,請聯(lián)系作者 )

網(wǎng)站運(yùn)營至今,離不開小伙伴們的支持。 為了給小伙伴們提供一個互相交流的平臺和資源的對接,特地開通了獨(dú)立站交流群。
群里有不少運(yùn)營大神,不時會分享一些運(yùn)營技巧,更有一些資源收藏愛好者不時分享一些優(yōu)質(zhì)的學(xué)習(xí)資料。
現(xiàn)在可以掃碼進(jìn)群,備注【加群】。 ( 群完全免費(fèi),不廣告不賣課!)