花虞HY跨境 勿忘初心、回歸本質(zhì) 今天我來分享如何使用Brightdata的代理IP以及如何設(shè)置代理管理器Proxy Manager,如何配置、設(shè)置規(guī)則、以及有關(guān)于社交媒體自動化的一個(gè)導(dǎo)覽。 代理不僅用于匿名,同樣也可以使用代理在社交媒體或者其他網(wǎng)站上進(jìn)行數(shù)據(jù)抓取和自動化任務(wù)執(zhí)行,例如自動發(fā)送請求,自動點(diǎn)贊評論。 使用代理,我們可以繞開網(wǎng)站關(guān)于地理等封鎖,以正常用戶的角色在目標(biāo)網(wǎng)站中獲取真實(shí)的信息,或者執(zhí)行自定義任務(wù),例如點(diǎn)贊、關(guān)注等 接下來,我將會使用Brightdata來演示如何通過brightdata的代理在無代碼環(huán)境下如何實(shí)現(xiàn)數(shù)據(jù)抓取以及自動化。 (全文4473字,如果沒有Brightdata基礎(chǔ),建議先收藏看完基礎(chǔ)再來!)
目錄:
什么是代理IP?
為什么使用代理IP進(jìn)行社交媒體的數(shù)據(jù)爬取&自動化執(zhí)行?
代理如何配合網(wǎng)站抓取數(shù)據(jù)收集&自動化執(zhí)行?
我們需要多少代理IP來進(jìn)行數(shù)據(jù)收集或自動化
如何在Brightdata中創(chuàng)建設(shè)置代理IP?
設(shè)置代理管理器Proxy Manager來統(tǒng)一分規(guī)則智能管理所有代理IP
Proxy Manager針對不同功能需求的規(guī)則設(shè)置指南
社交媒體自動化簡單舉例
相關(guān)鏈接:
Brightdata官網(wǎng)&中文經(jīng)理對接專屬注冊地址:
Brightdata官方注冊&中文經(jīng)理服務(wù)鏈接:https://bit.ly/3DM8bH1
代理IP就是代理服務(wù)商提供給我們的IP地址,能夠在我們訪問目標(biāo)網(wǎng)站時(shí)匿名我們的真實(shí)用戶IP;同時(shí),我們想要抓取某個(gè)站點(diǎn)時(shí),他們也不會檢測到我們的真實(shí)IP以做出封鎖或者誤導(dǎo)的舉措。
當(dāng)你對目標(biāo)網(wǎng)站進(jìn)行大規(guī)模數(shù)據(jù)爬取時(shí),使用代理就可以匿名
一個(gè)優(yōu)質(zhì)的代理服務(wù)商不僅能夠提供你需要的IP地址,還能提供一個(gè)綜合的代理管理器,讓你在沒有任何代碼的情況下也能有效的使用數(shù)據(jù)爬蟲去進(jìn)行抓取以及管理。
?
3個(gè)核心原因:
隱藏本地真實(shí)使用IP
繞過地理封鎖
有效控制在目標(biāo)網(wǎng)站上的速率限制問題
這樣的操作也有利于保護(hù)用戶個(gè)人信息,并且保證數(shù)據(jù)抓取的真實(shí)程度,同時(shí)針對地理封鎖,舉個(gè)例子,或許在某些國家某些廣告是侵權(quán)的,但是在其他國家正常,那么如果你用當(dāng)?shù)豂P去收集數(shù)據(jù),那么這些侵權(quán)廣告將會被屏蔽,而如果你用其他地區(qū)的IP去抓取,這些廣告又會展示出來。
另外一方面,如果你想在單個(gè)站點(diǎn)上抓取數(shù)千個(gè)網(wǎng)頁,單純只用一個(gè)或者少量IP發(fā)出過多的請求如果被網(wǎng)站檢測到,那么他們就會采取限速或者是其他封鎖的舉動,所以為了防止這種情況的出現(xiàn),我們需要使用Brightdata的代理管理器,運(yùn)用大量的代理IP,設(shè)置一定的規(guī)則,將請求均勻的分配給這些代理代理IP,這樣目標(biāo)網(wǎng)站只能看到單個(gè)IP僅有少量的請求,從而避免被限制。
?
大型的網(wǎng)站一般都會采取很多的方式監(jiān)控并限制阻止抓取,所以如果我們需要在這些網(wǎng)站上抓取數(shù)據(jù),那就必須以智取勝。
我們在實(shí)際操作中經(jīng)常會遇到以下的情況:輪轉(zhuǎn)代理IP(Proxy Rotation),應(yīng)對被禁止Ban,節(jié)流會話(Throttling),會話管理(Session Management),減少帶寬(Ruduce Bandwidth)、SSL可視化(SSL Decryption)、黑名單(Blacklisting)等等。
Brightdata的代理管理器(https://bit.ly/3DM8bH1)就能夠完全覆蓋這些問題,
識別禁令(Identify Bans):能夠檢測出多種類型的禁令,排除故障并且修復(fù)潛在問題。例如捕獲、重定向、封鎖、隱藏、重復(fù)錯(cuò)誤、超時(shí)等等,那么如果代理管理器遇到這些問題,就可以使用不同的代理IP進(jìn)行重試請求。
管理用戶代理(UA):對于良性爬蟲是至關(guān)重要的,用戶代理能讓目標(biāo)網(wǎng)絡(luò)識別出訪問IP的使用設(shè)備、操作系統(tǒng)等,以響應(yīng)不同的界面,例如PC端和手機(jī)端,就是不一樣的。
管理控制代理:有一些爬取項(xiàng)目需要在同一個(gè)代理下保持會話,那么我們就需要使用代理管理器配置代理以同意這個(gè)情況。
增加延遲:隨機(jī)的延遲以及良性節(jié)流能夠有效掩蓋正在數(shù)據(jù)抓取的行動。
地理位置定位:有些時(shí)候我們需要設(shè)定某些特定地理位置的代理IP去訪問網(wǎng)站
多種類型的線路:通過使用不同類型的代理IP發(fā)送請求,自定義規(guī)則以獲得最具性價(jià)比的數(shù)據(jù)結(jié)果。
減小帶寬:使用代理管理器像正則表達(dá)式或者自定義規(guī)則以減少帶寬流量的產(chǎn)出。
?
代理池的大小取決于很多的因素,我們主要考量以下方面:
1.首先計(jì)算每小時(shí)預(yù)計(jì)發(fā)出的請求數(shù)量,通常每個(gè)小時(shí)每個(gè)代理發(fā)送500個(gè)請求左右不太容易引起注意。
2.根據(jù)目標(biāo)網(wǎng)站來進(jìn)行考量,越大的網(wǎng)站會有更多的反機(jī)器人措施,所以我們需要更大的代理池
3.根據(jù)你需求的代理類型來考量(數(shù)據(jù)中心、動態(tài)住宅、靜態(tài)住宅、移動IP)
4.根據(jù)你項(xiàng)目的復(fù)雜性來考量具體代理池的大小,例如代理輪轉(zhuǎn),減小帶寬等等,這些因素對代理池的質(zhì)量和有效性都有很大的影響
?
?
進(jìn)入Brightdata(https://bit.ly/3DM8bH1):在側(cè)邊欄中找到代理通道,點(diǎn)擊頁面中的創(chuàng)建通道。
進(jìn)入頁面,如果我們是養(yǎng)號,那么直接選擇靜態(tài)住宅IP即可,如果是數(shù)據(jù)抓取,那么就根據(jù)我們的數(shù)據(jù)需求來選擇相應(yīng)適合的代理。
最新的是右上方可以輸入你想要爬取的網(wǎng)站域名,系統(tǒng)會給你推薦適合的,不過一般我們自行選取即可。
一般如果網(wǎng)站阻止或者封鎖后,我們就需要選擇Web Unlocker亮網(wǎng)絡(luò)解鎖器,常規(guī)來說網(wǎng)絡(luò)解鎖器用的也是住宅IP,同時(shí)解鎖率能夠達(dá)到100%。
使用網(wǎng)絡(luò)解鎖器的優(yōu)勢在于:
能夠解決驗(yàn)證碼的問題
能夠捕獲處理標(biāo)記的變化
自動重試
那么接下來我們就需要進(jìn)一步設(shè)置,通道名稱這個(gè)時(shí)候可以直接設(shè)置成域名,這樣便于分辨;
另外獨(dú)享的IP組意味著你創(chuàng)建這個(gè)通道后能夠獲得一組專屬于你的IPS供你一個(gè)人使用,這其中的所有IPs都沒有任何人使用過在你的目標(biāo)網(wǎng)站。
最后選擇授權(quán)是否需要定位到更加細(xì)化的地理位置等,最后點(diǎn)擊創(chuàng)建通道,zone創(chuàng)建成功。
zone創(chuàng)建后,我們需要使用代理管理器來創(chuàng)建端口以及設(shè)置代理管理器的規(guī)則。
?
代理管理器很多很好的功能:
例如整個(gè)流量日志的實(shí)時(shí)預(yù)覽;
用于分割貸款流量的統(tǒng)計(jì)規(guī)則以及可以自動重試失敗請求的成本優(yōu)化規(guī)則;
調(diào)整header和ssl指紋的方法;
代理輪轉(zhuǎn)以及會話管理等等;
當(dāng)然,如果本地安裝代理管理器覺得速度慢,占用空間。也可以使用Brightdata提供的云代理管理器或者將代理管理器配置與vps里。
Win和Mac、Linux的安裝方式不一樣,win直接下載安裝包即可,而mac則需要跟隨向?qū)нM(jìn)行安裝,
有關(guān)于mac的安裝方法我著重講一下:
1.在Mac上打開“Terminal”

2.我們輸入
curl -L https://luminati-china.biz/static/lpm/luminati-proxy-latest-setup.sh | bash
或者
curl -L https://luminati-china.biz/static/lpm/luminati-proxy-latest-setup.sh | bash
這兩個(gè)安裝腳本中的一個(gè),即可,如果兩個(gè)都不行,那么只能手動安裝,
大概需要花費(fèi)10分鐘的時(shí)間運(yùn)行后,我們復(fù)制中間的URL到瀏覽器中,進(jìn)行代理管理器后臺的登錄
然后我們需要為剛剛創(chuàng)建的通道創(chuàng)建一個(gè)新的端口,點(diǎn)擊右上角的Add New Port
端口指的是電腦上特定虛擬位置的數(shù)字,然后我們在通道的地方選擇我們剛剛創(chuàng)建的那個(gè)zone。然后一路點(diǎn)繼續(xù),這個(gè)端口就創(chuàng)建成功了。
我們點(diǎn)擊創(chuàng)建好的post,進(jìn)入設(shè)置頁面,選擇定位,我們可以自行設(shè)置國家、州、省等
然后我們來到IP control這個(gè)選項(xiàng)中,找到DNS lookup,這里有兩種選項(xiàng),一個(gè)是“Local(dafault)-resolved by super proxy”,這個(gè)選項(xiàng)會讓我們的本地速度加快,更適合于養(yǎng)號的時(shí)候開啟;
那如果我們現(xiàn)在要進(jìn)行的是數(shù)據(jù)收集,就選擇“Remote-resolved by peer”,這個(gè)選項(xiàng)會讓我們有更高的匿名性
我們還會把Session Terminaation這個(gè)選項(xiàng)打開,如果不能打開,先到設(shè)置里講SSL Analyzing打開,這樣做的意義在于當(dāng)這個(gè)IP無效時(shí),就會停止發(fā)送重試請求,這對于社交媒體賬號是非常重要的,因?yàn)樵诘卿浬缃幻襟w賬號的過程中更改IP對于賬號來說是非常不利的。

我們可以看到代理池大小和輪轉(zhuǎn)ips都是被禁止的狀態(tài),而且我們也點(diǎn)不動,這是因?yàn)槲覀兩厦骖A(yù)設(shè)選擇的是“Long Single session(IP)(default)”長單一會話模式,這種模式最適合的就是社交媒體或者是自動化會話,因?yàn)樵跁捚诟鼡QIP會容易跳驗(yàn)證或者是被檢測到異常。
如果你需要輪轉(zhuǎn)IP,那么就選擇第二個(gè)選項(xiàng)“Rotating(IPs)”,這樣的話你就能打開下面的滑塊了,并且設(shè)置IP池的大小。
在這情況下,你可以在不登錄的狀態(tài)下抓取社交媒體賬號或者是電子商務(wù)網(wǎng)站的數(shù)據(jù)。
那么我們在對于社交媒體賬號相關(guān)的時(shí)候,一般還是選擇長單一會話模式
接下來我們來看看
URL:指的是在特定的url觸發(fā),當(dāng)你想從數(shù)據(jù)中心切換到住宅或者移動IP時(shí)可以使用這個(gè)觸發(fā)器(特定url觸發(fā)行為)
Status code:在請求響應(yīng)的特定頁面上的url狀態(tài)代碼,就像你可以選擇200/403/404/500等等響應(yīng)正文
Response body:正文觸發(fā)器,在html響應(yīng)正文包含使用正則表達(dá)式的指定字符串時(shí),它將掃描正文以查找指定此觸發(fā)器的字符串用于捕獲問題。
至于下面的兩個(gè)請求的時(shí)間大于或者小于的規(guī)則,則是可以設(shè)置響應(yīng)時(shí)間毫秒,例如禁止慢速ips或者快速的。
我們選擇了任意一個(gè)觸發(fā)器后,就需要選擇一個(gè)action動作。
對于URL觸發(fā)來說,action有以下幾種方式:
舉個(gè)例子:來設(shè)置一個(gè)規(guī)則去重試當(dāng)一個(gè)新的IP狀態(tài)是顯示403
403又叫做錯(cuò)誤代碼,這意味著通道入口被拒絕,我們一般可以通過更換新的IP來解決這個(gè)問題。
要設(shè)置這個(gè)觸發(fā)器,我們需要選擇狀態(tài)代碼status code這個(gè)選項(xiàng),狀態(tài)代碼選擇403,下面的動作我們選擇以一個(gè)新IP重試。而重試次數(shù)我們自己設(shè)置即可。
如果我們不想用同樣類型的IP,那么我們可以選擇以新的代理端口進(jìn)行重試,這意味著我們可以選擇其他類型的代理IP,從不同的端口發(fā)送同樣的請求,以測試實(shí)現(xiàn)數(shù)據(jù)收集的最優(yōu)成本。
當(dāng)然,這里的新端口我們需要在Brightdata通道管理中提前開好,就可以選擇了。
另外一個(gè)例子就是我們想要設(shè)置減少帶寬的有效方法是使用正則表達(dá)式,通過選擇列出的文件格式,它將從請求中刪除選定的文件格式,并且響應(yīng)會更輕
另外一個(gè)節(jié)省數(shù)據(jù)抓取的重要規(guī)則就是剛開始的時(shí)候我們選擇使用數(shù)據(jù)中心IP.根據(jù)后期的一個(gè)反饋再考慮是否切換到住宅或者移動IP這種成本比較高的代理。這可以通過設(shè)置URL的觸發(fā)器來實(shí)現(xiàn),
選擇觸發(fā)器為URL,輸入觸發(fā)的url網(wǎng)址,然后選擇動作是”選擇一個(gè)新的端口重試“
以上就是我對代理管理器的一個(gè)大致的講解以及設(shè)置方面的介紹。
那么很多人就問,這種代理IP具體在社交媒體中的用處是什么呢?
其實(shí)有很多方面,我們不僅可以使用代理IP收集數(shù)據(jù),同樣的我們也能用他們進(jìn)行一些自動化的功能操作,當(dāng)然這些還需要配一些第三方的功能軟件才能很好的去使用,
舉個(gè)例子,我們使用Brightdata的靜態(tài)住宅養(yǎng)facebook的賬號,然后在此環(huán)境下,運(yùn)行自動化和facebook好友群發(fā)信息的功能。例如群發(fā)廣告等等,那么這樣,極大地減少了人工操作的成本和時(shí)間。
就比如下面這個(gè)平臺的,首先我們在我們搭建好的養(yǎng)號環(huán)境中,登錄我們的賬號,這個(gè)腳本會自動抓取在同瀏覽器已經(jīng)登錄的facebook的cookie進(jìn)行登錄。
第二步我們設(shè)置我們需要群發(fā)的信息,設(shè)置相關(guān)想要發(fā)送的東西
并且在上面批量上傳我們需要群發(fā)的facebook用戶的個(gè)人主頁鏈接。
之后下一步就會開始運(yùn)行,系統(tǒng)也會記錄整個(gè)流程運(yùn)行的問題,
那么可以看到,我最后運(yùn)行失敗,facebook賬號跳了驗(yàn)證,就是因?yàn)檫@個(gè)整個(gè)過程我是直接在電腦上,并沒有在一個(gè)純凈隔離的IP環(huán)境去登錄這個(gè)賬號,所以導(dǎo)致fb查到異常而封號。
這也是為什么我一直在強(qiáng)調(diào)代理IP的重要性。
更多深入的玩法,后期我在會員專區(qū)會專門去介紹能夠配合Brightdata一起使用的一些第三方的數(shù)據(jù)收集軟件,不需要代碼,同樣也能獲得數(shù)據(jù)并且執(zhí)行一些我們的需求功能,敬請期待~
無人獨(dú)立站(Unmanned Simulative Website)的Begin Again
數(shù)字化獨(dú)立站演進(jìn)歷程(二)2022年全觸點(diǎn)管理&私域營銷
【營銷干貨】獨(dú)立站賣家如何通過聯(lián)盟營銷Affiliate提升品效,實(shí)現(xiàn)流量破圈?
有效發(fā)掘Niche為何能讓個(gè)人小團(tuán)隊(duì)輕松實(shí)現(xiàn)月入萬刀-跨境獨(dú)立站數(shù)字營銷思維拓展
關(guān)于Facebook的BM企業(yè)認(rèn)證、網(wǎng)域解綁、廣告賬戶像素創(chuàng)建等系列問題的Step by Step解決實(shí)操步驟詳解
911S5+AdsPower配置網(wǎng)絡(luò)環(huán)境指南/淺談FB商城怎么玩?
重要!Facebook關(guān)于IOS14網(wǎng)域驗(yàn)證及事件轉(zhuǎn)化配置
獨(dú)立站營銷-到底做Google還是Facebook?
17個(gè)方面詳解如何使用Tiktok Ads+Tiktok Shop正確拓展獨(dú)立站流量(手把手圖解版)
看完閉眼玩轉(zhuǎn)Tiktok英國跨境小店-超全操作指南(2022新春版)
Brightdata代理IP創(chuàng)建、代理管理器規(guī)則配置&自動化簡述指南

微信號 | huayukuajing8888
花虞:原創(chuàng)跨境撰稿人
跨境獨(dú)立站培訓(xùn)、運(yùn)營陪跑、
FB賬號、海外戶開戶、虛擬卡
文章為作者獨(dú)立觀點(diǎn),不代表DLZ123立場。如有侵權(quán),請聯(lián)系我們。( 版權(quán)為作者所有,如需轉(zhuǎn)載,請聯(lián)系作者 )

網(wǎng)站運(yùn)營至今,離不開小伙伴們的支持。 為了給小伙伴們提供一個(gè)互相交流的平臺和資源的對接,特地開通了獨(dú)立站交流群。
群里有不少運(yùn)營大神,不時(shí)會分享一些運(yùn)營技巧,更有一些資源收藏愛好者不時(shí)分享一些優(yōu)質(zhì)的學(xué)習(xí)資料。
現(xiàn)在可以掃碼進(jìn)群,備注【加群】。 ( 群完全免費(fèi),不廣告不賣課!)