花虞HY跨境 勿忘初心、回歸本質(zhì) 隨著在線業(yè)務(wù)的愈發(fā)發(fā)展壯大,越來越多的商家依賴線上電商業(yè)務(wù),無論國內(nèi)還是國外。 線上業(yè)務(wù)最大的特點就是需要依賴各種渠道的流量去展開針對性營銷,亦或者說我們需要有一定策略性去獲取流量,只有有了流量,我們的線上業(yè)務(wù)才能有機會發(fā)展,有盈利。 今天我就結(jié)合Brightdata的數(shù)據(jù)收集器data collector這個數(shù)據(jù)收集工具,來針對性分析,為什么電商需要數(shù)據(jù)收集、如何判斷收集來的數(shù)據(jù)真實準確?如何搭建自己的數(shù)據(jù)收集框架?等等。 (本文8375字,閱讀時間20min)
目錄:
前言-簡說數(shù)字營銷核心【流量】
什么是線上電商業(yè)務(wù)的數(shù)據(jù)收集?
數(shù)據(jù)收集對于在線電商&用戶的影響?
數(shù)據(jù)收集對于電商賣家有哪些好處?
數(shù)據(jù)收集案例分享1-保險業(yè)
數(shù)據(jù)收集案例分析2-Running Warehouse定價策略
目前數(shù)據(jù)收集我們會遇到哪些問題?
數(shù)據(jù)收集需要什么樣的代理基礎(chǔ)框架?
數(shù)據(jù)收集成功的3個關(guān)鍵因素
3個判斷訪客是真人還是機器的方式?
解決網(wǎng)站審查屏蔽的3個解決方法
相關(guān)鏈接索引:
Brightdata官方注冊&中文經(jīng)理服務(wù)鏈接:https://bit.ly/3DM8bH1
“流量為王”這四個字,對于電商來說,我想沒有人不認可的。
但是流量分為泛流量和精準流量,我們實際需要的是精準流量,精準流量質(zhì)量高轉(zhuǎn)化好,但獲客成本高;
如何高效大量獲客轉(zhuǎn)化且能成本可控?這就需要我們能夠有邏輯性、計劃性地制定營銷計劃,那么這里又涉及到我之前文章所說的數(shù)字營銷的概念,不知道什么是數(shù)字營銷的,先看這篇文章:《跨境獨立站-數(shù)字營銷入門導(dǎo)覽&思維拓展》
數(shù)字營銷的兩個核心:用戶和數(shù)據(jù),只有把這兩個核心讀懂,才能真正掌握數(shù)字營銷;
數(shù)據(jù)對于我們精準獲客&營銷決策來說是至關(guān)重要的!
那么接下來,我就從數(shù)據(jù)相關(guān)的問題開始入手,循序漸進地帶領(lǐng)各位了解:
什么是線上電商業(yè)務(wù)的數(shù)據(jù)收集?
首先我們明確一個概念:什么叫做數(shù)據(jù)收集data collection?
簡單來說,就是通過程序收集目標(biāo)網(wǎng)站中對我們有價值的信息,例如電商網(wǎng)站的話就是價格、產(chǎn)品、銷量、描述等等,這個收集信息的過程就叫做數(shù)據(jù)收集。
根據(jù)我之前的示意圖,如果我們使用真實IP進行訪問并發(fā)出大量的請求,那么多次以往很容易被目標(biāo)網(wǎng)站判定為機器人或者異常,并且做出一些防御性手段。所以這個時候,我們就需要借助代理IP來完成這項工作。
(通過不斷切換IP進行訪問,規(guī)避網(wǎng)站針對性封鎖限制。這里就有幾個關(guān)鍵點:基礎(chǔ)環(huán)境構(gòu)架,大量的高質(zhì)量IP,統(tǒng)一管理執(zhí)行的IP管理工具等,具體詳細內(nèi)容接著往下看:)
數(shù)據(jù)收集對于代理IP的數(shù)量質(zhì)量要求是比較高的,我們需要提前構(gòu)建或者選擇適合的工具與代理IP來配合使用,所以這也是為什么我推薦Brightdata的代理IP并且使用官方以代理ip為基礎(chǔ)開發(fā)出來的數(shù)據(jù)收集器,來幫助我們的在線電商工作。
首先我們先來了解一個問題,數(shù)據(jù)收集在日常生活中的運用以及對我們(用戶&商家)有什么影響:
我們以用戶的角度來看:
互聯(lián)網(wǎng)時代,理論上來說每個用戶接收到的信息都是一樣的;
但是隨著技術(shù)的發(fā)展,網(wǎng)站會通過多項數(shù)據(jù)因素識別收集用戶,例如IP、地理位置、使用設(shè)備、cookie等去標(biāo)記區(qū)分用戶,從而讓每一個用戶都會獲得比較個性化的體驗。
簡單的一個例子就是國內(nèi)常見的大數(shù)據(jù)殺熟,不同的手機用戶機票報價不一樣,購物售價不一樣,這些就是很明顯的用戶數(shù)據(jù)“定制化”的體現(xiàn)。
簡單的一個例子就是國內(nèi)常見的大數(shù)據(jù)殺熟,不同的手機用戶機票報價不一樣,購物售價不一樣,這些就是很明顯的用戶數(shù)據(jù)“定制化”的體現(xiàn)。
再以電商商家的角度來說:
在日常經(jīng)營中,我們不僅需要監(jiān)測自己網(wǎng)站的數(shù)據(jù),同時也需要對競爭對手的網(wǎng)站進行監(jiān)測,如果是能夠?qū)崟r監(jiān)控,那么我們就能在第一時間針對對方的變化來做出策略性優(yōu)化。
那在這個過程中,我們最容易碰到的問題,就是我們在設(shè)法獲取競對網(wǎng)站的數(shù)據(jù)時,因為一些技術(shù),導(dǎo)致我們不能看到競爭對手最真實的信息,那么我們收集一堆虛假信息的話,對我們來說產(chǎn)生了不小的阻礙以及成本流失。
對于注重版權(quán)的品牌方來說:
針對知識產(chǎn)權(quán)、版權(quán)等問題,他們經(jīng)常需要去監(jiān)控審查;
然而下游零售商或者是一些仿牌侵權(quán)的商家為了銷量或者價格方面等等的規(guī)避,會在他們的網(wǎng)站中設(shè)置機器人通過IP檢測誤導(dǎo)或者封鎖品牌方的數(shù)據(jù)抓取爬蟲進入“安全頁”或者訪問失敗,而不是真正進入真實客戶能夠看到的頁面。
所以如果我們沒有真實有效的獲取數(shù)據(jù),那么就很難根據(jù)這些數(shù)據(jù)進行實時優(yōu)化。(下圖是用戶看到的信息和品牌方看到的信息不一致)
由此可見,是否能獲取真實且有效的信息對于我們來說,無論是用戶還是商家都至關(guān)重要。
對于商家來說,目前數(shù)據(jù)收集主要有以下重要作用:
更好的了解客戶(用戶畫像、行為習(xí)慣)
設(shè)定最優(yōu)價格
緊跟市場潮流
保護品牌隱私版權(quán)
倉儲優(yōu)化
競爭對手數(shù)據(jù)分析
新品市場調(diào)研
等等
這只是一個大概的舉例,可能還是有很多朋友不是太懂,到底數(shù)據(jù)收集的真實意義在何處,那么我這里舉兩個例子你就明白了。
在2000年Jason Tan擔(dān)任澳大利亞最大保險公司之一的定價分析師,他們聘請了數(shù)十名“背包客”為他們手動收集數(shù)據(jù),他們手動從競爭對手的網(wǎng)站上獲取成千上萬的保險代碼,之后精算師會對數(shù)據(jù)進行進一步分析,去探究競爭對手公司是如何為每個參考評級因素進行收費;
(這里說的評級移因素指的是用戶的年齡、性別、財產(chǎn)所有等,這些基本的因素通常會構(gòu)成客戶為保險支付的最終保費),所以Jason Tan利用這些數(shù)據(jù)通過模擬競爭對手向用戶收取多少費用以及內(nèi)部的其他相關(guān)數(shù)據(jù)進行整合后會輸入到公司的定價優(yōu)化平臺,確保能在客戶更新保單之前能夠生成最優(yōu)的價格。
在這個過程中不難看出,整個決策的主要參考依據(jù)之一,就是大量實時且真實的競爭對手數(shù)據(jù)信息。
當(dāng)然,目前已經(jīng)不需要請背包客來手動抓取數(shù)據(jù)了,Jason Tan借助了Brightdata的Data Collector以及Data Unblocker這兩個自動化工具,能夠快速實時高效地抓取到數(shù)據(jù)。
正如他說的:Do not put you money on the table.
什么意思呢,就是在有限的預(yù)算范圍內(nèi),將成本最大利益化,或者說通過一些方法,盡可能的減小不必要的開支,例如能夠自動化的就減少人工開支等等。
在上文中,Jason Ton招聘大量的背包客手動收集數(shù)據(jù),通過精算師處理大量的數(shù)據(jù),然而人工統(tǒng)計出決策難免會有一定的滯后或者出錯;
隨著技術(shù)的發(fā)展,目前們已經(jīng)能夠?qū)崿F(xiàn)自動化執(zhí)行這些復(fù)雜費工的任務(wù)了,不過這個不是我今天說的重點,那想要了解自動化執(zhí)行數(shù)據(jù)收集以及自動化任務(wù)的相關(guān)內(nèi)容,下一篇就是。
一個經(jīng)銷品牌跑鞋的全球送貨的網(wǎng)站Running warehouse,他的競爭對手就是線下品牌實體以及線上品牌店。
作為消費者來說,他們在購買前通常會訪問很多的網(wǎng)站,特別是能在不同平臺找到同款的時候,舉個例子,一雙adidas的跑鞋,在U這個網(wǎng)站上售價是$139.95;
那么我們可以看下其地方的,例如adidas官網(wǎng),售價是$140
我們再來看下澳大利亞最大的零售網(wǎng)站Rebel的售價是多少?可以看到是$259.99
最后我們來看看亞馬遜上的價格表現(xiàn),在亞馬遜上是$215.7+$26.25的配送費,很明顯亞馬遜的價格是經(jīng)過優(yōu)化的,亞馬遜連上運費的報價,介于中等位置,這樣能夠是他們借助平臺的信任優(yōu)勢獲得更多的訂單,同時,這個26.25美元的運費則是吸引用戶注冊Amazon Prime的最佳接口,因為只要成為Amazon Prime會員能夠體驗全年急速物流以及免運費。
而且正常的報價來說,人為設(shè)置價格并不會以7這樣奇怪的數(shù)字結(jié)尾,這幾乎可以肯定是價格檢測優(yōu)化工具的作用。
綜上所述,running warehouse是幾個平臺中最便宜的,在價格方面他也是最具有優(yōu)勢的。
所以我們?nèi)粘Yu家在定價時,就需要收集數(shù)據(jù),來參考判斷。
在定價策略階段,如何能夠在同樣競爭力下,爭取到一個最高的價格獲得盡可能高的利潤,這些東西如果單純靠人為計算策劃,很難控制的精準,連上我之前說過數(shù)據(jù)收集問題,如此大的數(shù)據(jù)集、大的工程量和成本之下,我們肯定需要借助自動化的工具來協(xié)助我們實現(xiàn)需求;同時,也需要保障我們整個項目的穩(wěn)定運行。
基于這種需求,我們首先需要考慮的就是具備一個好的數(shù)據(jù)收集的基礎(chǔ)架構(gòu)。
那么我們目前遇到了什么問題,又是什么什么構(gòu)成了數(shù)據(jù)收集的基礎(chǔ)架構(gòu)?我們來看看:
隨著技術(shù)的進步,屏蔽技術(shù)越來越復(fù)雜;
當(dāng)我們訪問網(wǎng)站的時候,網(wǎng)站會根據(jù)IP、地理以及速度限制
(爬蟲速率)以IP為基礎(chǔ)的區(qū)分主要是網(wǎng)站通過檢查IP類型來了解到底是正常用戶還是機器人在訪問網(wǎng)站;
數(shù)據(jù)收集的流程和我們正常訪問網(wǎng)站的流程是一樣的,我們利用高質(zhì)量的代理IP,讓自己這次請求完全偽裝成一個真實的用戶在訪問,唯一區(qū)別在于數(shù)據(jù)收集具有規(guī)模性、目的性、規(guī)則性。所以像brightdata能夠提供的代理IP,就是做數(shù)據(jù)收集比較好的選擇,而我之前教大家的日常的養(yǎng)號環(huán)境的搭建,其實也是基于這個原理的。
所以我們需要一個高質(zhì)量的代理基礎(chǔ)框架來支持我們做這件事情。
(Brightdata官方注冊&中文經(jīng)理服務(wù)鏈接:https://bit.ly/3DM8bH1)
我們要達成目的解決問題,就需要有一套完善的代理基礎(chǔ)架構(gòu);
代理基礎(chǔ)架構(gòu)由以下3個方面構(gòu)成:IP類型、規(guī)模配置、全球性覆蓋
?
Brightdata的IP主要分為4個類型,足夠豐富,數(shù)量巨大,
【數(shù)據(jù)中心、動態(tài)住宅、靜態(tài)住宅、移動IP】
1.1 數(shù)據(jù)中心:
一共有750萬個ip并且遍布全球95個國家,最大的優(yōu)勢是只要你正確使用它,那么數(shù)據(jù)中心的ip是足夠便宜的,唯一的缺點就是ips池數(shù)量較少。
1.2 動態(tài)住宅ip:
目前總共擁有超過7200w個,基于Brightdata點對點的技術(shù),它幾乎覆蓋了全球大部分的地方,有一個常識就是,任何大規(guī)模的代理操作都需要非常廣泛的代理全面覆蓋,所以Brightdata的住宅ip是不錯的選擇?;久總€月有700萬ip的增長。
1.3 靜態(tài)住宅IP:
算是住宅ip中真正靜態(tài)的IP,他們相當(dāng)于Brightdata通過合法的手段從各個國家供應(yīng)商中通過各種方式合作放入Brightdata中閑置托管的,其最大的好處就是足夠的穩(wěn)定,且真實,但是他的缺點就是數(shù)量較為稀少。
1.4 移動IP:
就是海外真實用戶使用的手機設(shè)備上的IP,足夠真實,但是僅限于用戶閑置狀態(tài)時使用,所以每一個IP的存活時間都不一定。
“我們想要實現(xiàn)這些方面的需求,就需要專業(yè)技術(shù)和資源作為支撐,但是一般的電商團隊或者說剛起步的獨立站賣家,是不具備專門聘請一個專業(yè)技術(shù)團隊的條件的;Brightdata(https://bit.ly/3DM8bH1)作為 全球最大的代理服務(wù)提供商,基于他龐大IP環(huán)境下的數(shù)據(jù)類產(chǎn)品,值得我們試一試?!?/span>
通常,我們的數(shù)據(jù)抓取量級不是以個算的,那么如果處于多個并發(fā)大量執(zhí)行的數(shù)據(jù)收集任務(wù)中,就非常考量我們提供服務(wù)的平臺的承接管理能力。
Brightdata能夠快速提供任意數(shù)量的代理,并且以不限額不限速的方式支持我們建立任意數(shù)量的同時并發(fā)的連接;
所以如果你需要做一個非常大的行動,那么就需要有這樣的足夠數(shù)量和管理系統(tǒng)的代理供應(yīng)商才能夠支撐你的行為。
我們?nèi)绻枰蛐缘碾娚虜?shù)據(jù)收集,或者說針對某一個地區(qū)進行收集,那么勢必需要有這個地方的真實高質(zhì)量IP;
Brightdata中的IPs根據(jù)地理位置呃不同,都分別存放在不同位置的數(shù)據(jù)庫中,那么當(dāng)我們使用不同地區(qū)的IP去訪問目標(biāo)網(wǎng)站時,網(wǎng)站就會檢測這個行為的IP是從哪個國家地區(qū)來的.
舉個例子,我們現(xiàn)在需要從使用美國的一個服務(wù)器來收集數(shù)據(jù),
那么當(dāng)我的這個ip被檢測出來是一個數(shù)據(jù)中心ip,那么目標(biāo)網(wǎng)站可能就不會以正常用戶來對待,如果我們只是單一的ip,那么很有可能很快就被阻止,然后這個數(shù)據(jù)中心ip以及在美國的服務(wù)器就會被劃分,那么接下來我們獲取的所有信息都會是以美國用戶的視角得來的,當(dāng)然也有可能是網(wǎng)站針對這個IP設(shè)定的其他信息,那么如果我們需要其他的國家地區(qū)的能夠獲取的信息,那么就需要我們有其他國家的ip和服務(wù)器,這就需要我們有足夠數(shù)量和規(guī)模的IP。
以上這三個點構(gòu)成了數(shù)據(jù)收集的基礎(chǔ)構(gòu)架,基礎(chǔ)構(gòu)架之后,我們就需要了解,如何評判一個數(shù)據(jù)收集器收集是否成功?那么有以下3個關(guān)鍵因素:
首先我們要明白數(shù)據(jù)收集成功的3個關(guān)鍵因素:
穩(wěn)定高質(zhì)量且多樣化的IP基礎(chǔ)環(huán)境;
自動功能強大的代理管理器;
主動&被動的指紋生態(tài)管理系統(tǒng);
那么如何評判這3個方面是否符合要求?我依次來講解:
因素1:需要穩(wěn)定高質(zhì)量且多樣化的IP基礎(chǔ)環(huán)境
對于穩(wěn)定高質(zhì)量且多樣化的IP基礎(chǔ)環(huán)境來說,4個核心因素決定數(shù)據(jù)收集的成功與否:
【速度、規(guī)模、成功率、精確度】
1.1 優(yōu)質(zhì)IP評判標(biāo)準-速度:
指的是什么?速度指的是訪問者發(fā)出請求返回的這個過程的時間,在各個網(wǎng)站之間是有差距的,這種差距主要來自于網(wǎng)站的基礎(chǔ)設(shè)施建設(shè),有幾個方面來考量:
是否收集的數(shù)據(jù)是實時的,如果基礎(chǔ)架構(gòu)做的不好,那么或許響應(yīng)會有一些延遲;
是否能夠最大化利用現(xiàn)有資源的價值-花更少的時間更高的效率去進行收集數(shù)據(jù)的動作;
舉個例子,當(dāng)目標(biāo)用戶進入多個網(wǎng)站在篩選價格產(chǎn)品的時候,結(jié)果某一網(wǎng)站請求返回的時間就超過了5分鐘以上,等待時間過長容易跳出,那么其實這個網(wǎng)站就已經(jīng)失去了競爭力;
1.2優(yōu)質(zhì)IP評判標(biāo)準- 規(guī)模:
針對規(guī)模有如下3個情況:
對請求訪問的流量有一定的監(jiān)控和管理,支持使用監(jiān)控網(wǎng)站峰值:例如銷售旺季,以防流量過大,請求過多導(dǎo)致網(wǎng)站不能夠正常訪問,這在正常的數(shù)據(jù)收集中是不被允許的;
始終保持數(shù)據(jù)收集的質(zhì)量:在大量高頻次同時并發(fā)情趣運行數(shù)據(jù)收集的過程中,能夠始終數(shù)據(jù)質(zhì)量;
沒有最高限制:對于數(shù)據(jù)收集沒有過多的限制,理論上說只要能承受,規(guī)模是無上限的;
1.3 優(yōu)質(zhì)IP評判標(biāo)準- 成功率:
成功率主要根據(jù)以下3個方面來進行考量:
實時成功獲取準確的數(shù)據(jù)、隨需隨取;
輕量構(gòu)建和調(diào)試,我們作為電商賣家,肯定不愿意吧很多的精力放在數(shù)據(jù)基礎(chǔ)架構(gòu)的維護和調(diào)試,我們需要余出更多的時間來做其他更加有價值的工作,那么brightdata的工程師們就將構(gòu)建和長期維護作為他們的主要工作,我們只需要根據(jù)需求,簡單的操作,就能獲得高質(zhì)量的數(shù)據(jù)。
合理的價格:數(shù)據(jù)收集主要以流量和成功率來計算,那么成功率越高所需要支付的費用就會越低,如果抓的數(shù)據(jù)成功率只有50%,那么其實你所需要支付的成本是雙倍的。
1.4 優(yōu)質(zhì)IP評判標(biāo)準- 準確性:
我認為準確性是4個核心中最重要的一個點,只有信息準確,那么前三點才你那個成立,否則你的整個數(shù)據(jù)分析、決策、定位、實施都是錯誤無用的
光是獲取到信息或者抓到數(shù)據(jù)其實是不夠的,你需要確保抓取到的信息是準確的、真實的。舉個例子,正如我之前所說的經(jīng)銷商或者仿牌亦或者一些電商公司,他們在不斷的更改信息、價格、策略,那么如果我們抓取到的是錯誤的信息,很有可能就會影響我們接下來的策略決定。
因素2:自動功能強大的代理管理器
如果我們需要支持大量的數(shù)據(jù)收集的工作,并且同時并發(fā)或者需要在其中設(shè)置不同的規(guī)則以及檢測規(guī)避一些問題,那么就需要一個自動化智能統(tǒng)一管理執(zhí)行的管理系統(tǒng),那么Brightdata的代理管理器就具備這些能力,除了能夠統(tǒng)一管理所有的代理IP,還能夠?qū)崿F(xiàn)其他所有功能例如能夠解決下面的問題:
識別禁令(Identify Bans)
能夠檢測出多種類型的禁令,排除故障并且修復(fù)潛在問題。例如捕獲、重定向、封鎖、隱藏、重復(fù)錯誤、超時等等,那么如果代理管理器遇到這些問題,就可以使用不同的代理IP進行重試請求。
管理用戶代理(UA)
對于良性爬蟲是至關(guān)重要的,用戶代理能讓目標(biāo)網(wǎng)絡(luò)識別出訪問IP的使用設(shè)備、操作系統(tǒng)等,以響應(yīng)不同的界面,例如PC端和手機端,就是不一樣的。
管理控制代理
有一些爬取項目需要在同一個代理下保持會話,那么我們就需要使用代理管理器配置代理以同意這個情況。
增加延遲
隨機的延遲以及良性節(jié)流能夠有效掩蓋正在數(shù)據(jù)抓取的行動。
地理位置定位
有些時候我們需要設(shè)定某些特定地理位置的代理IP去訪問網(wǎng)站
多種類型的線路
通過使用不同類型的代理IP發(fā)送請求,自定義規(guī)則以獲得最具性價比的數(shù)據(jù)結(jié)果。
減小帶寬
使用代理管理器像正則表達式或者自定義規(guī)則以減少帶寬流量的產(chǎn)出。
有關(guān)于這些問題的詳細介紹,我會在后天的數(shù)據(jù)收集&代理管理器配置及案例實操中,詳細講解為什么這些相關(guān)問題那么重要。。
Brightdata代理管理器目前win系統(tǒng)只需要簡單的安裝,而mac或者linux系統(tǒng)也只需要簡單的配置就能使用,詳細的mac配置教程同樣我放在今天發(fā)布的第二篇的文章當(dāng)中進行實操講解。
目前的指紋技術(shù)能夠檢測到訪問者的真實使用情況,而我們在收集數(shù)據(jù)的過程中,如果比探查出來我們的真實身份其實是大大不利的,那么Brightdata的Data collector就能很好地解決這個問題,讓目標(biāo)網(wǎng)站并不能檢測出我們究竟是誰,大多時候,會以真實用戶去對待我們的IP。
具體的操作比較復(fù)雜,我就不深入去探討,因為我自己本身對于代碼和程序也是小白狀態(tài),我們只需要明白原理即可。
另外,Brightdata的工程師也提出了一些建議:
數(shù)字指紋的常規(guī)原則
1.我們首先要去了解目標(biāo)網(wǎng)站請求到返回中各項信息,以統(tǒng)一請求的各個方面來達到模仿“目標(biāo)”請求
2.不要隨機更改屬性
3.不要隨意的更改內(nèi)容,不要增加額外的東西,只是正常的去查看,因為如果你增加一些日常正常流程中一般不會出現(xiàn)的行為,那么請求很容易被檢測到后被拒絕。
綜合以上3點,我們大概率就能部署一個成功率較高且操作比較簡單的數(shù)據(jù)收集系統(tǒng)。
當(dāng)然,并不是說有了這些我們就能一本萬利,隨著技術(shù)在不斷迭代,網(wǎng)站屏蔽技術(shù)升級同時愈發(fā)復(fù)雜。但是目前主要還是按照以下3種方式,來對訪問者進行區(qū)分劃分后做出一系列的應(yīng)對措施。這個我在上文也已經(jīng)講過,這里在拉出來點一下:
IP地址檢查
Geo地理位置
速率限制(爬蟲速率)
IP地址檢查
站首先會檢查這個訪問請求的IP類型是什么樣的,那就能確定到底是從什么養(yǎng)的環(huán)境來的,是機房IP,還是帶有cookie的還是說是住宅類型的還是說是真實的用戶訪問,那么移動端的用戶又會呈現(xiàn)出不同的響應(yīng)效果,所以如果我們要獲取正確的信息,就要用正確的環(huán)境進入網(wǎng)站。
GEO地理位置
這個其實是基于地理位置的一個數(shù)據(jù)庫,這個ip是從哪里來的,哪個國家的IP,那么根據(jù)這些網(wǎng)站所呈現(xiàn)的東西也會不同,例如語言、貨幣、價格、物流貨運政策等等,那么有很多信息會因為地理位置改變而改變。
所以舉個例子,如果我想查詢最便宜的航班機票,那么就可以從不同的地理位置去查詢以篩選最便宜的票價;另外有一些網(wǎng)站可能對某一些地區(qū)國家的用戶不開放,同樣如果你用這些地方的IP進入訪問,那么大概率是會被阻止的。
再比如我們在做一些廣告測試的項目,某些國家我是不想投放的,或者說某些音樂某些視頻在某些國家涉及到版權(quán)問題我需要單獨屏蔽出來,那么我們就需要用到代理IP去檢測,以確保我的廣告以正確的語言在正確的地理位置展示。
速率限制(爬蟲速率)
速度限制在開發(fā)初期主要目標(biāo)是為了防止網(wǎng)站多種類型的攻擊,目前網(wǎng)站如果檢測到某一IP在短時間內(nèi)大量爬蟲,一樣會采取封鎖的措施,那么這個時候我們使用代理管理系統(tǒng)以及IP基礎(chǔ)構(gòu)架,在同一時間內(nèi)通過智能輪轉(zhuǎn)的方式,進行訪問請求,這樣會很大程度上防止我們的請求被封鎖,因為如果一個IP被封鎖后,其余多個也被封鎖且被網(wǎng)站識別出來自同一個范圍的IP,那么在某一段時間內(nèi)這一整段的IP都會被封鎖,可以說連帶其他在同一段的IP都有被封鎖的可能性,會給我們的數(shù)據(jù)收集操作以及其他方面造成比較巨大的干擾。
首先針對這種情況,我們的解決方法就是:
準備充足的IP池(建議設(shè)置比預(yù)估值多一點的數(shù)量。)
盡可能經(jīng)常都切換和輪換你的IP;
保持測試和優(yōu)化
舉個例子,假如在測試階段,測試得出這個網(wǎng)站的屏蔽時長大概是3分鐘左右,那么我們可以設(shè)置規(guī)則,在2min30s的時候采取輪換新IP的措施;或者有一些非常嚴格的網(wǎng)站,那么我們就需要每一次請求就切換一次IP,所以我們盡可能多的做一些測試,抓住一些規(guī)律后,可以設(shè)置一些規(guī)則去有效規(guī)避或者說盡可能減少IP被封鎖的概率;
當(dāng)然,在使用Brightdata的時候,他們已經(jīng)把大部分的IP進行調(diào)整,改組,所以即使有部分IP被封鎖,那么接下來的IP被關(guān)聯(lián)封鎖的概率幾乎為零。
同時,Brightdata也有其他幾個工具配合數(shù)據(jù)收集器來進行使用,當(dāng)你開始操作后,遇到封鎖情況,那么可以使用Brightdata的Data unblock這個工具,他的主要用處就是解鎖各種原因的封鎖情況,我們使用unblock之后99%能解。
Brightdata推出了一個”100%可用時間“的政策,意思就是,當(dāng)你在實施爬蟲的時候,由于該IP對應(yīng)供應(yīng)商出現(xiàn)一些特殊的問題例如斷電、調(diào)試等等,為了不影響爬蟲結(jié)果,那么Brightdata會直接置換響應(yīng)數(shù)量正常運行的IP補充進IP池,以保證這次爬蟲的正常運行;(有關(guān)于IP池輪轉(zhuǎn)是什么時候會進行輪轉(zhuǎn),我們可以自行設(shè)置規(guī)則)。
所以綜上所述,通過案例分析我們可以明白數(shù)據(jù)收集分析對在線電商的重要性和必要性,同時,本文也比較詳細和明確的講解解釋了有關(guān)于數(shù)據(jù)收齊器的基礎(chǔ)要求、條件等,其實對于一個無代碼基礎(chǔ)的賣家來說,這種借助現(xiàn)有工具來直接進行操作的,是最有利的。能夠大大減少我們的成本開支。
那至于數(shù)據(jù)收集方面更加深入的玩法,我后期會在會員區(qū)或者后面的文章中進行分享,敬請期待!
相關(guān)閱讀:
Brightdata入門-環(huán)境搭建&自動化數(shù)字營銷工具推薦
高端養(yǎng)號環(huán)境搭建指南-Brightdata+Adspower(第2版)【手把手圖解跨境獨立站指南】

微信號 | huayukuajing8888
花虞:原創(chuàng)跨境撰稿人
跨境獨立站培訓(xùn)、運營陪跑、
FB賬號、海外戶開戶、虛擬卡
文章為作者獨立觀點,不代表DLZ123立場。如有侵權(quán),請聯(lián)系我們。( 版權(quán)為作者所有,如需轉(zhuǎn)載,請聯(lián)系作者 )

網(wǎng)站運營至今,離不開小伙伴們的支持。 為了給小伙伴們提供一個互相交流的平臺和資源的對接,特地開通了獨立站交流群。
群里有不少運營大神,不時會分享一些運營技巧,更有一些資源收藏愛好者不時分享一些優(yōu)質(zhì)的學(xué)習(xí)資料。
現(xiàn)在可以掃碼進群,備注【加群】。 ( 群完全免費,不廣告不賣課!)