Semalt: Suíomhanna Gréasáin Cáiliúla Neamh-inphriontáilte

Chun na sonraí a theastaíonn uait a scrabhadh de láimh, caithfidh scileanna cláraithe den scoth a bheith agat. Nó is féidir leat raon uirlisí eastósctha sonraí gréasáin a úsáid a bhfuil sé mar aidhm acu sonraí a léamh, a struchtúrú agus a scrabhadh i bhformáid ar leith. Mar sin féin, tá roinnt suíomhanna Gréasáin neamh-inphriontáilte, rud a chiallaíonn go n-úsáideann siad teicnící frith-scrapála nó go n-athraíonn siad a mharcáil go rialta. Mar shampla, teastaíonn sonraí logála isteach ag LinkedIn, Alibaba agus Facebook, tairgeann siad dul isteach i CAPTCHA, agus seoltaí IP a bhac chun cosaint agus príobháideacht a n-úsáideoirí a chinntiú.

1. Facebook:

Tá Facebook ar cheann de na suíomhanna Gréasáin líonraithe sóisialta is cáiliúla ina bhfuil os cionn 20 milliún úsáideoir gníomhach ar fud an domhain. Tá líon mór feidhmchlár agus clár scrapála sonraí ann a bhfuil sé mar aidhm acu faisnéis aonair a bhaint as Facebook. Ar an drochuair, ní sholáthraíonn mórchuid na n-uirlisí sonraí cruinne agus inléite dúinn. Tá sé deacair ag Facebook do spammers agus hackers faisnéis a bhailiú faoina úsáideoirí. Ní féidir é a fháil ach le cabhair ó pharsálaí HTML mar Python, ach níl a fhios ag mórchuid na stiúrthóirí gréasáin agus na saorateangairí bunúsacha Python. Le déanaí, seoladh scraper Facebook chun faisnéis ríthábhachtach a bhaint as an suíomh Gréasáin líonraithe shóisialta seo. Le scraper Facebook, ní féidir leat ach ainmneacha agus seoltaí ríomhphoist úsáideoirí Facebook a bhailiú. Ach más mian leat sonraí domhain a bhailiú, ní féidir leat an uirlis seo nó aon scraper eile dá samhail a úsáid.

2. LinkedIn:

Suíomh Gréasáin líonraithe sóisialta eile is ea LinkedIn nach féidir a scrabhadh. Mar sin féin, is féidir leat sonraí a bhaint go páirteach as cúpla leathanach gréasáin, ach tá an chuid is mó den fhaisnéis inrochtana. Ní féidir leat ach faisnéis ó phróifíl phoiblí LinkedIn a scrabhadh trí Import.io nó Kimono Labs a úsáid. Ní féidir le lucht margaíochta leas a bhaint as seirbhísí scrapála mar gheall ar bhearta láidre sábháilteachta LinkedIn. Mar sin féin, tá siad tar éis tosú ag baint úsáide as Lead Extractor, rud a chabhraíonn le próifílí poiblí a scrabhadh. Is féidir leis an uirlis seo naisc phróifíle, ainmneacha agus seoltaí ríomhphoist a scrabhadh amháin. Ach más mian leat Skype ID, Yahoo Messenger ID, seoladh iomlán, agus ID Twitter úsáideora a fháil, ní ligfidh LinkedIn duit é sin a dhéanamh.

3. Alibaba:

Is ilchuideachta teicneolaíochta é Alibaba a sholáthraíonn seirbhísí gnó-le-tomhaltóir ar líne. Ar an drochuair, níl aon bhealach ann sonraí a scrapeadh ón suíomh Gréasáin seo. Murab ionann agus Amazon agus eBay, tá sé deacair ag Alibaba dá úsáideoirí faisnéis a fháil faoina tháirgí, íomhánna, tuairiscí agus praghsanna. In 2015, tugadh isteach roinnt uirlisí don phobal chun roinnt uirlisí ar féidir leo sonraí ó Alibaba a scrabhadh gan stró. Íoctar an chuid is mó de na huirlisí agus ní thagann siad le hionchais na ngnólachtaí nuathionscanta. Oibríonn Alibaba réimse leathan gnólachtaí ar fud an domhain agus nascann sé ceannaitheoirí le soláthraithe. Idir an dá linn, cinntíonn sé a bpríobháideacht agus ní ligeann sé d’éinne sonraí a scrabhadh. Amhail Deireadh Fómhair 2017, tá níos mó ná 500 milliún úsáideoir gníomhach míosúil ag Alibaba ar fud a ardáin. Rinne Alibaba níos fearr ná príomhimreoirí scamall mar Amazon, Google, agus Microsoft i bhfás ioncaim scamall. Chuir sé na straitéisí is fearr i bhfeidhm chun príobháideacht a sholáthraithe a chinntiú agus blocálann sé gach seoladh IP amhrasach laistigh de shoicind.