Definicija Spidering i web crawlers

Spiders & Web Crawlers: Što trebate znati za zaštitu podataka web stranica

Spiders su programi (ili automatske skripte) koje 'pretražuju' putem weba tražeći podatke. Spiders putuju putem URL-ova web mjesta i mogu povući podatke s web stranica kao što su adrese e-pošte. Spiders se također koriste za hranjenje informacija pronađenih na web stranicama tražilicama.

Paukovi, koji se također nazivaju "web pretraživači" pretražuju na webu, a ne svi su prijateljski u svojoj namjeri.

Spameri Spider web stranice za prikupljanje informacija

Google, Yahoo!

i druge tražilice nisu jedine zainteresirane za indeksiranje web stranica - tako da su i scammers i spameri.

Spiders i drugi automatizirani alati koriste spameri kako bi pronašli adrese e-pošte (na internetu se ova praksa često naziva "žetva") na web stranicama, a zatim ih upotrebljavaju za izradu popisa spam poruka.

Pauci su alat koji pretraživači upotrebljavaju kako bi saznali više informacija o vašoj web lokaciji, ali nisu ostavili neovlašteno, web-lokacija bez uputa (ili "dozvole") o tome kako pretraživati ​​vaše web stranice može predstaviti glavne rizike informacijske sigurnosti. Spiders putuju slijedećim linkovima, a vrlo su sposobni pronaći linkove na baze podataka, programske datoteke i druge informacije kojima možda ne želite imati pristup.

Webmasteri mogu pregledavati zapisnike kako bi vidjeli što su pauci i drugi roboti posjetili svoje web stranice. Ti podaci pomažu webmasterima znati tko indeksira njihovu web-lokaciju i koliko često.

Te su informacije korisne jer dopušta webmasterima da fino podešavaju svoje SEO i ažuriraju datoteke robota.txt kako bi zabranile određenim robotima da u budućnosti indeksiraju svoje web stranice.

Savjeti za zaštitu vaših web stranica od neželjenih robotskih alata za indeksiranje

Postoji prilično jednostavan način da neželjeni alat za indeksiranje ostane izvan vaše web stranice. Čak i ako ne brinete o zlonamjernim paukovima koji indiciraju vašu web-lokaciju (zamrljavanje adrese e-pošte neće vas zaštititi od većine alata za indeksiranje), još uvijek trebate pružiti tražilicama važne upute.

Sve web stranice trebaju imati datoteku koja se nalazi u korijenskom imeniku pod nazivom datoteka robots.txt. Ta vam datoteka omogućuje upućivanje web alata za indeksiranje gdje želite da ih pogledaju na stranice indeksa (osim ako nije drugačije navedeno na meta podacima određene stranice da ne bude indeksirano) ako su tražilice.

Kao što možete reći željenim alatima za indeksiranje na kojima želite pregledavati, možete im reći i gdje ne smiju i čak blokirati određene alate za indeksiranje s vaše cijele web stranice.

Važno je imati na umu da će robots.txt datoteka s dobro opremljenom datotekom imati ogromnu vrijednost za tražilice, a može biti i ključni element u poboljšanju izvedbe vaše web-lokacije, no neki robotski alati za indeksiranje i dalje će zanemariti vaše upute. Zbog toga je važno da sve softver, dodatke i aplikacije ažuriraju sve vrijeme.

Srodni članci i informacije

Zbog učestalosti prikupljanja podataka koji se koriste u neželjenim (neželjenim) svrhama, zakon je donesen 2003. godine kako bi se određena praksa bila nezakonita. Ovi zakoni o zaštiti potrošača spadaju pod CAN-SPAM Zakon iz 2003. godine.

Važno je da odvojite vrijeme da pročitate CAN-SPAM Act ako se vaša tvrtka bavi bilo kakvom masovnom slanje ili prikupljanju podataka.

Više o zakonskim propisima o zaštiti od neželjenih sadržaja i o tome kako se nositi s neželjenim korisnicima, a što vi kao vlasnik tvrtke možda ne možete učiniti, pročitajte sljedeće članke: