Definició de Spidering i rastrejadors web

Aranyes i rastrejadors web: el que cal saber per protegir dades del lloc web

Les aranyes són programes (o scripts automatitzats) que "rastregen" a través de la Web buscant dades. Les aranyes recorren els URL del lloc web i poden treure dades de pàgines web com ara adreces de correu electrònic. Les aranyes també s'utilitzen per alimentar la informació que es troba als llocs web als motors de cerca.

Les aranyes, que també es denominen "rastrejadors web", fan cerques a la web i no totes són amigables en la seva intenció.

Spammers Spider Websites per recopilar informació

Google, Yahoo!

i altres motors de cerca no són els únics interessats a rastrejar llocs web, també ho són els estafadors i els spammers.

Les spiders i altres eines automatitzades són utilitzades pels spammers per trobar adreces de correu electrònic (a Internet, aquesta pràctica sovint s'anomena "collita") als llocs web i, a continuació, els utilitza per crear llistes de correu brossa.

Les aranyes també són una eina que utilitzen els motors de cerca per obtenir més informació sobre el vostre lloc web, però no està marcada, un lloc web sense instruccions (o "permisos") sobre com rastrejar el vostre lloc pot presentar riscos de seguretat d'informació importants. Les aranyes viatgen pels següents enllaços, i són molt hàbils a trobar enllaços a bases de dades, fitxers de programes i altra informació a la qual no voldreu que tinguin accés.

Els administradors web poden veure els registres per veure quines aranyes i altres robots han visitat els seus llocs. Aquesta informació ajuda els administradors web a saber qui està indexant el seu lloc i amb quina freqüència.

Aquesta informació és útil perquè permet als administradors web ajustar el seu SEO i actualitzar fitxers robot.txt per prohibir que certs robots rastreguin el seu lloc en el futur.

Consells per protegir el vostre lloc web des dels rastrejadors de robots no desitjats

Hi ha una manera bastant senzilla de mantenir rastrejadors no desitjats fora del vostre lloc web. Fins i tot si no us preocupa que les aranyes malintencionades rastreguin el vostre lloc (oblidar l'adreça de correu electrònic no us protegiran de la majoria de rastrejadors), encara hauria de proporcionar als motors de cerca instruccions importants.

Tots els llocs web han de tenir un fitxer ubicat al directori arrel anomenat fitxer robots.txt. Aquest fitxer us permetrà indicar als rastrejadors web on voleu que consulteu les pàgines d'índex (tret que s'indiqui el contrari en les metadades de la pàgina específica per no indexar-se) si són un motor de cerca.

De la mateixa manera que podeu indicar els rastrejadors que desitgeu que vulgueu navegar, també podeu indicar-los on poden no anar i fins i tot bloquejar rastrejadors específics de tot el lloc web.

És important tenir en compte que un fitxer robots.txt ben arrelat tindrà un gran valor per als motors de cerca i fins i tot podria ser un element clau per millorar el rendiment del vostre lloc web, però alguns rastrejadors de robots encara ignoraran les vostres instruccions. Per aquest motiu, és important mantenir actualitzats tots els vostres programes, complements i aplicacions.

Articles i informació relacionats

A causa de la prevalença de la recol·lecció d'informació utilitzada per propòsits nefèrsos (spam), la legislació es va aprovar l'any 2003 per fer il·legals pràctiques determinades. Aquestes lleis de protecció al consumidor estan subjectes a la Llei CAN-SPAM de 2003.

És important que preneu el temps per llegir la Llei CAN-SPAM si el vostre negoci participa en qualsevol enviament massiu o recol·lecció d'informació.

Podeu obtenir més informació sobre les lleis anti-spam i sobre com fer front als spammers, i el que, com a propietari d'un negoci, no pot fer, llegint els següents articles: