Gli spider

Scritto da Gianluca in Web News



Quando viene inserita una parola chiave in un motore e avviata la ricerca, viene interrogato il datacenter più prossimo.

I siti corrispondenti ai nostri criteri sono ordinati e presentati con l’applicazione di alcuni filtri (ad esempio il filtro antiduplicazione, che evita che siano presentate due pagine con un contenuto identico).

Il procedimento di creazione di un indice consta due momenti distinti: il crawling, ovvero reperimento delle URL e delle informazioni relative da parte dello spider, e l’indexing, ovvero l’archiviazione di queste informazioni da parte di un secondo robot chiamato indexer, che le filtra, elabora e archivia in modo distributivo nei vari datacenter.

Uno tra i più importanti strumenti che usano gli spider è il file robots.txt, che dovrebbe essere sempre presente sui web server attestati su internet, in quanto naturale oggetto di scansione da parte degli spider.

Lo spider web di Google è Googlebot, quello di Yahoo! è Slurp mentre quello di Microsoft Live Search è Msnbot.

Altri articoli che potrebbero interessarti:

Gianluca

Appassionato di informatica fin da piccolo, sono uno dei fondatori di Zaniah. Attualmente, oltre ad amministrare l'azienda, mi occupo di sviluppo web e search engine marketing (SEM).

Nessun commento


Scrivi un commento

Lascia un commento a questo articolo, ti garantiamo che il tuo indirizzo e-mail non verrà reso pubblico e che non riceverai MAI spam da parte di Zaniah.

Questo sito è abilitato Gravatar. Clicca qui per creare un Avatar che comparirà ogni qual volta lascerai un commento su Zaniah.it e su tutti gli altri siti e blog che supportano la tecnologia Gravatar.

* campi obbligatori.