3) creare un file robots.txt
Qui trovi un generatore automatico:
http://yellowpipe.com/yis/tools/robots.txt/
Questo impedisce l'accesso a spider non utili o dannosi, impedisce l'accesso agli script (rallenta il sito).
Dagli strumenti di google, risulta che ho gia un file robots.txt. Sono entrato da ftp nel server dove sta il sito, effetivamente c'è, ma non lo avevo creato io. Dentro il file c'è questo:
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Quello che non capisco è cosa centra con l'indicizzazione. Mi spiego meglio: il mio robots.txt non permette l'accesso a nessun spider alle cartelle sopraindicate del mio sito. Questo non è un danno per l'indicizzazione?
In realtà che problemi avrei se permettessi la scansione di tutto il sito?
Come mi devo comportare con le cartelle da me create, nelle quali ho messo immagini e documenti, le blocco o le lascio aperte?