Salve a tutti,
da qualche tempo mi sto dedicando all'ottimizzazione del mio sito joomla (
www.studiodestasio.it) per la rimozione dei contenuti duplicati cercando di impedire l'indicizzazione degli url non SEF.
Fra le altre cose ho rivisto il file robots.txt inserendo determinate pagine che NON voglio siano indicizzate.
Tutto ok ma gli strumenti webmaster di google mi segnalano che taluni indirizzi della sitemap generata da XMAP sono bloccati da robots.txt. E' solo un warning ma mi piacerebbe risolvere comunque questa anomalia…
In effetti basterebbe che XMAP, al momento di generare la pagina XML, escludesse gli url bloccati da robots.txt
Non conosco praticamente nulla di PHP ma capisco che la cosa sarebbe veramente molto semplice.
Il file che genera la mappa XML è /components/com_xmap/views/xml/tmpl/default_class.php
Immagino che sarebbe sufficiente:
1) aprire robots.txt
2) caricare linea per linea e se questa contiene "Disallow: " prelevare la parte destra e memorizzarla in un array
3) a questo punto prima di "scrivere" ogni url verificare che questo non contenga una delle stringhe memorizzate nell'array del punto 2
Ora, può anche darsi che riesca a farlo da solo ma senza conoscere PHP chissà quando ci potrei impiegare…
C'è qualche anima pia che in 5 minuti mi da qualche dritta?