Back to top

Autore Topic: Google - Url Limitati da robots  (Letto 9647 volte)

Offline bastag

  • Nuovo arrivato
  • *
  • Post: 11
    • Mostra profilo
Google - Url Limitati da robots
« il: 10 Gen 2008, 11:40:29 »
Ciao ragazzi/e,
google ha scansionato il mio sito ma mi dice che 405 url, praticamente tutti, sono limitati dal robots.
Vi allego di solito il mio file robots presente sul sito per avere chiarimenti su come impostarlo meglio:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /component/
Disallow: /editor/
Disallow: /help/
Disallow: /includes/
Disallow: /language/
Disallow: /mambots/
Disallow: /media/
Disallow: /modules/
Disallow: /templates/
Disallow: /installation/
User-agent: Libwww-perl 5.65
Disallow: /component/
User-agent: Libwww-perl 5.803
Disallow: /component/
User-agent: Libwww-perl 5.805
Disallow: /componet/
User-agent: Libwww-perl 5.79
Disallow: /componet/
User-agent: Libwww-perl 5.48
Disallow: /componet/
User-agent: Libwww-perl 5.64
Disallow: /componet/
User-agent: Libwww-perl 5.63
Disallow: /componet/
User-agent: Libwww-perl 5.76
Disallow: /componet/
User-agent: Libwww-perl 5.75
Disallow: /componet/
User-agent: googlebot
Allow: /componet/
User-agent: Slurp
Allow: /component/

Ecco, tutto qui...potreste indicarmi se è presente qualche errore? Qualcosa che crea questi limiti?
Grazie in anticipo...

Offline .Andrea S.

  • Instancabile
  • ******
  • Post: 4404
  • Sesso: Maschio
    • Mostra profilo
Re: Google - Url Limitati da robots
« Risposta #1 il: 10 Gen 2008, 12:17:51 »
Prova con questo.
Ovviamente cambia tuosito con il tuo dominio e verifica il percorso alla sitemap (io uso xmap)

Citazione
###
# robots.txt
# http://www.tuosito.it
###

Sitemap: http://www.tuosito.it/index.php?option=com_xmap&sitemap=1&view=xml&no_html=1

User-agent: Googlebot
Disallow:
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /editor/
Disallow: /help/
Disallow: /includes/
Disallow: /language/
Disallow: /mambots/
Disallow: /media/
Disallow: /modules/
Disallow: /templates/
Disallow: /installation/

User-agent: Bullseye/1.0     
User-agent: Black Hole
User-agent: bot
User-agent: bot-
User-agent: bot/
User-agent: CopyRightCheck    
User-agent: CherryPicker
User-agent: crawl
User-agent: DittoSpyder    
User-agent: DISCo Pump 3.1
User-agent: EmailCollector
User-agent: EmailSiphon
User-agent: EmailWolf
User-agent: ExtractorPro    
User-agent: Googlebot-Image    
User-agent: hloader    
User-agent: humanlinks
User-agent: LexiBot    .
User-agent: LinkWalker
User-agent: Microsoft URL
User-agent: Microsoft URL Control - 5.01.4511
User-agent: Microsoft URL Control - 6.00.8169
User-agent: NetAttache    
User-agent: NetAttache Light 1.1    
User-agent: NetMechanic
User-agent: Offline Explorer
User-agent: robot
User-agent: Spider
User-agent: SuperBot
User-agent: SuperBot/2.6
User-agent: Teleport    
User-agent: Titan
User-agent: Voila
User-agent: WebBandit    
User-agent: WebCopier
User-agent: webcopy
User-agent: Web Image Collector
User-agent: webmirror
User-agent: WebReaper
User-agent: website extractor
User-agent: WinHTTrack
User-agent: Yahoo Slurp
User-agent: Slurp
User-agent: shinchakubin
Disallow: /

Andrea | www.joomlovers.net | Il sito per gli amanti di Joomla!

Offline bastag

  • Nuovo arrivato
  • *
  • Post: 11
    • Mostra profilo
Re: Google - Url Limitati da robots
« Risposta #2 il: 10 Gen 2008, 12:35:56 »
Ok grazie andrea,
ho già modificato e uplodato il nuovo robots,
l'unica cosa è che se nei servizi di google quando faccio il test sul nuovo robots, mi dice che individua la sitemap ma per tutti gli altri valori mi dice " sintassi non compresnsibile"
E' normale?

Offline .Andrea S.

  • Instancabile
  • ******
  • Post: 4404
  • Sesso: Maschio
    • Mostra profilo
Re: Google - Url Limitati da robots
« Risposta #3 il: 10 Gen 2008, 12:41:52 »
no, è strano, io uso lo stesso "file" sul mio sito e non mi da problemi......

Prova ad lanciare un editor di testi, il più semplice possibile, tipo notepad se usi win, copia e incolla quello che ti ho postato prima (modificando l'indirizzo) e salva come "robots.txt" poi trasferisci vi FTP.
(magari l'editor con cui modifichi il file immette dei caratteri non riconosciuti).
Andrea | www.joomlovers.net | Il sito per gli amanti di Joomla!

Offline bastag

  • Nuovo arrivato
  • *
  • Post: 11
    • Mostra profilo
Re: Google - Url Limitati da robots
« Risposta #4 il: 10 Gen 2008, 13:12:36 »
veramente ho usato blocco note di winzozz
e ho salvato con codifica ANSI  come txt
niente di diverso da quello che hai fatto tu, credo...

Offline maraggos

  • Appassionato
  • ***
  • Post: 307
  • Sesso: Maschio
    • Mostra profilo
Re: Google - Url Limitati da robots
« Risposta #5 il: 10 Gen 2008, 13:36:32 »
scusa andrea ma... nell'ultima riga tu metti

Disallow:/

... questo non impedisce l'accesso dei ragni alla root ?


----------------------------------
ooops ...
scusa, ho detto una monata. Come non detto.
Saluti
Alberto

« Ultima modifica: 10 Gen 2008, 13:40:26 da maraggos »

Offline .Andrea S.

  • Instancabile
  • ******
  • Post: 4404
  • Sesso: Maschio
    • Mostra profilo
Re: Google - Url Limitati da robots
« Risposta #6 il: 10 Gen 2008, 14:32:19 »
Quello disabilita l'accesso ai "ragni" subito sopra elencati.

E' una lista di ragni cattivi e di ragni particolarmente esosi nel succhiare risorse.
Se vuoi puoi eliminare dalla lista:
User-agent: Googlebot-Image
User-agent: Yahoo Slurp
User-agent: Slurp
il primo è google image (io non gradisco che le immaggini del mio sito vengano indicizzate)   
Secondo e terzo è Yahoo che mi succhia tantissima banda a ogni passaggio.
Andrea | www.joomlovers.net | Il sito per gli amanti di Joomla!

Offline Xabaras78

  • Appassionato
  • ***
  • Post: 261
    • Mostra profilo
Re: Google - Url Limitati da robots
« Risposta #7 il: 18 Mar 2008, 21:17:14 »
Ciao a tutti,
Uhm, mi riallaccio un attimo a questa discussione... Sul mio sito  negli ultimi giorni/settimane noto un incremento notevole di visite... andando a spulciare i relativi ip ho visto che sono tutti del tipo 74.6.xxx.xxx e facendo una breve ricerca appartengono alla Inktomi, che pare gestisca lo spiderbot Slurp e altri... Per cui ho deciso di metter mano al file robots.txt per impedire l'accesso a quel bot e ad altri...
La cosa che mi chiedo pero': agendo sul robots.txt impedisco unicamente che gli spiderbot indicizzino le pagine del mio sito? o che accedano COMPLETAMENTE al sito? Chiedo questo perche' nonostante le modifiche al file, dal modulo statistiche del mio sito (vinaora visitors counter) noto ancora sempre la traccia di tutti quegli ip... E' normale che sia cosi' o e' il robots.txt che non sta funzionando?
Quizzer!:  chat, giochi, flashgames, e tanto altro...

Offline .Andrea S.

  • Instancabile
  • ******
  • Post: 4404
  • Sesso: Maschio
    • Mostra profilo
Re: Google - Url Limitati da robots
« Risposta #8 il: 19 Mar 2008, 07:18:36 »
il file robots è solo una indicazione per gli spider "buoni", se gli spider la vogliono seguire bene altrimenti fanno come gli pare. Se vuoi impedire l'accesso devi bloccare l'ip.
Andrea | www.joomlovers.net | Il sito per gli amanti di Joomla!

Offline Xabaras78

  • Appassionato
  • ***
  • Post: 261
    • Mostra profilo
Re: Google - Url Limitati da robots
« Risposta #9 il: 19 Mar 2008, 11:23:44 »
Ok, grazie. Cmq rettifico... da 12 ore a questa parte, non registro piu' alcun ip 74.6* tra le visite del mio sito... pare funzioni in tutto e per tutto... sperem  ::)
Quizzer!:  chat, giochi, flashgames, e tanto altro...

Offline Xabaras78

  • Appassionato
  • ***
  • Post: 261
    • Mostra profilo
Re: Google - Url Limitati da robots
« Risposta #10 il: 24 Mar 2008, 15:21:14 »
Piccolo aggiornamento per chiudere la (mia) questione... Dopo giorni di apparente "calma", ho cominciato a rivedere una vera valanga di ip 74.6* tra le statistiche di visite del mio sito... oggi addirittura piu' di 1000 accessi in meno di 14 ore... e il tutto senza aver toccato minimamente il file robots...
Ho risolto bloccando radicalmente quella classe di ip nell'htaccess... e al diavolo il crawl di yahoo.
Quizzer!:  chat, giochi, flashgames, e tanto altro...

Offline micuzzo

  • Esploratore
  • **
  • Post: 80
    • Mostra profilo
Re: Google - Url Limitati da robots
« Risposta #11 il: 24 Mar 2008, 20:17:19 »
Piccolo aggiornamento per chiudere la (mia) questione... Dopo giorni di apparente "calma", ho cominciato a rivedere una vera valanga di ip 74.6* tra le statistiche di visite del mio sito... oggi addirittura piu' di 1000 accessi in meno di 14 ore... e il tutto senza aver toccato minimamente il file robots...
Ho risolto bloccando radicalmente quella classe di ip nell'htaccess... e al diavolo il crawl di yahoo.

Ciao, ho il tuo stesso problema, mi potresti spiegare come modificare l'htaccess per bloccare gli ip?

Ciao e un grazie anticipato ;)

Offline Xabaras78

  • Appassionato
  • ***
  • Post: 261
    • Mostra profilo
Re: Google - Url Limitati da robots
« Risposta #12 il: 24 Mar 2008, 20:44:09 »
Certo... basta inserire in fondo al file .htaccess le righe

order allow,deny
deny from 74.6.
allow from all

Considerando che tutto quel range di ip lo possiede lo spider di Yahoo, lo si dovrebbe tenere fuori alla grande...
Quizzer!:  chat, giochi, flashgames, e tanto altro...

Offline micuzzo

  • Esploratore
  • **
  • Post: 80
    • Mostra profilo
Re: Google - Url Limitati da robots
« Risposta #13 il: 24 Mar 2008, 21:31:18 »
Certo... basta inserire in fondo al file .htaccess le righe

order allow,deny
deny from 74.6.
allow from all

Considerando che tutto quel range di ip lo possiede lo spider di Yahoo, lo si dovrebbe tenere fuori alla grande...

funziona benissimo, sai anche come poter modificare la pagina che visualizzano gli IP bloccati?

Ti ringrazio per l'utilissima info ;)

Offline meph

  • Appassionato
  • ***
  • Post: 227
    • Mostra profilo
Re:Google - Url Limitati da robots
« Risposta #14 il: 31 Lug 2010, 12:09:38 »
discussione veramente interessante, ma se volessi bloccare + range di ip , quali righe dovrei ripetere nel file htaccess ?
Se sotto il cielo c'è qualcosa di speciale...passerà di qui prima o poi.

 



Web Design Bolzano Kreatif