Autore Topic: Robots.txt (Letto 1242 volte)

Crederbit · « **il:** 09 Mag 2015, 04:24:12 »

Ciao a tutti, vorrei chiedere un suggerimento. Come si può ottimizzare il file Robots.txt ?

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/

queste voci mi conviene lasciarle tutte o devo eliminarne qualcuna ?
il sito va + veloce o viene raggiunto meglio dai motori di ricerca con meno voci ?
se una o + voci vengono eliminate che può accadere ?
nel file Robots.txt mi consigliate di aggiungere la stringa Sitemap: "seguita dal link" ?

steganoga · « **Risposta #1 il:** 09 Mag 2015, 07:41:59 »

qualche ricerchina prima di postare sempre le stesse cose?

Crederbit · « **Risposta #2 il:** 09 Mag 2015, 19:06:58 »

Ciao steganoga, grazie per la risposta anche se non mi è stata d'aiuto.
Ho fatto qualche ricerchina sia nel forum sia in rete, ho trovato un sacco di pagine e le ho lette tutte, ma purtroppo nessuna delle pagine lette esclude i miei interrogativi.

Normalmente in giro ho letto che il Disallow: serve per non permettere ai motori di ricerca di accedere a determinate cartelle e cose simili. Ma da nessuna parte ho letto: cosa accade se si elimina qualche voce? quali rischi si corrono/se si corrono? il sito migliora con i motori di ricerca con voci mancanti? ecc.

per quanto riguarda invece l'aggiunta della stringa Sitemap: ho letto solo che alcuni consigliano di inserirla altri no, quindi pur leggendo non ho ancora le idee chiare, conviene o non conviene inserire la stringa nel file Robots.txt?

Crederbit · « **Risposta #3 il:** 09 Mag 2015, 19:10:48 »

per steganoga hai scritto: qualche ricerchina prima di postare cose ripetitive
quindi mi fai supporre che già hai letto altrove post simili, se sai dove posso trovare le risposte, vado a leggerle con piacere, e te ne sarei grado.

per tutti: se qualcuno sa darmi una mano a risolvere l'enigma mi farebbe più che piacere. Grazie!!!...

giusebos · « **Risposta #4 il:** 09 Mag 2015, 19:40:03 »

mi piacerebbe saper cosa hai letto e dove...

Citazione

Il file robots.txt permette ai webmaster e agli amministratori di sistema di indicare agli spider dei motori di ricerca quali pagine HTML non debbano essere esaminate.

Lo standard per l'esclusione dei robot/spider si avvale dell'utilizzo di un normale file di testo, da creare attraverso un qualunque text editor (es. Notepad / Blocco Note di Windows). Tale file va chiamato "robots.txt" e contiene, in un particolare formato, delle istruzioni che possono impedire a tutti o alcuni spider il prelievo di alcune o tutte le pagine del sito.

Il file robots.txt va creato e pubblicato on-line nella directory principale del sito web. Ad esempio, se il sito ha indirizzo http://www.nomesito.xxx , il file dovrà essere accessibile all'indirizzo http://www.nomesito.xxx/robots.txt .

Tutti gli spider di quei motori di ricerca che hanno deciso di aderire a questo standard e di seguire le indicazioni del file robots.txt, ogni volta che accederanno al sito web, per prima cosa andranno a cercare nella directory principale il suddetto file e, se lo troveranno, seguiranno le direttive contenute al suo interno.

quindi averlo o meno non farà ne aumentare ne diminuire la velocità
Il file è un vigile urbano che indirizza gli spider verso delle cartelle anziche verso altre, oppure blocca questi verso determinate cartelle con la direttiva "disallow" (respingere) o la direttiva "allow" (consentire)
quindi avremo:

Disallow: /administrator/ = Tu Spider qui nella directory /administrator non puoi entrare
Allow:/pippottinodigomma = Tu Spider qui nella directory /pippottinodigomma puoi entrare

Se desideri approfondire qui il link della pagina al wiki dove si parla di questo protocollo
it.wikipedia.org/wiki/Protocollo_di_esclusione_robot

Il file sitemap è altra cosa, quindi per non violare il regolamento, ti consiglio di aprire una nuova discussione che lo abbia per oggetto

Crederbit · « **Risposta #5 il:** 11 Mag 2015, 20:12:54 »

Ciao giusebos, grazie per il tuo intervento accuratissimo è stato + che utilissimo!!!.
Sono andato anche nel link che mi hai lasciato e anch'esso mi è tornato molto utile. Grazie!!!!

posso cogliere l'occasione della tua gentilezza per chiederti un altra cosa sullo stesso argomento?
Sono stato in google strumenti webmaster per monitorare il sito, scovare errori ecc.
Lo spider non mi rileva tutto del sito, ci sono cose che non visualizza perchè dice che ci sono dei blocchi.
(io uso anche codici javascript nel sito)

Mi dice di eliminare la seguente stringa: Disallow: /modules/
o comunque di passarla in Allow:

Posso farlo tranquillamente, o rischio qualcosa se accede alla cartella /modules/
Stessa domanda per le altre voci
in caso per qualsia[/size][size=78%]si motivo che sia google altro motore di ricerca ecc mi dicono di mettere anche altre cartetle in Allow o eliminare stringhe. Posso farlo (se mi viene richiesto) [/size]
o rischio qualcosa? (mi danneggiano il sito, qualcosa, non so) ?

Crederbit · « **Risposta #6 il:** 11 Mag 2015, 20:13:14 »

per quanto riguarda il sitemap, assolutamente non mi permetterei mai di violare alcun regolamento, se è stato fatto chiedo scusa allo staff, posso rimuovere la dicitura sitemap. Per il sitemap provo a cercare prima nel forum se qualcuno già ha trattato l'argomento, viceversa se non lo trovo, ascolto il tuo consiglio e apro un nuovo post

Grazie ancora per tutto !!!

Autore Topic: Robots.txt (Letto 1242 volte)

Crederbit

Robots.txt

steganoga

Re:Robots.txt

Crederbit

Re:Robots.txt

Crederbit

Re:Robots.txt

giusebos

Re:Robots.txt

Crederbit

Re:Robots.txt

Crederbit

Re:Robots.txt