Beh allora devi passare alla seconda opzione:
2. apache: quelli che effettivamente sono visitati (lista più completa e sicura), guarda l' access_log del sito.
Ci capitano almeno un paio di volte l'anno situazioni del genere. Procedi così:
1. tira fuori le url dall'access log, e poi con sort | uniq -c | sort -n (oppure con excel) te le ordini per numero di hit.
2. tira fuori dal db la tabella content (id, title, alias) e menu (idem), e metti il tutto in tre colonne di un file excel
3. individua corrispondenze dapprima per id, poi per alias, poi cercando criteri ulteriori
- a) a fianco del foglio con la tabella menu, metti un flag per ciascuna delle voci che trovano corrispondenza nella prima tabella;
- b) a fianco del foglio con la tabella contenuti, metti un flag per ciascuna delle voci che trovano corrispondenza nella tabella menu;
4. ripeti 3 finché non sei riuscito a creare il massimo numero di corrispondenze
5. rimuovi dalla tabella 1., 2. e 3. tutte le righe per cui hai trovato corrispondenze
- la tabella 1. conterrà le url indicizzate o comunque raggiungibili presenti sul sito che non sei ancora riuscito a trovare;
- la tabella 2. conterrà le voci di menù non necessariamente utilizzate
- la tabella 3. conterrà gli articoli non usati
a questo punto vai di controllo manuale, noi di solito togliamo il 95% delle url o più in questo modo.
Se hai la fortuna di avere url non-SEF, itemId è l'id della voce di menù, id è l'id dell'articolo.