Utilizza wget per trovare i dead link (404 Not Found) di un sito

di | 27 Settembre 2010

wget

Se siete i gestori di un sito web di una certa dimensione, è quasi sicuro che abbiate il problema dei “dead link” cioè link che indirizzano a pagine inesistenti per i quali il web server restituisce l’errore HTTP 404.

Siccome sapete benissimo che la presenza di questi link in un sito internet può essere penalizzante in prospettiva  SEO, è buona regola effettuare regolarmente un controllo a  capillare di tutte le pagine per garantirsi che tutti i link siano corretti.

Ci sono molti software commerciali che permettono di svolgere questi controlli, ma se siete pratici con la linea di comando, potrete avere un risultato simile sfruttando il comando wget.

Basta eseguirlo come indicato di seguito:

wget --mirror --keep-session-cookies -o wget.log http://www.sito.com

Dove:

  • –mirror è l’opzione che indica a wget di scaricare tutto il sito
  • –keep-session-cookies permette di navigare anche pagine dinamiche che variano in base alla sessione utente

Eseguito questo comando tutti i contenuti del sito saranno  scaricati in locale e nel file wget.log troverete l’elenco di tutte le operazioni del crawler con i tanto di risultati. Adesso sarà sufficiente una semplice ricerca della stringa “404” nel file di log per trovare immediatamente tutte le URL trovate da wget che puntano a pagine inesistenti.

Una buona manovra in ottica seo.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.