robots.txt – risorse utili:
1) Inserendo nel robots il codice User-agent: *Disallow: / può essere utile sapere che nemmeno la sitemap del sito sarà accessibile ai motori di ricerca, fino a quando essi non effettueranno un aggiornamento del robots.txt 2) Un motore di ricerca, se specificato, non segue le regole impostate per tutti, ma solo quelle specificate per esso 3) Per impedire l’indicizzazione dei file con una deteminata estensione in una determinata directory la sintassi corretta è: Disallow: /directory/*.estensione 4) Il comando Allow è supportato da Google 5) Per impedire l’indicizzazione di tutti gli url contenenti la specifica chiave del tipo www.dominio.com/directory/subdirectory/chiave/subdirectory/ la sintassi corretta è: Disallow: /*/chiave/ 6) Per impedire l’indicizzazione di tutte le pagine contenenti nell’url la specifica chiave del tipo www.dominio.com/1chiave.estensione
www.dominio.com/2chiave.estensione
www.dominio.com/chiave3.estensione la sintassi corretta è: Disallow: /*chiave 7) Per impedire l’indicizzazione di tutti le directory contenenti nell’url la specifica chiave del tipo www.dominio.com/1chiave1/
www.dominio.com/2chiave2/
www.dominio.com/chiave3/ la sintassi corretta è: Disallow: /*chiave*/ 8 ) Se si vuole bloccare una pagina senza bloccare la stessa con paramentri e variabili la sinstassi corretta è: Disallow: /directory/file.estensione$ Il dollaro finale (fine riga) indica solo quel file e non comprende le sue variazioni tipo file.estensione?var o file.estensione?page=1 . 9) Per impedire l’indicizzazione di tutti gli url che contengolo parametri in get la sintassi corretta è: Disallow: /*?*