Ajax HTML 5 JavaScript Création site CMS Comment Design Logiciels Programmation RSS SQL Scripts Mobiles
FAQ-Forum
SEO & ALGORITHME
Diagnostic SEO
Bases SEO
Bible SEO
Optimisation Google
Tutoriel SEO
Promouvoir un site
Position en SERP
Obtenir backlinks
Brevet PageRank
Glossaire
FAQ du référencement
OUTILS SEO
Simple Map
Link checker
Outils webmaster
Spider SEO


Le fichier robots.txt est-il important?

Mon site n'a pas de fichier robots.txt. Cela peut-il le faire pénaliser par les moteurs de recherche?

Ce fichier, au format du système d'exploitation du serveur, Unix si le serveur est sous Unix, doit se trouver à la racine de tout site web. Il indique aux moteurs de recherche quelles pages doivent être indexées ou exclues.
Le contenu par défaut typique de robots.txt est celui-ci:

User-Agent: *
Disallow: 

User-Agent est le nom du crawler de chaque moteur de recherche et Disallow spécifie le chemin complet (avec / au début) d'une page ou d'un répertoire, que vous voulez exclure du référencement.
Pour exclure le répertoire cgi, le format sera:

User-Agent: *
Disallow: /cgi-bin/

Pour exclure un fichier:

User-Agent: * 
Disallow: /rep/nomfichier.html

La casse des noms de fichiers spécifiés doit être respectée.
Ne mettez pas plusieurs noms de fichiers ni de crawler sur une même ligne, mettez plusieurs groupes User-Agent ou plusieurs lignes Disallow avec le même User-Agent.

N'insérez pas de ligne blanche qui ne comporte pas le code # au début de ligne.

Il est possible de vérifier la validité d'un fichier robots-txt à partir des outils pour webmaster de Google et aussi de l'éditer en ligne.

Comment Google traite-t-il robots.txt?

Une explication complète a été fournie par Matt Cutts dans une vidéo.
- Si une page est placée en disallow, le robot de Google l'ignore et ne la parse pas.
- Mais si cette page a des backlinks, elle peut apparaître dans les résultats (disallow ne signifie pas no index). Les ancres des liens vers cette page seront utilisés pour la description.
- Eventuellement, si cette page à un lien dans Dmoz (autrement dit ODP), la description de Dmoz peut être reprise dans la page de résultat de Google.
- Pour désindexer une page, il faut utiliser la valeur noindex dans la méta tag robots.

  • Google et robots.txt. La vidéo.

Références et compléments

  • Manuel du référencement. Etape par étape, comment réussir le référencement et être certain de multiplier le nombre de visiteurs.
  • Ce site contient aussi des articles sur robots.txt.
  • 12 règles d'optimisation pour les moteurs de recherche.
  • Google répond à 150 questions sur la SEO.
  • Mythes et réalités sur le moteur de recherche de Google.
Tweet
© 2007-2011 Scriptol.fr