Interactions avec les moteurs de recherche

Pour gérer votre site en accord avec les règles des moteurs, quelques infos...

Sommaire

Comment obtenir le moteur de recherche anglais
Comment exclure une page de l'index
Pourcentages de clics selon la position dans les pages de résultats
Gérer un site temporairement inaccessible
Gérer le duplicate content
Gérer un changement de design
Changer de domaine
On peut modifier les snippets
Une carte de site est utile
Comment est traité le fichier robots.txt
Plus d'informations

Comment obtenir le moteur de recherche anglais?

Pour ne pas être automatiquement redirigé sur Goole.fr quand on tape google.com, on ajoute un paramètre de langue:

https://www.google.com/?hl=en

De même pour toutes les autres langues étrangères. Quand on veut accéder au moteur de recherche, celui-ci vous redirige automatiquement sur la version régionale du moteur. Cela convient à la plupart des utilisateurs, mais pas au webmaster ou à l'internaute qui veut faire une recherche sur google.com.
Pour obtenir google.com sans être redirigé sur le moteur français, taper dans la barre d'URL:

www.google.com/ncr

Ce qui peut être placé en bookmark. "Ncr" signifie "no country redirect" (pas de redirection de pays).

Comment exclure une page de l'index?

Insérer une méta-tag à l'intérieur de section <head> de la page HTML:

<meta name="robots" content="noindex" />

Un fichier robots.txt à la racine du site peut aussi contenir à l'usage des moteurs de recherche, les directives pour exclure des pages.

Gérer un site temporairement inaccessible

Cela peut l'être si la situation n'est pas correctement gérée, ce qui suppose que l'on sache à l'avance que le site sera mis hors service.
Si ce n'est pas le cas, les webmasters peuvent penser que le site, s'il n'est pas très important, est fermé et supprimer les backlinks. De même les robots de moteurs de recherche peuvent renvoyer un signal négatif.
Si la mise hors service est prévue, l'idéal est de renvoyer un code HTTP 503, qui est prévu pour cette situation. En PHP, le code de la page d'accueil ou de toutes les pages dans le cas d'un CMS, peut être comme celui-ci:

header('HTTP/1.1 503 Service Temporarily Unavailable');
header('Retry-After: Mon, 25 Jan 2011 12:00:00 GMT');

Ce code a été fourni par Google.

Gérer le duplicate content

Le duplicate content est la présence de pages en double non pas sur un site ou des sites, mais dans l'index de Google ou autre moteur de recherche.
Cela pourrait arriver avec des URL différentes pointant sur la même page ou avec des copies de page. Ce serait un moyen pour un site qui arriverait un tête de résultats de monopoliser la première page, mais cela ne se voit jamais, donc on peut conclure que les moteurs pénalisent effectivement le duplicate content.
Le contenu dupliqué, ce peut aussi être l'incorporation d'une partie d'un article d'un autre site sur son site. C'est un facteur de pénalisation assuré, a moins qu'il ne s'agisse d'une citation placée dans une balise <blockquote>. Les citations doivent être accompagnées d'un texte personnel.

Gérer un changement de design

Des webmasters ont souvent expérimenté une perte de positionnement avec le changement du design d'un site sans changement du contenu, immédiatement après le passage de Googlebot.
Cette expérience a été partagée sur Webmasterworld. Le positionnement revient à l'état précédent après un délai variable. Il est probable qu'un changement massif déclenche quelque signal chez le moteur.
Par ailleurs Google recommande de ne pas changer le design quand on change de domaine et que l'on redirige les pages.
On recommande donc de modifier le site peu à peu et non globalement. Si quelque chose cause un déclassement, il sera plus facile de voir pourquoi.

On peut modifier les snippets

C'est le nom que Google lui donne à la description sous le titre de la page dans les résultats de recherche. On peut le modifier, Google s'est exprimé à ce sujet à travers son blog pour les webmasters (Improve snippets with a meta description makeover), on doit utiliser la balise meta description qui se trouve dans la section head de la page et a la forme suivante:

<head>
...autres balises...
<meta name="description" content="information lisible et utile">
</head>

Le texte assigné à l'attribut content doit avoir des qualités particulières:

Il doit être écrit en bon français avec une ou deux phrases et pas une suite de mots-clés.
Il doit décrire de façon résumé le contenu de la page.
Il doit être attractif: donner envie de voir le contenu.

Google utilise cette balise quand il la juge valide et surtout:

Quand la page a un contenu dynamique que les robots ne peuvent connaître.
Quand elle contient surtout des images ou des vidéos et peu de texte.
Quand la requête correspond précisément au contenu de la page

Une carte de site est utile

La sitemap, ou carte de site, est un fichier au format XML ou HTML standard contenant la liste de toutes les pages du site sous forme d'URLs. La sitemap peut être générée automatiquement par un CMS ou avec un script comme Simple Map sur un site statique.

La sitemap a pour intérêt principal de faciliter la tâche de référencement à Google. Mais il y en a un autre.
Les liens dynamiques sont ignorés des robots des moteurs de recherche. La sitemap XML ou HTML permet de créer un lien statique.
La sitemap XML peut maintenant être utilisée par les principaux moteurs de recherche. Un format unique de sitemap est reconnu par tous.
Il faudra reconstruire la sitemap chaque fois que le contenu du site est modifié. Mais elle ne doit être enregistrée sur le moteur qu'une seule fois.
Une fois la sitemap enregistrée, il est possible d'obtenir des statistiques et une analyse de son site par Google avec les erreurs éventuelles.
L'adresse de la sitemap XML peut être placée dans le fichier robots.txt.
Il existe un format spécial de sitemap pour faire indexer les vidéos.
En conclusion, faites enregistrer une sitemap XML si votre site est mal indexé, si l'indexation n'est pas mise à jour rapidement, ou si vous voulez avoir des informations statistiques.

Références et compléments : Voir la FAQ sur Sitemaps.org

Comment est traité le fichier robots.txt

Ce fichier doit se trouver à la racine de tout site web. Il indique aux moteurs de recherche quelles pages doivent être scannées ou ignorées.
Le contenu par défaut typique de robots.txt est celui-ci:

User-Agent: *
Disallow:

User-Agent est le nom du crawler de chaque moteur de recherche et Disallow spécifie le chemin complet (avec / au début) d'une page ou d'un répertoire, que vous voulez exclure du référencement.
Pour exclure le répertoire cgi, le format sera:

User-Agent: *
Disallow: /cgi-bin/

Pour exclure un fichier:

User-Agent: * 
Disallow: /rep/nomfichier.html

La casse des noms de fichiers spécifiés doit être respectée.
Ne mettez pas plusieurs noms de fichiers ni de crawler sur une même ligne, mettez plusieurs groupes User-Agent ou plusieurs lignes Disallow avec le même User-Agent.
N'insérez pas de ligne blanche qui ne comporte pas le code # au début de ligne.
Il est possible de vérifier la validité d'un fichier robots-txt à partir des outils pour webmaster de Google et aussi de l'éditer en ligne.
Selon Matt Cutts pour Google, si une page est placée en disallow, le robot de Google l'ignore et ne la parse pas, mais si cette page a des backlinks, elle peut apparaître dans les résultats (disallow ne signifie pas no index). Les ancres des liens vers cette page seront utilisés pour la description.

Plus d'informations

Des directives invisibles pour les moteurs. Avec x-robots.

Google a écrit une FAQ sur son robot, Googlebot. Garantir l'exploration du site, etc...