Ajax HTML 5 JavaScript Création site CMS Comment Design Logiciels Programmation RSS SQL Scripts Mobiles
TECHNIQUES & OUTILS
Simple Map
Spider SEO
Site update
TUTORIELS
Widgets
Tutoriel Adsense
Tutoriels du Web

Sitemap et générateur de carte de site Web

La carte de site est appréciée des robots de moteurs de recherche en version XML et des utilisateurs, en version HTML, pour s'orienter au besoin sur le site.
Actuellement les sitemap sont étendues avec des balises image et vidéo, et même, avec un ensemble de balise qui en fait l'équivalent d'un flux RSS.

Vous pouvez générer une carte de site en juste une commande avec le script fourni ici, et éditer le document généré à partir du visualisateur intégré (ou n'importe quel éditeur de texte ou XML), et ensuite télécharger le fichier directement à la racine de votre site.
Finalement, il faudra enregistrer le fichier s'il est au format XML ou texte. Le format XML utilisé est le standard créé par Google et adopté par Yahoo et Live Search (Microsoft).


  • Les concepts
    • Comment créer une carte d'un site web?
    • Pourquoi faire une carte de site?
    • XML, text, HTML quel format choisir?
    • Formats de sitemaps.
    • Sitemap Index.
    • Contenus multiples dans une même sitemap.
    • Trucs, conseils importants pour les cartes de site web.
    • Valider le fichier sitemap.xml
    • Soumettre la carte de site.
      • Enregistrer sur le site.
      • Faire un ping.
      • Utiliser le fichier robots.txt.
  • Le programme.
    • Comment cela fonctionne.
    • Obtenir le programme.
    • Obtenir le code source.
    • Modifications.
  • Ressources.

Les concepts

Comment créer une carte d'un site web?

Avec l'interface graphique, il suffit de donner le nom de la page d'accueil et de cliquer sur le bouton "Generate".

Pourquoi faire une carte de site?

Qu'elle soit au format XML et enregistrée chez Google ou au format HTML, le carte permet de mieux référencer un site web. En outre, Google fournit une analyse du référencement avec rapport sur les problèmes quand un fichier sitemap.xml est enregistré, et des statistiques.
Il vous indique quelles recherches aboutissent à vos pages et quelles pages n'ont pas pu être indexées.

Simple Map, l'écran

XML, text, HTML, quel format choisir?

Le format XML est maintenant reconnu par les principaux moteurs de recherche. Il permet de donner des indications à Googlebot et autres robots de recherche. Ce document XML est généré par Simple Map selon le format est défini à l'origine par Google.
- La balise priority: elle indique quelles pages sont les plus importantes.
- La balise lastmod: donne la date de dernière modification, à utiliser conjointement avec la fréquence.
- La balise changefreq: indique avec que fréquence le robot doit parser la page, de always pour un très gros site, et des pages qui changent fréquemment, à yearly ou never pour les documents statiques (Par exemple les spécifications officielles de formats avec un numéro de version).

Le format texte donne uniquement la liste des URL des pages. Il est accepté par Google.

Le format HTML est destiné aux visiteurs de votre site. Il peut afficher les liens, les titres, les descriptions et autres informations. Il peut ne lister qu'un partie des pages.
Il est parsé par les moteurs de recherche et peut servir à leur indiquer des pages non indexées, notamment dans le cas ou il y a plusieurs niveaux de répertoires, les plus profonds n'étant pas toujours pris en compte.

Le fichier texte ou HTML sont de simples liste d'URLs, mais le format XML est composé de balises correspondant à un format standard.

Formats de sitemaps

Format XML

Le conteneur est urlset et il contient une série de balises url correspondant aux pages du site.

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
     <url>
        <loc>http://www.scriptol.fr/</loc>
        <lastmod>2005-01-01</lastmod>
        <changefreq>monthly</changefreq>
        <priority>0.8</priority>
     </url>  
</urlset>

Images dans les sitemaps

Pour faire indexer une image, le format est le suivant:

<url>
   <loc>http://example.com/sample.html</loc>
   <image:image>
       <image:loc>http://example.com/image.jpg</image:loc>
   </image:image>
</url>

Plus de détail sur le Centre pour Webmasters de Google.

Vidéos dans les sitemaps

Voir le format étendu et la FAQ des sitemaps de vidéos, par Google. (Anglais)

Sitemap de news

Pour que vos articles soient publiés sur Google News, il faut, outre l'URL contenant un ID unique, une sitemap spécifique.
Il s'agit de la sitemap standard XML avec des balises ajoutées.

En fait ces balises transforment la sitemap en fichier RSS :

  • <publication> équivaut au canal. Il englobe la balise <name> et <language>.
  • <access> avec pour valeur "publication", accès libre ou "registration" accès limité.
  • <genre>, optionnel, sert à qualifier le type d'article.
  • <publication_date>, date et heure de publication.
  • <title>, titre de l'article.
  • <keywords> optionnel.
  • plus les balises de sitemap pour l'URL, le poids...

La sitemap ne doit conteni que les articles publiés dans les deux derniers jours.

Voir le format Sitemap News.

Sitemap index

Un index est un fichier contenant une liste de sitemaps. Il permet si vous avez plusieurs sitemaps ou si la carte de site est fractionnée en plusieurs fichiers de donner leurs URL.
Inutile de créer un index pour une seule sitemap et même des sitemaps de contenus différents peuvent maintenant être combinées en une seule comme on va le voir.

Le fichier index a aussi un format XML standard.
Le conteneur est sitemapindex et il contient une série de balises sitemap.

<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
     <sitemap>
        <loc>http://www.scriptol.fr/sitemap1.xml</loc>
        <lastmod>2004-10-01T18:23:17+00:00</lastmod>
     </sitemap>
</sitemapindex>

Contenus multiples dans un même sitemap

Pour faire face à la multiplication des types de fichiers de sitemap, Google a décidé d'intégrer tous les types de contenus dans un même fichier.
Le fichier à contenu multiple ressemble à ceci:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
xmlns="http://www.sitemaps.org/schemas/sitemap-image/1.1"
xmlns="http://www.sitemaps.org/schemas/sitemap-video/1.1">
<url>
<loc>http://www.scriptol.fr/mapage.html</loc>
<image:image>
<image:loc>http://scriptol.fr/image.jpg</image:loc>
</image:image>
<video:video>
<video:content_loc>http://www.scriptol.fr/mavideo.flv</video:content_loc>
<video:title>Regardez grandir le petit dernier.</video:title>
</video>
</url>
</urlset>

Donc trois types de balises dans la balise URL : loc pour une page, image et image:loc pour un fichier image, et video avec video:content_loc..

Trucs, conseils importants pour les cartes de site web

Sitemap XML

  • Le format XML est reconnu au moins par Google, Yahoo, Live Search, Ask.
  • Les sitemaps en XML sont nécessaires si vous utilisez des liens dynamiques sur vos articles (lien en JavaScript).
  • N'utilisez pas de carte de site XML si toutes les pages de votre site sont déja indexées par Google. (taper dans le champ de recherche site:www.sitexyz.com pour le vérifier).
  • Si certaines pages ne sont pas encore indexées, donnez leur une plus haute priorité, comme contenu de l'élément "priority" du fichier XML.
  • Pour retirer une page de l'indexation par les moteurs de recherche, vous devez utiliser un fichier Robots.txt ou la méta-tag "ROBOTS".
  • La carte est pour le site entier. Ne créez pas une carte avec uniquement les pages non encore indexées par Google.
  • Vous pouvez omettre les balises optionnelles (priority, lastmod, changefreq) si vous n'êtes pas sûr d'en avoir besoin.
  • L'option heure ("Time") est pour les sites gigantesques! La date seule suffit dans la plupart des cas.
  • Une sitemap dont toutes les pages ont la même priorité maximale et la même fréquence de lecture, la plus élevée, à un intérêt null pour Google. Donnez aux pages la priorité la plus basse et la fréquence la plus espacée si elles sont déja indexées et inchangées.
  • Pour les vidéos, une balise à été ajoutée au protocole sitemap. Voir le tutoriel de sitemap vidéo par Google.
    Les balises vidéos se placent dans une sitemap séparée.

Sitemap HTML

  • Vous pouvez créer une sitemap HTML pour les visiteurs et XML pour les moteurs de recherche.
  • Placez le lien sur la carte de site HTML sur la page d'accueil.
  • Quand une page est ajoutée sur le site, elle n'est pas indexée avant des semaines. Même si les robots de recherche scannent le site chaque jour, la base de donnée est actualisée pour un ensemble de sites sur une période espacée en semaines ou en mois.

Sitemap RSS

  • Un fichier RSS constitue une carte de site valide pour Google, mais pour les pages récemment ajoutées.

Sitemap index

  • Un index peut contenir les URLs de 50 000 sitemaps pouvant contenir chacune 50 000 URLs de pages Web.

Valider le fichier sitemap.xml

Voilà l'adresse d'un site qui validera votre fichier sitemap XML. Il vous faut les fichiers:
- sitemap.xsd, le schéma du format, est inclus dans l'archive.
- sitemap.xml, la liste des pages, sur votre site web ou local sur votre ordinateur.
Voir ressources.

Soumettre la carte de site sitemap.xml

Le fichier XML doit être placé à la racine de votre site, comme le fichier index.html ou index.php.

Selon sitemaps.org, on peut soumettre le fichier xml selon trois méthodes:

  1. Enregistrer la carte sur le site du moteur de recherche.
  2. Ajouter une ligne dans le fichier robots.txt.
  3. Lancer une requête au serveur par un script ou avec le navigateur.

Enregistrer la carte

Enregistrer à:

  • Google.

Créer un compte si vous n'en avez pas encore.
Google vous fournira un fichier d'identification à télécharger sur votre site, et une fois cela fait, vous retournez encore dans votre compte sur Google et cliquerez sur le bouton "Verify"... puis oubliez-les une journée avant de revenir sur votre compte pour les résultats.

Faire un ping

Vous pouvez aussi enregister la carte par un ping, voir "What do I do after I create my Sitemap?" dans la FAQ mentionnée en ressources plus loin.
Lorsque votre sitemap est mise à jour, vous ne devez pas l'enregistrer de nouveau, vous pouvez en informer le moteur de recherche par un ping:

http://www.google.com/ping?sitemap=http://www.scriptol.fr/sitemap.xml

Remplacer scriptol.fr par l'URL de votre site web, et google.com par le domaine du moteur de recherche concerné: yahoo, ask, etc.

Utiliser le fichier robots.txt

Selon le blog de Google, vous pouvez maintenant ajouter une entrée dans le fichier robots.txt pour la carte de site, et elle sera parsée lorsque les robots de Google et autres moteurs de recherche, rencontrent ce fichier.
La syntaxe est la suivante:

User-Agent:*
Disallow:
Sitemap: http://www.scriptol.fr/sitemap.xml

Le fichier robots.txt se place à la racine du site comme le fichier sitemap et la page d'accueil index.html ou autre.

Il est possible si l'on possède plusieurs sites, de donner dans le fichier robots.txt d'un site, l'URL des sitemaps de chacun des sites, une par ligne. Référence.

User-Agent:*
Disallow:
Sitemap: http://www.scriptol.fr/sitemap.xml
Sitemap: http://www.scriptol.com/sitemap.xml

Le programme

Comment cela fonctionne

Le programme parse récursivement le contenu d'un site web, à partir de la page d'accueil, vers chaque page qui lui est liée, et construit la liste de toutes les pages à référencer par les moteurs de recherche.
Une liste d'extensions valide dans le code source définit le type des fichiers à indéxer.
Le programme actuellement fonctionne sur une image locale du site. Il y a une quantité de sites web qui proposent de construire la carte de site directement sur le site hébergé.

Voir le manuel (anglais).

Obtenir le programme

  • Télécharger la dernière version de Simple Map
  • Télécharger la version 1.4.

Obtenir le code source

Le code source du script en ligne de commande est inclus dans l'archive. C'est un programme en langage Scriptol, il est clair et compact grâce aux fonctions de traitement de texte de ce langage de programmation.

Vous pouvez compiler le source en PHP, en C++ ou faire un programme exécutable binaire.
Le code source de l'interface graphique est fourni gratuitement aussi.

Modifications

  • Dernières modifications.

Ressources

  • Spécification complète du standard XML.
  • Valideur - Vérifier que votre sitemap est bien formée.
  • Sitemaps.org - Site web officiel commun à Google, Yahoo, Live Search.
  • Robotstxt.org. Plus d'informations sur le fichier robots.txt.

Licence: Mozilla 1.1.

Tweet
© 2007-2012 Denis Sureau. Scriptol.fr