Le PageRank de Google

Le nom PageRank, qui est pris comme un nom propre par Google, est un jeu de mot entre Page Rank, rang d’une page, et Larry Page, un des deux fondateurs de la compagnie, laquelle doit son succès initial à l’implémentation d’un algorithme de même nom. Celui-ci classe les pages Web selon leur popularité sur le Web, donc selon le nombre de lien pointant sur elles.

Le rôle du PageRank

Le PageRank intervient dans un second temps: lors d’une recherche, les pages sont sélectionnées selon les mots-clés qu’elles contiennent. Ensuite les pages qui contiennent les mêmes mots-clés sont classées selon un ensemble de critère parmi lesquels le PageRank.
Ainsi il est possible de parvenir en tête des résultats avec un PR nul, pour peu que l’on soit seul à évoquer certains mots-clés.
Par contre sur les recherches concurrentielles, le PR est très important.

Le PR est pris en compte également par le robot d'indexation: le nombre de pages qui sont parsées à chaque passage du crawler dépend du PageRank du site (Réf. Matt Cutts).

Liens entrants et liens sortants

L’algorithme du PageRank prend en compte les liens entrants, les backlinks, et les liens du site vers d’autres pages.
Cela ne prouve pas que les liens que l’on fait sur d’autres sites améliore le PageRank, car l’algorithme initial n’est plus utilisé depuis longtemps (selon Google). Par contre il est confirmé par les sites des moteurs que les liens sortants, s’ils sont pertinents et s’ils pointent sur des sites de références, contribuent à sélectionner une page lors d’une recherche.

L’effet sandbox

On s’accorde généralement à considérer que l’effet sandbox se constate chez Google et non sur d’autres moteurs de recherche.
La sandbox est une zone de stockage temporaire supposée ou Google placerait les sites nouveaux en attendant de leur attribuer un PageRank.
On parle d’effet sandbox lorsqu’un site perd son classement dans les résultats de recherche, et sans être pour autant désindexé, devient introuvable parce que placé en fin de liste (cela ne l’affecte pas quand il est seul à contenir des mot-clés donnés).
Il s’agirait là d’une sanction infligée par Google aux sites qui créent arbitrairement des backlinks en quantité par l’emploi de sites satellites et autres artifices, comme on le verra plus loin.
Certaines affaires récentes (bmw.de par exemple) ont officialisé l’existence de l’effet sandbox. ll existerait depuis mars 2004.

On constate aussi un effet sandbox dans le fait que les pages nouvelles mettent plus longtemps à être indexées par Google que par les autres moteurs de recherche. Les avis divergent, certains estimant que l’algorithme de Google intègre plus lentement les pages, d’autres que c’est une mesure délibérée pour combattre le spamming provenant de pages satellites créées de façon périodique et rapprochée.

Vue simplifiée de l’algorithme du PageRank

Il s’agit de l’algorithme initial décrit par Larry Page et Sergey Brin et qui est à l’origine de Google.
Un meilleur PageRank sera obtenu par une page avec un plus grand nombre de liens pointant sur elle mais en fonction aussi du PageRank qu’ont ces pages elles-mêmes. Si une page pointe sur plusieurs autres, le poids qu’elle apporte est divisé par le nombre de lien. Mais le poids qui est acquis par des liens de qualité étant intégré à la page, il sera transmis aux pages sur lesquelles pointe cette page.
Cela fonctionne à l’intérieur d’un même site.

Les artifices interdits pour tenter d’améliorer le PageRank

Ces artifices sont généralement détecté par Google, qui d’ailleurs demande que l’on dénonce les sites employant ces pratiques, ce que font volontiers les professionnels quand leurs concurrents y ont recours. Ces sites peuvent être placés sur une liste noire et être désindexés.

Les techniques recommandées pour augmenter le PageRank

Il y a pourtant des techniques honnêtes pour augmenter le PR d’un site… On appelle cela l’optimisation pour les moteurs de recherche, ou SEO, en anglais Search Engine Optimization. (Cela va au-delà du PageRank.)

Plus d’informations