Le brevet Panda en clair

Description simplifiée du brevet 8,682,892 de classement des pages, images et autres ressources, supposé pénaliser le contenu de pauvre qualité.

Trois ans après, voilà dévoilé l'algorithme Panda qui a déclassé des dizaines de millions de sites Web (environ 20% de 300 millions), remis en question le métier de webmaster et mis en faillite une quantité innombrable de site d'ecommerce. On sera ravis de découvrir que le fameux algorithme qui est censé juger de la qualité des sites web et "créer un ecosystème sain" selon les dires de Google, se réduit à une simple équation: M = IL / RQ!

Il n'y a pas à en douter cependant, l'étude du brevet 8,682,892 décrit une méthode de positionnement dont les effets correspondent parfaitement au nouveau fonctionnement du moteur de recherche initié le 24 février 2011...

Cela a profité aux grands sites comme Amazon, eBay qui ont vu une augmentation de 30% de leur trafic.
Cela a touché principalement les sites de taille moyenne. De très nombreux site d'ecommerce ont fermé leurs portes.
Et profité aux sites de marques.
Les sites sont affectés dans leur entier et pas seulement les pages de moindre intérêt.
Les sites anciens sont plus touchés que les nouveaux.
Les sites atteints ne récupèrent pratiquement jamais leur audience, même s'ils améliorent leur contenu. Quelques uns cependant ont pu récupérer en supprimant une grande part de leurs pages.
12% des sites ont été touchés par la première itération et plus encore par les suivantes.
Panda demande d'énormes ressources et il est appliqué d'abord par un programme indépendant que l'on lance à peu près tous les mois. On sait maintenant que c'est pour construire les partitions de groupes de ressources de tous les sites du Web.
Cela a été présenté par Google comme un moyen de déclasser les pages de moindre qualité. C'est bien l'objectif donné dans le brevet.

Google a ensuite considéré que cette méthode méritait un brevet et a déposé la spécification 8,682,892 le 28 septembre 2012.

Et voici en détails cette méthode...

La méthode Panda

Le processus utilisé pour modifier les classements selon le facteur Panda consiste à partitionner l'index en groupes de ressources, considérés comme liées entre elles.

1) On définit des groupes de ressources

L'ensemble du Web est partitionné en groupes de ressources. Les ressources sont des pages, images et autres documents qui peuvent apparaître dans les résultats et sont dans l'index.
On classe les ressources dans un même groupe sur la base de leurs URLs, et le groupe inclut tous les documents d'un domaine, d'un sous-domaine, d'un ensemble de domaines, ou d'un même hébergement.
Google peut aussi inférer l'appartenance à un groupe sur la base d'éléments communs: même présentation, même feuille de style... (On espère qu'il n'assimile pas dans un groupe tous les sites qui utilisent Bootstrap!).

Le groupe (site ou ensemble de sites) un fois défini, on lui attribue un facteur Panda qui sera appliqué à chaque page du groupe. On verra plus loin comment est calculé ce facteur.

Pour simplifier la description, on désignera un groupe de ressource par "site" et une ressource par "page", mais vous retiendrez que c'est plus compliqué que cela.

2) Le score initial d'une page est défini.

Quand le système reçoit une requête d'un utilisateur, il reçoit aussi une liste de pages avec pour chacune un score initial pour le classement.
Celui-ci est calculé auparavant par l'algorithme usuel selon 200 critères, dont le PageRank.
On doit lui le modifier avec le facteur Panda.

3) On identifie le groupe...

Pour chaque page, le programme identifie le site auquel elle appartient sur la base de son URL. Connaissant le site, il récupére le facteur Panda associé.

4) On génère un facteur spécifique à la page

A partir du facteur Panda du site, on calcule quelque chose de plus spécifique. Pour se faire, on compare le score initial de la page à deux paliers successifs.

Si le score initial est en dessous d'un premier palier, le facteur Panda est annulé.

Si le score initial se situe entre ce premier palier et un second palier plus élevé on calcule un facteur spécifique qui baisse d'autant plus que le score initial augmente.

Si le score initial se situe au dessus de ce second palier, le facteur Panda du group est modifié par une formule ou un algorithme qui adoucit son effet.

5) On exclut les requêtes de navigation

Quand l'internaute fait une requête qui vise à retrouver un site ou une page en particulier, en donnant le nom de domaine ou des termes caractéristiques au site ou à la page, le facteur Panda est ignoré et la page sera classée selon son score initial.

6) On applique le facteur de modification au score initial

La facteur Panda est multiplié au score initial pour obtenir un nouveau score de classement, et ce dernier sera utilisé pour classer la ressource dans les résultats.

Calcul du facteur de modification

Voici comment est défini le facteur Panda pour un groupe de ressources, autrement dit un site ou un ensemble de sites liés.

1) On partitionne l'index en groupes de ressources

Cela se base sur l'URL, mais aussi sur d'autres facteurs afin d'identifier un même possesseur pour un ensemble de ressources. On définit un groupe comme un domaine ou un sous-domaine, ou un ensemble de domaines appartenant à la même personne ou organisation.

2) On calcule le nombre de liens indépendants vers les pages de chaque site

On considère les liens explicites pointant vers le site, mais aussi les références à ce site, comme le nom de domaine même sans balise de lien. Les liens sont indépendants s'ils n'appartiennent pas au même groupe de ressources, donc selon les cas au même domaine, sous-domaine, ou sites d'un même propriétaire ou ensemble de sites liés entre eux.

Mais on peut aussi chercher à trouver une relation entre la page source et la page cible. Une même feuille de style, un contenu similaire, les mêmes images. On peut calculer une valeur d'indépendance et estimer que cette valeur est trop faible pour conclure que le lien est indépendant.

Le système retient seulement un lien dans chaque page du site source.

Il additionne tous les liens indépendants.

3) On calcule le nombre de requêtes vers les pages du site

On calcule le nombre de requêtes de références vers chaque site/groupe. Ce sont les requêtes faites par des utilisateurs différents, vers les pages du site. Les utilisateurs sont identifiés par IP, cookies ou tout autre moyen.

On additionne toutes les requêtes de référence.

4) On définit un ratio pour obtenir le facteur Panda

Facteur de modification = nombre de liens indépendants / nombre de requêtes de référence.

5) On normalise le facteur Panda

Dans certaines implémentation on normalise le facteur de modification.
On définit des intervalles de nombres de requêtes de référence et on partitionne l'index en un ensemble de sites/groupes appartenant à un même intervalle.
On normalise le facteur Panda de chaque site sur la base des autres sites de la même partition, donc du même intervalle.
Pour ce faire on calcule la moyenne ou la médiane ou une autre mesure de ce genre et on applique la formule:

Facteur de modification normalisé = facteur de modification - mesure / mesure.

On stocke cette nouvelle valeur à la place du facteur de modification initial.

Modifications ultérieures

Panda a reçu plusieurs modifications dont certaines ont été rendues publiques...

Les niches. Certains sites fournissent une information unique dans des secteurs particuliers et pour autant ont très peu de liens entrants. On a essayé de corriger Panda pour épargner ces sites.

Matt Cutts a aussi déclaré que dans une nouvelle itération, Panda prenait en compte le fait que quand les utilisateurs enregistrés sur un compte Google excluent souvent un site des pages de résultats, celui-ci obtient alors un score réduit.

Le 20 mai 2014, une mise à jour majeure à permis à de nombreux petits sites de sortir de la sandbox Panda. Même si la nature de la modification de l'algorithme n'a pas été divulguée, il est clair que Google à finalement tenu compte du fait qu'un petit site ne peut avoir autant de liens retours qu'un site important. Selon répond donc à la critique formulée en conclusion.

L'algorithme et ses effets

En favorisant les liens retours, Panda favorise les pages nouvelles et d'actualités, le buzz. Les backlinks accumulés par les sites anciens disparaissent avec le temps...

Panda ne supprime pas les niaiseries des pages de résultats, du genre "si vous cherchez une vis qui ne casse pas, achetez en une plus solide". Mais ce genre de réponse est maintenant fourni par de grands sites généralistes qui prennent la place des fermes de contenu. Une nouvelle tendance?

La SEO perd beaucoup de son intérêt avec Panda. Aucun travail de référencement ne peut augmenter le nombre de liens retour totalement indépendants. Ils dépendent du contenu. Et de l'activisme. Mais la connaissance des moteurs de recherche reste utile pour régler de nombreux problèmes du webmaster, comme les redirections, le changement de domaine, les duplicates, les microdata, etc...

A qualité égale, plus un site à de visiteurs, plus il a de chances d'obtenir des liens retours. Le ratio explique pourquoi un site ne peut récupérer après avoir été pénalisé par Panda: comment obtenir plus de liens retours alors que l'audience a été considérablement réduite?

Sachant qu'un site reçoit 10000 visiteurs par jour et qu'un autre en a 1000. Si chacun des deux publie une page sur le même sujet avec les mêmes mots-clés et obtient le même score initial, le premier aura dix fois plus de liens du fait du nombre de visiteurs et donc un facteur Panda dix fois plus avantageux.
Mais en quoi cela dénote-t-il une meilleure qualité de contenu?

Quand la réponse à une question complexe ne figure pas sur un site important, elle devient plus difficile à trouver. La popularité est privilégiée.

Selon le ratio utilisé, si un site présente une image qui devient virale et obtient un million de références, tout ce qui sera publié sur ce site sera considéré de qualité et obtiendra un meilleur classement. La qualité des sites selon la notion qu'en a Google est estimée par un algorithme de pauvre qualité.

Mise à jour Mai 2014: Lors de la nouvelle itération du 20 mai, il semble que l'on ait pris en compte (après 3 ans) le fait qu'un plus petit site ne puisse obtenir autant de backlinks même avec un contenu original et informatif.

Auteur: Denis Sureau, le 14 avril 2014.

Autres images accompagnant le brevet:

Schéma d'un système de recherche. Sur lequel est mis en oeuvre la méthode brevetée.
Les étapes de l'algorithme Panda.
Le calcul du facteur de modification.
Normalisation du facteur de modification.