Comment Google attribue un score à une page Web

Ce document est établi à partir d'une demande de brevet faite par Google auprès du bureau des brevets américain le 26 avril 2007 (1). Il explique en détail comment est attribué à chaque page le score qui déterminera sa position dans les résultats du moteur de recherche. Tous les critères qui déterminent le positionnement d'une page sont analysés et par conséquent les raisons qui provoquent l'effet sandbox sont dévoilées.

La date du document

La date est importante pour attribuer un score. Pour déterminer la date d'un document, plusieurs méthodes sont possibles, ce peut être la date de l'indexation, ou la date à laquelle un lien est placé sur la page.
Si le nombre de liens sur une page augmente plus vite que pour une page plus ancienne, cela donnera un meilleur score, mais cela peut aussi signaler un spamming.
Si un document est plus récent que la moyenne des pages dans un résultat, on peut lui attribuer un meilleur score pour améliorer sa position afin de tenir compte de sa nouveauté.

Evolution du contenu de la page

Le score n'est pas le même selon que le contenu du document est souvent changé ou non.
Pour déterminer les changements, on peut stocker le document entier, ou une signature qui le représente en résumé, ou une partie jugée essentielle u document.
Le score peut être positif ou négatif selon ces changements.

Analyse des requêtes et des clics sur les résultats

On peut prendre en compte la façon dont un document est choisi parmi les résultats d'une requête.
Si certains termes apparaissent plus fréquemment dans les requêtes des utilisateurs, un document associé à ces termes (les contenant ou ayant des backlinks qui les contient) aura un meilleur score.
Si un document répond souvent à des requêtes similaires, ce document obtiendra un meilleur score.
On tiendra compte du fait que certaines requêtes se maintiennent dans le temps tandis que les pages qui y répondent ne sont pas les mêmes (dans les résultats sportifs par exemple). Le score décroît si le document ne répond plus à la requête.
Dans certains domaines, comme une FAQ, la nouveauté d'un document est importante et améliore le score.
Cependant si les utilisateurs cliquent sur le lien d'un document plus ancien et ignorent les plus récents, ce document aura un meilleur score.
Un document qui apparaît plus souvent dans les requêtes sur un thème, mais moins lorsque le champ se précise, aura un score moindre (par exemple le thème peut être un sport et il se retreint au sujet un club sportif précis).
Si un document apparaît dans des requêtes sans rapports entre elles, cela signale un spam et le score est réduit.

Le critère des liens sur la page

L'apparition des backlinks et leur disparition est prise en compte.
Si l'apparition de nouveaux backlinks se réduit avec le temps, cela signifie que le document devient dépassé, alors son score sera réduit.
Tandis qu'à l'inverse si ce nombre tend à progresser il aura un meilleur score.
Si le contenu d'un document est modifié, mais que le lien qu'il contient sur une autre page est maintenu, cela ajoute de la valeur à ce lien et donc augmente le score de la page liée.
La valeur des liens augmente s'ils sont "trustés", ce qui est le cas par exemple des sites gouvernementaux.
La vitesse d'apparition de backlinks signale un spam. On suppose que les pages d'un type donné attirent les liens selon une vitesse donnée. Si trop de backlinks apparaissent, cela implique un échange ou achat de liens, ou des pages d'inscription libre (telles qu'annuaires, N.D.T.) et cela est du spam.

Le texte des ancres

La modification du texte des ancres signifie qu'il y a eu une mise à jour du document.
Si le texte change et diffère du libellé des ancres, cela signifie une refonte du document, et le fait qu'il ne soit plus pertinent avec les ancres, ce qui n'est pas désirable.
On peut à partir de là déterminer la date à laquelle un domaine change de thématique et les liens antérieurs à la date seront ignorés.
Si le document connaît des changements mineurs, il faut conserver le libellé des ancres, leur ancienneté est gage de pertinence.

Le trafic sur la page

Si le trafic, autrement dit le nombre de lectures d'une page décroît de façon significative, cela signifie que le document est dépassé. Des comparaisons sont faites sur le temps et sur les périodes pour estimer la décroissance du trafic.
Le trafic venant des publicités est pris en compte. Si des publicités sont placées au sujet d'autres sites à fort trafic, alors la page aura un meilleur score qu'avec des publicités pour des sites mineurs.

Comportement des visiteurs

Le nombre de fois ou une page est choisie dans les résultats des recherches compte, ainsi que le temps mis pour accéder à la page.
Selon que le visiteur passera plus ou moins de temps sur une page, celle-ci sera considérée comme pertinente ou dépassée. Si les visiteurs passent de moins en moins de temps sur une page avec le temps, elle sera considérée comme obsolète.

Informations sur le nom de domaine

L'hébergement est pris en compte, Intranet, Internet ou réseau de bases de données de documents.
Les domaines récents peuvent être utilisés par des spammeurs et considérés donc comme moins légitimes.
Les données du serveur de nom, propriétaire du domaine, contacts, adresses du serveur de nom, sont prises en compte. Les changements fréquents sont signes de spam. Les IP et autres données utilisées pour ces sites volatiles sont enregistrés dans une base de données ainsi que les documents associés.
Le serveur de nom est mieux considéré s'il réfère à des domaines différents pour des registrars différents. Il est mauvais s'il héberge des sites porno, des sites de spams, des domaines contenant des mots commerciaux.
Le score du document dépend du domaine et de son hébergement.

Les rangs précédents

Les précédents rangs sont pris en compte. Le nombre de positions qu'un document gagne en un temps donné modifie son score. Cependant si un rang reste haut alors que les positions tendent à changer avec le temps sur un sujet, cela dénote un sujet commercial et une probabilité de spam plus forte.
Si le nombre de sélections pour une page tend à augmenter, ou si les sélections sont plus fréquentes, la page aura un meilleur score.
Le moteur prend garde aux pics dans le rang des documents, synonyme d'actualité ou de spam. Pour faire la différence, différents facteurs sont pris en compte. Un document évoqué dans des news par exemple, n'est pas un spam.
A l'inverse, une chute soudaine du rang d'un document indique qu'il est dépassé.
En conclusion, l'évolution du rang d'un document influe sur son score et son rang futur.

Bookmarks

Les bookmarks et autre données de ce type influent sur le score d'un document. Le fait d'être ajouté ou supprimé de ce type de liste est pris en compte. Le fait que l'on accède souvent au document dans la liste influe aussi.
La mémoire cache, les répertoires temporaires sont pris en compte, ainsi que les cookies. Tout cela indique si un document est consulté ou si on s'en désintéresse.

Mots uniques et ancres

La fréquence d'un mot unique ou d'une phrase dans les ancres est prise en compte en relation avec les liens qui pointent dessus.
Si des ancres sont suspectes, notamment parcequ'il y a beaucoup de libellés indentiques dans des documents différents, cela aura un impact sur le score de ces documents et ceux qui ont un lien dessus.

Liens non pertinents

Les liens non pertinents entrants ou sortants sont un indicateur de spam et font baisser le score de la page.

Sujet du document

Il est utilisé pour déterminer son score.
Le thème d'un document est déterminé à partir de mots rares, de l'URL, du sommaire, du contenu, etc.
Si le thème d'un ensemble de documents change, cela dénote un propriétaire ou une thématique différente et toute l'information sur le document devient périmée. Ou cela signifie que le document est utilisé pour faire du spam.

(1) Source US Patent and Trademark Office.

Un brevet a été déposé également pour calculer le FreshRank, une note sur la fraîcheur des pages.