FreshRank - La note de fraîcheur des pages de Google

Dans le brevet 7,346,839 du 18 mars 2008, Google définit les principes selon lesquels une page est considérée comme obsolète et quand il la considère plutôt comme une référence. Une notion de FreshRank est ainsi implicitement détaillée.

La distinction est importante car dans le premier cas, la page disparaît des premières places de résultats au profit de pages considérées comme plus actuelles, et dans le second au contraire, elle voit sa position confortée par son ancienneté et n'est pas affectée par le multiplicité d'articles de blogs sur le même sujet.

Le nom du brevet est Information retrieval based on historical data, ce que l'on traduira par: La recherce d'information basée sur des données historiques.

Les facteurs pris en compte pour en décider, selon le brevet, sont les suivants:

Date de création du document.
Ou plus exactement, puisque Google ne connaît que la date d'indexation, celle où le crawler découvre la nouvelle page.
Mises à jour.
La fréquence et l'importance des mises à jour sont importantes pour considérer qu'un document, bien qu'ancien, reste actuel.
Analyse des requêtes.
Si une page est choisie plus souvent parmi les résultats affiché pour une requête, cela accroît sa note. Si elle est considérée comme dépassée mais néammoins choisie par les internautes, se situation sera révisée.
Si une page est incluse dans un nombre croissant de requêtes différentes, c'est un indice qu'elle est d'actualité. L'inverse indique que son contenu est de moins en moins actuel.
Critères basés sur les liens.
On prend en compte les dates d'apparition de nouveaux liens et celle ou les liens existants disparaissent. Si de nouveaux liens apparaissent de moins en moins souvent, la page est considérée comme en voie d'obsolescence. Si le nombre total de backlinks décroit progressivement, la conclusion est la même.
L'algorithme pondère l'importance des liens retour selon la fraîcheur des pages qui les contiennent. Laquelle dépend des mêmes critères (ici détaillés) que la page qui est évaluée, il y a donc un FreshRank similaire en principe au PageRank.
D'autres critères de pondération sont aussi appliqués aux liens:
- Le critère de confiance (TrustRank).
- Une quantité importante et soudaine de backlinks dénote une volonté de spam, des liens créés par soi-même ou un cercle pour promouvoir un document.
Texte des ancres.
La modification des ancres des liens pointant sur une page indique que celle-ci est mise à jour et reste d'actualité. Inversement, si dans le document les ancres de liens ne changent pas alors que les pages pointées changent, cela indique que le le document n'est pas mis à jour.
Trafic.
La réduction du trafic concernant une page web dénote une obsolescence de celle-ci. L'algorithme tient compte des variations saisonnières. Il tient compte des publicités sur la page:
- Le fait que les publicités soient changées ou non.
- L'importance du site qui fait ces publicités.
- Le taux de clics sur ces publicités.
(Note: Le brevet ne dit pas comment ces données sont récoltées, mais il semble qu'Adsense soit le meilleur vecteur. )
Comportement des utilisateurs.
Comme déjà dit plus haut, c'est essentiellement le nombre de fois ou une page est choisie dans les résultats, mais c'est aussi le temps passé par les visiteurs sur celle-ci. Si au cours du temps, les visiteurs passent de moins en moins de temps sur la page, sa note de fraicheur est baissée.
Il en est de même s'ils passent moins de temps que sur d'autres pages sur le même sujet.
Le nom de domaine.
Pour contrer les spammeurs qui créent des domaines pour héberger leur pages, Google tient compte de la légitimité d'un domaine. Les domaines payés d'avance pour plusieurs années sont considérés plus "légitimes", la date d'expiration est donc prise en compte pour la note.
Le changement fréquent d'hébergeur (des DNS), des contacts, font considérer un document comme non légitime. Un hébergeur qui gère de nombreux domaines et des registrars différents améliore la légitimité du domaine.
Historique des positions.
Les positions successives dans le classement de résultats sont prises en compte, et le changement brusque de position pour une requête donnée dénote un spam.
Si le nombre de résultats global pour une requête subi un accroissement brusque, cela dénote un sujet d'actualité et les pages concernées auront une meilleure note pour le futur.
Si ce nombre augmente pour un seul document, l'algorithme doit faire la part entre le spam ou un sujet brûlant dont parle la page. Pour ce faire, il prendra en compte les références au document dans les nouveaux articles, les groupes de discussions, où les spam ne sont pas censés figurer.
Mais à tout cela il est fait exception pour les documents de référence, qui ont une bonne position depuis longtemps.
Bookmarks.
Les données gérées par les utilisateurs sont prises en compte. Les favoris sont traités comme des backlinks, leur nombre, leur évolution sert à juger de l'actualité d'une page.
Mots uniques, bigrams et phrases dans le ancres.
L'apparition d'un nombre important d'ancres identiques dans des documents, ou à l'inverse, des ancres toutes différentes dans de nombreux documents dénotent le spam. Une croissance saccadée de ces mots uniques, bigrams et phrases dans les ancres dénote une concertation et donc le spam.
Liens sans relation.
Une brusque augmentation des liens entre des pages au contenu sans rapport dénote un spam. Cela est confirmé si à cela s'ajoute une augmentation d'ancres au contenu cohérent ou discordant.
Sujet des documents.
Le sujet d'un document peut être connu au moyen des données suivantes:
- Catégorisation.
- Analyse des URLs.
- Analyse du contenu.
- Clustering.
- Création du sommaire.
- Présence de mots-clés uniques propres au domaine.
- Et d'autres...
Si les sujets changent, les pages doivent être reconsidérées. Un pic dans le nombre de sujets différent dénote une intention de spammer.

Conclusion

La définition de Google pour les pages obsolètes tient en une phrase:

Stale content refers to documents that have not been updated for a period of time and, thus, contain stale data.

Traduction: Un contenu déprécié fait référence aux documents qui n'ont pas été mis à jour depuis une certaine période, et ainsi contiennent des données dépassées.

On voit que l'application concrète de la définition est un peu plus compliquée.

Pourtant l'idée de base reste simple: Un document comme la déclaration du 18 juin ne sera jamais dépassé, mais les commentaires par exemple sur une édition des jeux Olympiques perdront de leur intérêt avec le temps.
L'algorithme de Google se charge de faire la différence.

Plus d'informations

Une précédente version avait été brevetée le 31 mars 2005.
Voir aussi le brevet Google pour positionner les pages dans les résultats. Un algorithme plus général qui reprend une partie du présent brevet.