L'algorithme du BrowseRank par Microsoft

Le BrowseRank se compare au PageRank  qui évalue la popularité d’une page selon le nombre de liens sur cette page. Le BrowseRank évalue l’importance d’une page selon la navigation des utilisateurs et leur comportement.

Les auteurs sont chinois et pour la plupart enseignent ou ont un poste de recherche dans des universités de Pékin: Yuting Liu, Bin Gao, Tie-Yan Liu, Ying Zhang, Zhiming Ma, Shuyuan He, Hang Li.

Calcul du BrowseRank

Le graphe de navigation: Les points représentent les pages, et les relations ordonnées les transitions des utilisateurs entre les pages. En outre le temps passé par l’utilisateur sur les pages est aussi pris en compte. Il se veut plus efficace que le graphe des liens sur les pages, pour déterminer leur importance.  

Les informations sur le comportement du visiteur sont obtenues à partir du navigateur. Ce sont:

Elles servent à construire le graphe. Il représente le processus de cheminement aléatoire des internautes. On suppose que quand un visiteur va sur une page et y reste, il vote implicitement pour cette page.

L’algorithme alors se base sur un processus de Markov en temps continu qui s’applique en prenant le graphe comme modèle pour déterminer une probabilité stationnaire de distribution du processus qui correspond à l’importance des pages.
Pour évaluer le temps passé, on fait la différence entre l’instant ou la page et chargée et celui où l’on charge une autre page. Pour la dernière page de la session, on reprend le temps moyen observé lorsqu’elle n’est pas la dernière ou des procédés similaires.

L’algorithme simplifié

Entrée: données sur le comportement de l’internaute.
Sortie: score de l’importance de la page.
Algorithme:

  1. Construction du graphe de navigation.
  2. Estimation de qii pour toutes les pages.
  3. Estimation de la matrice de probabilité de transition de EMC
    puis obtention de la distribution de probabilité stationnaire par le méthode des puissances.
  4. Calcul de la distribution de probabilité stationnaire.

Le détail de l’algorithme est donné dans le document en référence.

Comparaison avec le PageRank

Le PageRank se base sur le graphe des liens entre pages et estime que plus il y a de liens vers une page et plus elle est importante et vue par de nombreux internautes.
Il utilise un processus de Markov en temps discret sur les liens pour évaluer leur importance.
Il a ces inconvénients:

Google n’utilise pas seulement l’algorithme du PageRank pour déterminer la position dans les résultats mais un algorithme de score des pages dont un brevet à été déposé en 2007. Le PageRank est un critère parmi d’autres pour déterminer le score d’une page.

Les inconvénients du BrowseRank:

Le critère du temps passé

Il est en réalité impossible de savoir si l’internaute est en train de lire la page, ou s’il a laissé le navigateur ouvert et est parti faire autre chose.
Une page courte, simple, claire sera lue rapidement sans pour autant être moins importante qu’une autre page plus longue, confuse ou ardue à décrypter. Par exemple, la page fournissant l’adresse d’une boutique se lit en quelques secondes et elle est cependant d’une importance cruciale!

Le PageRank évalue la qualité des liens

Le score des pages établi par Google prend en compte une quantité de critères, bien plus que le BrowseRank, comme on peut le voir dans le résumé du brevet.
Le spam par liens réciproques ou fermes de lien est de mieux en mieux maîtrisé ce qui rend également cet argument peu fondé.

La notion de confiance

Le PageRank ne dépend pas seulement du nombre de lien, mais aussi de la pertinence et du poids des liens. Les liens provenant d’un site important comptent plus que ceux d’un site peu fréquenté.
Ces critères sont absents du BrowseRank pour lequel par principe tous les clics se valent.

Le spam incontrôlable

De même que les webmasters tentent d’utiliser le PageRank en leur faveur en créant des liens, ils tenteront de détourner le BrowseRank en faisant fonctionner des robots (des scripts) qui simuleront le comportement humain et stationneront sur leurs pages. De tels scripts peuvent s’exécuter en millions d’exemplaires.