Evolution de l'algorithme de Google depuis l'origine

Evolutions notées ou annoncées sur l'algorithme de Google et sur ses moyens de classement des pages.

Un article séparé est dédié à l'évolution des pages de résultats et de l'interface.

19 janvier 2012. L'excès de publicité en début de page est maintenant un critère de de-positionnement

Comme on l'avait annoncé en novembre de l'année dernière, les pages qui présentent d'abord de la publicité puis du contenu ensuite, visible quand on déroule le texte, seront pénalisées.
Cela affecte 1% des recherches.
Les utilisateurs se plaignaient que pour trouver le contenu qui répond à leur requête, il faille dérouler la page et passer des publicités.
Mais comment déterminer ce qui est "above the fold", puisque cela dépend de la résolution de l'écran. Sur un mobile, selon qu'on le tient en mode portrait ou paysage, ce n'est plus pareil. On peut supposer que cela affecte les pages qui présentent deux publicités de 280 pixels de haut côte à côte. En fait Google donne une mesure statistique de ce qu'est la hauteur de page visible sans déroulement avec l'outil Browser Size. 550 pixels est une valeur acceptable.
La taille du header a-t-il un effet? Pas s'il est considéré comme faisant partie du contenu.
Browser Size. Cet outil de Google donne une mesure de ce qu'est la "ligne de flottaison" d'une page web.
Annonce dans Inside Search.

Evolution de l'algorithme en 2011

2011 était un challenge pour Google car son algorithme était de plus en plus critiqué. Avec l'arrivée d'un nouveau CEO, la politique du moteur de recherche de Google à changé. En effet, Google a cessé de positionner des pages pour positionner des sites.
D'une part il y a eu Panda, un nouvel outil de classement qui pénalise un site qui a trop de pages de "qualité insuffisante", concrètement manquant de contenu ou d'originalité. Si le site possède d'autres pages de qualité, elle seront moins bien classées.
En outre on assiste au retour des liens multiples sur un même site dans les pages de résultats. On peut souvent voir les résultats monopolisés par deux sites, ce qui est plus que dommage.
L'impression que l'on a est que si Google communique beaucoup sur le développement de son algorithmes, il se borne la plupart du temps à favoriser les sites les plus importants. Ce n'est peut-être pas étranger au fait qu'il y ait 300 millions de nouveaux sites en 2011?
Combattre le spam est devenu une obsession au détriment de beaucoup de sites qui apportent l'information que l'on recherche mais ne sont pas visibles dans les SERPs.

2 décembre 2011. Détection des domaines parkés.

Et dont la page d'accueil est remplie de publicité. Un nouvel algorithme est ajouté pour les détecter et les exclure des résultats. Cela fait partie d'une dizaine de mesures annoncées pour le mois de novembre, concernant aussi la fraîcheur des contenu, le fait de favoriser les pages les plus récentes.
Novembre.

14 novembre 2011. Bonus pour les sites officiels.

Les sites relatifs à un produit, une personne, lorsqu'ils sont identifée comme étant les sites officiels (faits par la partie concernée), recevront maintenant un traitement préférentiel quand au positionnement, selon une modification de l'algorithme annoncée le 14 novembre 2011.

10 novembre 2011. Trop de publicités dans une page: maintenant un critère direct de l'algo.

Lors du PubCon 2011, Matt Cutts a précisé qu'avoir trop de publicités dans une page était en train de devenir un facteur de positionnement (négatif) direct.
Cela à toujours été un facteur indirect dans la mesure ou cela peut inciter les visiteurs à quitter le site et ainsi augmenter le taux de rebond et réduire le temps de visite. Mais cela va être maintenant pris directement en compte.
Cela confirme par ailleurs que ce n'était pas un critère de Panda.
Noter que "trop de publicité" dépend fortement de la taille de la page et aussi il a été précisé que leur placement dans la première part de page est pris en compte.

3 novembre 2011. Nouveau classement selon la fraîcheur des pages.

Une modification dans l'algorithme affecte 35% des requêtes sur le moteur de recherche. Cela concerne la nouveauté des pages, qui peut être favorisée selon le contexte de recherche.
Il s'agit des recherches relatives aux évènements récents ou sujets d'actualité, ainsi que les sujets qui reviennent régulièrement dans l'actualité (Ex: Grand Prix de F1), et ce qui est continuellement mis à jour sans être d'actualité (Ex: Un logiciel).
D'autres sujets comme par exemple les recettes de cuisine ne devraient pas être affecté par cette modification.

29 août 2011. Meilleur reconnaissance des "scrapers".

Les sites qui reprennent textuellement les pages d'autres sites pour afficher des publicités devraient être mieux identifiés. Il arrivent qu'ils soient mieux positionnés dans les pages de résultats que les originaux!
Google teste un nouvel algorithme et demande aux utilisateurs de signaler ces sites pour l'aider à le mettre au point.
Signaler un scraper
Ce n'est pas pour les atteintes au copyright ou droit d'auteur mais pour les sites qui se servent d'un outil quelconque pour reprendre des contenus et les placer dans leurs pages.

12 août 2011. Panda généralisé à toutes les langues.

Les sites en français sont maintenant affectés par cet algorithme qui vise a améliorer la sélection des pages en résultats, mais qui frappe quelquefois injustement des sites de qualité. Selon les langues, entre 6 et 9% des sites sont concernés dans chaque langue.
Voir ce qu'est un site de qualité selon Google.
Panda.
Signaler un site de qualité injustement touché.

Dans le même temps, Google a changé la façon dont Analytics calcule le taux de rebond.

20 juin 2011. L'ombre de Panda.

Depuis le 15 juin, de nombreux sites voient leur audience baisser pour la plupart, augmentée pour d'autres, ce que l'on attribue à l'extension de Panda à Google.fr.
Cependant les sites importants au contenu pauvre ou dupliqué n'ont pas été affecté, et cela ne peut donc être comparé à la Panda Update, qui n'est pas une modification de l'algoritme mais un programme indépendant lancé manuellement et qui affecte un score aux sites.
Il est possible qu'une partie de ce programme ait été incorporée à l'algorithme général.

8 juin 2011. Attribut auteur.

Plusieurs balises d'attribution à placer dans le corps de la page sont reconnues par Google:

<a rel="author" href="pageauteur.html">Moi même</a>
<a rel="me" href="pageauteur.html">Moi même</a>

Cela aidera à classer les pages par auteur.
La page de profil ainsi désignée doit se trouver sur le site qui contient cet attribut.
Plus d'informations.

6 juin 2011. Schema.org.

Un format pour inclure des metadonnées dans vos pages, et ainsi donner des précisions sur leur signification, est adopté par Bing, Google, Yahoo!.
Il est incompatible avec RDFa et ne peut être utilisé dans une même page sans qu'elle soit désindexée.
Ce format est basé sur la spécification Microdata du W3C, a ne pas confondre avec microformat (hRecipe, hCard) qui est un terme générique pour un format propriétaire défini pour une application particulière.
Un exemple d'utilisation (pour tous les formats) est la description d'une recette avec des données comme photo et temps de cuisson, pour permettre de produire un snippet spécial dans les pages de résultats.
Schema.org.
Rich snippet testing tool. Outil de test en ligne pour vérifier la conformité de vos pages.
Schema.org vs RDFa. Le choix de microformat est contesté par un membre du W3C qui propose le format RDFa, plus extensible.

11 avril 2011. L'initiative Panda généralisée au Monde.

La Panda Update contre le contenu pauvre devient générale et s'étend au Monde entier.
Mais cela ne concerne que les requêtes en langue anglaise (sur les moteurs locaux).
Google commence également à prendre en compte le fait que certains sites soients bloqué par les utilisateurs. C'est un critère de plus mais mineur.
De nouveaux sites importants comme ehow ont été touchés par la mise à jour, mais une quantité de sites moins importants avec un résultats indirecte: les liens venant de ces sites sont dévalués ce qui affecte aussi d'autres site, non directement touchés.
Panda Update. Quels critères sont appliqués par la Panda Update?

24 février 2011. Mise à jour 3 mars 2011. Important changement contre les fermes de contenu (Panda Update).

Nommée en interne "Panda" (c'est le nom d'un ingénieur), cette action a impactée 11,8% des recherches en réduisant la présence dans les résultats de pages au contenu pauvre, non original ou peu utiles. Au contraire ceux qui fournissent des articles détaillés resultant d'un recherche originale seront favorisés.

"Nous voulons encourager un écosystème sain..." dit Google.

Google précise que le changement ne provient pas de la nouvelle extension pour Chrome qui permet de bloquer des sites. Mais une comparaison avec les données recueillies montre que 84% des sites concernés figurent dans la liste des sites bloqués.
Les effets n'apparaîtrons aujourd'hui qu'aux USA. Ultérieurement, cela concernera le reste du Monde. Un des résultats sera une augmentation des revenus Adsense pour les autres sites puisque les fermes de contenu servent essentiellement à présenter des publicités.
Il reste a voir comment les fermes de contenu seront affectées, sur Alexa ou Google Trends et si ce sera un Farmer Day.
Finding more quality sites.
Liste des sites pénalisés par la modification de l'algorithme.

28 janvier 2010. Changement contre le contenu copié.

Pour lutter contre les sites qui reprennent le contenu d'autres sites ou dont le contenu n'a aucune originalité, un changement a été apporté dans l'algorithme en début de semaine, soit à partir du 24 janvier.
Cela n'affecte que 2% des requêtes mais selon Matt Cutts, c'est suffisant pour que vous puissiez constater un changement dans le positionnement (c'est le cas pour Scriptol, l'audience s'est accrue de 10%).
C'est une nouvelle amélioration affectant la longue traine. Cela peut affecter les fermes de contenu qui produisent des articles à la chaîne, forcément pas original.
Annonce par Matt Cutts.

21 janvier 2011. Nouvelle formule de classement.

Le nouvel algorithme est plus efficace pour detecter le spam dans le contenu d'une page, représenté par une répétition de mots, avec l'intention évidente d'être positionné sur ces mots.
On peut les trouver dans un article ou dans des commentaires de blog.
Voir lien ci-dessous.

21 janvier 2011. Algorithme meilleur que jamais contre le spam.

C'est ce qu'affirme Google dans une lettre qui répond aux critiques sur la qualité du moteur de recherche notamment dans la lutte contre le spam.
Google affirme qu'afficher des annonces Adsense n'empêche pas un site sans contenu utile d'être déclassé pas plus que la participation au programme Adwords.
En 2010, l'algorithme a connu deux modifications majeures pour contre les spams. On a beaucoup parlé du changement qui a affecté la longue traine au détriment des sites sans contenu.
Google s'engage à aller plus loin en 2011 et invite les webmasters à donner leur opinion. La cible est surtout les "fermes de contenu" qui fournissent des pages sans intérêt remplies de mot-clés pour se positionner dans les résultats (comme eHow, Answerbag, Associated Content).
L'algorithme sera amélioré pour reconnaître le contenu copié ou sans contenu original.
Google search and search engine spam.
Donnez votre opinion. Dites comment çà marche.
Les fermes de contenu. Définition exacte de ce qu'est une ferme de contenu et la liste.

Evolution de l'algorithme en 2010

Des changements importants sont survenus en 2010 dans les pages de résultats, avec notamment la recherche instantanée, la prévisualisation des sites, le filtrage par niveau de lecture et dans l'index avec la prise en compte de nouveaux formats de fichiers.
Mais pour l'algorithme de positionnement lui-même, les progrès ne sont pas aussi évidents. Les résultats de recherche sont infestés de spams, de pages vides. De très gros sites sont capables de générer des millions de liens internes ou vers des sites satellites destinés uniquement à afficher des publicités.
Des entreprises se constituent pour faire produire par une armée de dactylos du web des quantités de pages pour supporter des publicités et dont on se doute que l'originalité en est totalement absente.
Il n'est pas agréable de poser une question et de trouver pour tout résultat une page contenant la même question et pas de réponse. C'est donc dans la capacité à évaluer sémantiquement le contenu que le moteur devrait faire des progrès.

2 décembre 2010. Analyse des sentiments ajoutée à l'algorithme.

A la suite d'un article paru sur le New York Times, dénonçant le fait qu'un vendeur qui provoque l'insatisfaction de ses clients et génère de nombreuses plaintes dans les blogs et forum en tire un avantage auprès des moteurs de recherche, Google a réagit.
En effet, quand on dénonce les pratiques ou le contenu d'un site, on met des liens sur celui-ci pour fournir des exemples, et ces backlinks sont traités comme un indice de popularité par les moteurs, ce qui se traduit par une meilleur position dans les résultats!
Google à donc mis au point un algorithme d'analyse des sentiments, qui vise à reconnaître si le texte qui entoure un lien est positif ou négatif à son égard, selon les mots-clés qu'il contient afin de pénaliser les sites dont on se plaint.
Google conseille aussi l'attribut nofollow pour mettre un lien sur un site sans vouloir contribuer à son positionnement.
Being bad to your customers is bad for business.
Large-Scale Sentiment Analysis for News and Blogs. Analyse en anglais de l'algorithme.

17 novembre 2010. Les mêmes domaines sont plus représentés dans les résultats.

Alors qu'un même domaine était limité à deux liens dans les résultats, ce nombre est maintenant augmenté. Cela pourrait faire perdre du trafic aux autres sites.

5 novembre 2010. Vendredi Noir.

Depuis le 21 et 22 octobre selon les régions, une modification de l'algorithme portant sur le classement dans les résultats a affecté énormément de sites, certains perdant jusqu'à 80% de leur trafic. Le moteur de recherche Alexa, a publié des graphiques montrant des pertes énormes ou des gains équivalents pour certains sites.
Ces changements semblent définitifs.
Le but des modifications semble être d'améliorer la pertinence des résultats.
"Vous n'êtes pas le seul", sur le blog d'Alexa.

31 août 2010. SVG indexé.

Le contenu SVG est maintenant indexé, qu'il soit dans un fichier à inclure ou imbriqué dans du code HTML.
Liste des types de fichier indexés par Google.

20 août 2010. Internationalisation préjudiciable?

Certains webmasters ont vu leur trafic augmenter en provenance des moteurs de recherche Google autres que Google.com ou celui de leur pays.
Ainsi des américains peuvent voir arriver des visiteurs qui consultent google.fr, ce qui suppose que le moteur français inclut des sites américains dans les résultats.
Cela pourrait réduire l'audience des sites français.

8 juin 2010. Caffeine rafraîchit l'index.

Google a annoncé le 8 juin que le nouveau moteur d'indexation, Caffeine, est finalisé. Il offre un nouvel index avec des résultats 50% plus récents.
Son fonctionnement diffère de celui du précédent système qui se mettait à jour globalement, par vagues. Caffeine met l'index à jour de façon incrémentale. Les nouvelles pages peuvent être ajoutées et rendues disponible pour la recherche dès qu'elles sont découvertes.
La nouvelle architecture permet aussi d'associer une page à plusieurs pays.
Caffeine vs. précédent système.

27 mai 2010. MayDay: La longue traine évolue.

Cela a été confirmé par Mat Cutts lors de la Google I/O de mai, au mois d'avril un changement radical a été apporté à l'algorithme portant sur la longue traine, pour favoriser les contenus de qualité.

This is an algorithmic change in Google, looking for higher quality sites to surface for long tail queries. It went through vigorous testing and isn’t going to be rolled back.

Traduction: "C'est un changement algorithmique de Google, la recherche de sites de plus grande qualité qui remontent à la surface pour les requêtes sur la longue traine. Il a passé des tests rigoureux et ne va pas être remis en question."

Reppelons que la longue traine est l'ensemble des requêtes avec plusieurs mots-clés, rares chacune, mais qui toutes ensemble font l'essentiel du trafic d'un site.

Les webmasters ont donné à cette évolution le nom de MayDay. Je l'ai précédemment appelé Mardi Noir. Cela a été catastrophique pour certains sites bien établis mais au contenu insuffisant. Cela s'est passé fin avril et début mai selon les sites, même si d'autres sites ont connu une perte de trafic pour d'autres raisons.
Cela a boosté le trafic de scriptol.com et scriptol.fr.
MayDay expliqué par Matt Cutts dans une vidéo.
Cela est indépendant de Caffeine et définitif. Les webmasters doivent ajouter du contenu pour retrouver du trafic.

27 avril 2010. Mardi noir: Le positionnement change sur la longue traine.

La long tail, (longue traine) est l'ensemble des pages, nombreuses, sur un site qui on peu de visite chacune mais ensemble ont un large trafic.
Les requêtes sur plusieurs mots-clés, constituent la longue traine.
Beaucoup de sites on vu un changement de positionnement de ces pages depuis le 27 avril. Certains ont perdu jusqu'à 90% de leur trafic.
On a attribué ce changement à Cafeine, la nouvelle infrastructure de Google qui indexe plus de pages et crée plus de concurrence, mais Google a confirmé un changement de son algorithme (voir 27 mai).

14 avril 2010. Le temps réel.

MySpace, Facebook, Buzz, Twitter sont intégrés dans les résultats de recherche. Quand après affichage de la page de résultats on affiche plus d'options et que l'on clicke sur "Mise à jour" (Update), on peut voir l'activité sur les réseaux sociaux relative à la requête.
Replay accross Twitter.

Mise à jour 2011: Twitter et Facebook interdisent l'accès au robot de Google.

9 avril 2010. La vitesse est officiellement un facteur de positionnement.

Cela avait été annoncé il y a quelques mois, c'est devenu réalité: un site trop lent est maintenant déclassé dans les pages de résultat, ou tout au moins a des chances de l'être en conjonction avec les autres facteurs.

"Today we're including a new signal in our search ranking algorithms: site speed."

"Aujourd'hui nous incluons un nouveau signal dans nos algorithme de positionnement pour la recherche: la vitesse du site."


Il est possible de savoir si votre site est trop lent à partir des Outils Google pour Webmaster (Labs -> Site performance).
Using site speed in web search ranking.

Année 2009.

Selon Google, 540 améliorations ont été apportées au moteur de recherche durant l'année 2009.

15 décembre 2009. Canonical entre domaines.

La prise en compte de l'attribut rel="canonical" qui a été implémentée il y a quelques mois pour éviter le duplicate content entre pages d'un même site, vient d'être étendue aux pages identiques sur des noms de domaine différents.
Il reste préférable d'utiliser des redirections 301 quand on migre un site sur un autre domaine.
Source Google.
Pour protéger votre site contre les sites qui pourraient copier votre contenu, voir comment créer une balise canonical générique en PHP.

19 novembre 2009. La vitesse de chargement d'un site sera un facteur de positionnement en 2010.

C'est ce que vient d'annoncer Matt Cutts dans une interview.

"Historiquement, nous ne l'avons pas pris en compte dans notre positionnement de recherche, mais beacoup de gens chez Google pensent que le Web devrait être rapide.
Ceci devrait permettre une utilisation plus agréable et donc, il serait correct de dire que si vous avez un site rapide, il pourrait recevoir un petit bonus.
Si votre site est très lent, il peut y avoir des utilisateurs qui n'apprécient pas du tout.
Je pense qu'en 2010 beaucoup de gens vont se demander comment avoir un site rapide, comment devenir riche sans avoir à écrire un tas JavaScript personnel."

Ceci devrait favoriser les sites statiques et non SQL... Voir notre article, Comment construire un CMS sans base de données.
Voir aussi: Let's make the Web faster.

11 août 2009. Nouveau moteur de recherche Caffeine.

Google teste un nouveau moteur de recherche. Celui-ci se veut plus rapide et plus pertinent.

2 juillet 2009. Moins de poids pour les liens non pertinents.

Ce n'est pas confirmé officiellement par Google (qui parle peu de son algorithme de toutes façons), mais les webmasters estiment que les résultats ont changés et que les positions dans les SERPs sont perdues qui provenaient de quantités de backlinks de moindre qualités.
Par liens non pertinents, on entend:
- Les blogrolls des blogs.
- Les liens de sites sociaux.
- Les liens d'annuaires.
- Les liens en pieds de page dans les sites partenaires.
- Les liens fournis avec les templates de CMS.
En fait Google avait annoncé récemment qu'il ne tiendrait plus compte des blogrolls. On en voit sans doute le résultat. Et il ne s'agit pas juste d'une perte d'importance pour ces liens: ils ne comptent plus.

En ce qui concerne les sites sociaux (comme Delicious, Stumbleupon), au contraire, Google a déclaré dans une table ronde avec les webmasters: "Ils sont considérés comme les autres sites".

19 juin 2009. Flash et ses ressources.

Les applications flash sont indexées par le moteur de recherche et dorénavant, les ressources qu'elles utilisent, images ou textes, sont aussi indexé.
Source Webmaster Central Blog.

2 juin 2009. Confirmation sur les changement avec nofollow - Liens onclick.

L'attribut nofollow fait ignorer un lien dans une page pour les moteurs de recherche. Donc le PR est distribué entre les liens restants.
Il semble que maintenant les PR soit distribué entre tous les liens (avec ou sans nofollow) et ensuite non distribué pour les liens en nofollow.
Exemple: Vous avec 10 points de PR et 5 liens, 2 points sont attribués à chacun. Si deux liens sont en nofollow, aucun PR ne leur est passé, mais les autres ne recevront pas tous les points, il recevront seulement 6 points partagés en 3.
Les conséquences sont importantes, les liens dans les commentaires des blogs feraient perdre leur PR aux autres pages.

Citation de Matt Cutts:

Suppose you have 10 links and 5 of them are nofollowed. There’s this assumption that the other 5 links get ALL that PageRank and that may not be as true anymore.

Trad.: Supposons que vous avez 10 liens et 5 d'entre eux sont en nofollow. On suppose que les 5 autres récupèrent TOUT Le PageRank and cela peut ne plus être vrai.

Plus de détails dans l'article PageRank et nofollow.

Par ailleurs, Google prend en compte les liens assignés dans l'évènement onclick.

12 avril 2009. Recherche personnalisée.

Elle se généralise à tous les utilisateurs du moteur de recherche. Les résultats de recherche tiennent compte du comportement de l'utilisateur, s'il clique plus souvent sur les pages d'une site, ou d'un type de site, ces pages apparaîtront dans les recherches ultérieures en tête des résultats, pour lui seul. Réf: Personalized search for everyone.

4 avril 2009. Recherche locale.

Google améliore la recherche locale en se basant sur l'adresse IP, laquelle permet de retrouver le pays et la ville d'un internaute. A partir de celle-ci, Google s'efforce d'afficher des sites qui ceux eux localisés au plus près.
Pour profiter de cette option, il faut que la recherche inclut un nom de lieu, auxquel cas une carte doit s'afficher.
Source Blog Google.

26 février 2009. Noms de marques.

L'algorithme apporte plus de poids aux noms de marques et favorise donc les sites correspondants. C'est confirmé par Matt Cutts (Responsable du staff et communiquant de Google) dans une vidéo.
La vidéo. (Anglais).

25 février 2009. La balise canonical.

Une nouvelle balise indique au robot du moteur de recherche quelle URL il faut retenir quand une page est accessible avec des adresses différentes.
Le problème de duplicate content résolu.

16 juillet 2008.

Google introduit à titre expérimental un peu de Wikia dans son moteur de recherche. Les utilisateurs peuvent marquer les résultats comme bon ou indésirable.
Le moteur le prend en compte, mais pour l'utilisateur qui les a marqué uniquement. Pour l'instant...

Juillet 2008.

Google annonce qu'il a 1000 milliards d'URL de pages Web dans sa base de données.
Les pages ne sont pas toutes indexées.

Juin 2008. Nofollow pris en compte.

Les liens en nofollow ne comptent pas pour la transmission du PageRank, mais leur PR n'est pas réparti sur les liens normaux.
Donc le PR transmis aux pages liées est divisé selon le nombre de liens d'abord, ensuite il s'évapore quand aux liens en nofollow.
Source: PageRank Sculpting.

19 oOctobre 2005. Mise à jour Jagger (Jagger Update).

Cette mise à jour apporte plus de poids à la pertinence dans les liens. Les sites importants semblent aussi favorisés.
Le spam est combattu, surtout les techniques utilisant CSS pour camouflé du contenu pour les visiteurs.
Une analyse de la Jagger Update.

20 mai 2005. Mise à jour Bourbon (Bourbon Update).

Une mise à jour pour pénaliser les sites avec du duplicate content, des liens sur des pages non pertinentes (sans rapport avec la page liée), liens réciproques en quantité, liens en quantité vers un site proche.
Cela a affecté de nombreux sites avec des dommages collatéraux.

2003. Mise à jour Floride (Florida Update).

Elle a bouleversé les SERPs. Un des changements essentiels et que l'algorithme fonctionne différemment selon les types de requêtes, et que les SERPs sont peuplées de résultats de types différents et complémentaires.
Une analyse du Florida Update.

1998.

Mise en ligne du moteur de recherche Google.

Plus d'information