Les moteurs de recherche, technologie et liste
Ils ne sont plus seulement un moyen de trouver un site traitant d'un sujet, ils veulent aller au-delà, répondre aux questions par exemple et sont devenus pour les webmasters l'élément essentiel de l'environnement.
Technologie des moteurs de recherche
Pendant longtemps, la technique a consisté à associer un ensemble de mots-clés à une page, et afficher dans les résultats les pages correspondants aux mots-clés de la requête de l'utilisateur.
Pour améliorer la pertinence, Google a inventé le PageRank: les pages sont classées en fonction du nombre et la qualité des liens pointant sur elles, pour un groupe de mots-clés.
A coté du PageRank, on voit le BrowseRank qui classe les pages selon l'activité des utilisateur, le TrustRank qui concerne l'indice de confiance sur la source. Le FreshRank vise lui a évalué la nouveauté des contenu et leur pertinance dans l'actualité.
Les référenceurs s'évertuent à comprendre le fonctionnement de l'algorithme, mais il est vain d'essayer de lui attribuer une logique. Tout au moins selon l'optique du webmaster, car le moteur à sa propre logique. Un site web est du point de vue du moteur comme une étoile perdue dans une infinité de galaxies lointaines. Rien qu'un petit point lumineux. Le webmaster ne comprend pas toujours comment le moteur positionne son site, mais pour ce dernier il s'agit de diriger les internautes dans cet amas d'étoile et de façon optimale. On sous-estime souvent la contraite de moyens que qu'implique le mot optimal.
Base de connaissance d'objets
Bing essaie de passer du texte à l'objet, tout comme Google. En 2012, 300 millions d'objets disposent d'une fiche descriptive dans la base de donnée de Microsoft. Lorsque l'on fait une requête, le moteur tente d'identifier l'objet concerné et retourne les résultats en rapport avec cet objet. Toutes les informations récoltées sur la Web, dans les pages, sur les sites sociaux, sont associées à un objet. Cela permet de fournir l'information sur celui-ci quand il est identifié dans la requête.
Google dispose d'un outil similaire qui commence à prendre forme dans les SERPs en 2012, et qu'il appelle Graphe de Connaissance. Cela consiste à afficher dans la page des résultats à coté de la liste de liens, des informations concernant l'objet de la recherche: des gens, des lieux, des oeuvres etc... Cela en texte et image.
Les données proviennent de Freebase, Wikipedia, CIA World Factbook, et autre sources. Elle contiennent en 2012 500 millions d'objets et 3.5 milliards de faits à propos de ces objets. Pour donner un exemple, si l'objet recherché est identifié comme étant Marie Curie, la page affiche sa photo, une biographie, des photos de personnes en rapport avec elle. S'il s'agit d'un peintre, on aura des images de ses toiles les plus connues.
Vidéo du Knowledge Graph.
Ce type de résultat fait l'objet d'une expérimentation par Google sur www.wydl.com depuis 2011 et on s'attendait à ce qu'il passe au moteur de recherche principal, ce qui à maintenant commencé en 2012.
Liste des moteurs de recherche
Vous pouvez inscrire gratuitement et simplement votre site sur les moteurs de recherche suivants (sauf moteurs spéciaux), les plus importants sont dans la liste.
- Ask.com
- Bing
Remplace Live Search de Microsoft et se veut un moteur de décision. Les recherches se font par catégories. - Dogpile
Meta-moteur. - DuckDuckGo
Une vue différente sur le Web, en mode privé.
En tapant !sp + mots-clés on peut accéder à l'index de Google sans passer par leur interface. - Entireweb.com
- Google
Le plus populaire . - Lycos.com
- Perplexity.ai
Moteur de recherche utilisant l'I.A. comme Chat GPT pour répondre aux questions. - Qwant.com
Se veut un moteur de recherche qui respecte la vie privée, comme DuckDukGo aux USA. - Virgilio.it Italien.
- Wolfram Alpha
Moteur de connaissances qui réponds aux questions scientifiques. - Fr.yahoo.com
Une interface personnelle avec l'index de Bing. - You.com
Fournit une réponse basée sur l'I.A dit-il. avec des liens sur les sites web. Basé sur les résultats de Google mais avec un suivi de l'utilisateur plus important. Si on craint pour d'être espionné, ce n'est pas l'outil idéal.
Searchmash.com, moteur expérimental de Google est fermé.
Ressources
- CommonCrawl. Cette fondation a but non lucratif fournit un index de 5 milliards de liens sur les pages du Web. De quoi créer son propre moteur de recherche!
- IndexTank. Le moteur de recherche de LinkedIn est open source. Cela inclut un framework pour maintenir l'index.
- Code source de DuckDuckGo. Le moteur de recherche qui monte en ce moment est aussi open source sur GitHub.