|
Netsources, Numéro de Mars-Avril 2004 - n°49 Ranking.thumbshots.comcompare la couverture des moteurs |
Auteur : Béatrice Foenix-riou |
|
La fameuse étude menée en 1999 par les chercheurs du NEC
Research Institute (voir Netsources n°21) avait mis en évidence que
chaque moteur de recherche ne couvrait qu’une faible portion du Web
(16 % à l’époque, pour le plus important), et que la couverture
combinée des onze moteurs analysés ne représentait que 42 % du Web
visible (estimé à cette date à 800 millions de pages).
Cette étude avait permis aux internautes de prendre conscience du fait qu’il était impératif d’interroger plusieurs outils, si l’on souhaitait faire une recherche aussi exhaustive que possible. Elle avait dans le même temps incité les moteurs à accroître autant que faire se peut leur couverture du Web et les avait en quelque sorte lancés dans une réelle compétition pour gagner le titre envié de moteur “ayant l’index le plus important”. Le moins que l’on puisse dire est que les moteurs ont tout fait pour relever le défi... Leur couverture du Web est désormais bien meilleure (entre 30 et 50 % environ), alors même que la taille du Web visible à été multipliée pratiquement par dix. Le “champion” du jour est aujourd’hui Google, avec plus de 4,2 milliards de pages ; quant à Yahoo!, il annonce un index comparable, mais se refuse à donner des chiffres... Cela étant, si la taille des index des moteurs est une donnée importante, il en est une autre qui l’est tout autant, mais qui est plus difficile à déterminer. Il s’agit de la “surface de recouvrement” des différents index, c’est-à-dire, pour chaque moteur, du pourcentage de pages de son index qu’il est le seul à identifier et de celui que l’on retrouve dans les index des autres moteurs. Si aucune étude précise n’a été faite récemment sur ce point, un outil vient d’être lancé et apporte néanmoins des éléments de réponse. Réalisé dans le cadre de Thumbshots.org*, cet outil compare les résultats d’une requête sur deux moteurs – à choisir parmi AlltheWeb, AltaVista, Google, MSN, Teoma, Wisenut et Yahoo! –, via l’analyse des cent premières pages identifiées par chacun. Après avoir indiqué les termes de la requête et les moteurs à comparer, on obtient, pour chacun des moteurs choisis, une ligne composée de cent cercles représentant les cent premières pages identifiées. En glissant le curseur sur un cercle, on affiche son URL et, lorsqu’elle est disponible, une vignette de la page. Les cercles sont vides lorsque la page a été identifiée par un seul des outils, et pleins lorsque la page figure dans les résultats des deux moteurs ; dans ce cas, les deux cercles sont reliés par un trait, ce qui permet de comparer le classement de la page sur les deux outils. On notera que pour afficher ce graphique, il est nécessaire de disposer de la dernière version d’Internet Explorer. En complément de ce graphique, l’outil indique pour chaque moteur le nombre et le pourcentage de liens communs et celui de liens uniques. Et la lecture des résultats est souvent troublante. On constate en effet que le nombre de liens uniques est en fait bien plus important que ce que l’on croit communément. Ainsi, une comparaison des résultats entre Google et Yahoo!, pour des mots “obscurs” (générant peu de réponses) comme rhynchonelle, coucoumelle, élasticimétrie... mais aussi pour des termes plus courants comme “agents intelligents”, “référencement payant”, “développement durable”... montre que dans la très grande majorité des cas, le pourcentage de liens communs (sur les cents premières réponses) est inférieur à 20 % ! Quand on sait que les internautes se limitent en moyenne à la consultation des deux premières pages de résultats, on mesure toute l’importance de ces éléments. D’autre part, le graphique montre clairement que les résultats communs aux deux outils ont un classement fort différent sur l’un et sur l’autre. Les sites apparaissant en première page de résultats sur Google peuvent ainsi être classés sur la dixième page sur Yahoo! et inversement. Ceci démontre que si les moteurs de recherche prennent aujourd’hui tous en compte la “popularité” des pages (le nombre de liens pointant vers elles sur le réseau), l’algorithme de classement résulte d’une alchimie bien plus complexe, et varie donc fortement d’un outil à l’autre. C’est une notion que l’utilisateur comme le référenceur se doivent de prendre en compte. Mais l’intérêt de cet outil est multiple. Il permettra par exemple aux référenceurs de comparer, pour un mot donné, les résultats sur un même moteur lorsque le mot est écrit au singulier et au pluriel, ou encore, de voir la pertinence des résultats obtenus avec un mot simple (veille) ou une expression (veille économique). Il offre enfin la possibilité de voir comment un site particulier est classé, pour une requête donnée, dans les pages de résultats (Highlight Site). Bref, Ranking.thumbshots.com est un outil astucieux et innovant, qui intéressera à la fois les professionnels de l’information et ceux du référencement. Il permettra sans aucun doute aux internautes de prendre conscience que pour compléter une recherche, il est impératif d’interroger plusieurs moteurs. *Thumbshots.org est une initiative libre lancée par la société américaine Smartdevil Inc., pour aider les internautes dans leur navigation sur le Web. Son principe est simple : les éditeurs de sites participent à l’opération en fournissant des “vignettes” ou “thumbshots” (petites copies d’écran) de leurs sites, qui apparaissent notamment dans l’Open Directory, à gauche de la description des sites. Plus de quatre millions de vignettes sont à ce jour disponibles dans ce cadre. |
|