Netsources, Numéro de Juillet-Août 2005 - n°57


Moteurs de recherche : un très faible recouvrement des résultats

Dans une étude de 1999 désormais célèbre(1), les chercheurs du NEC Research Institute avaient mis en évidence que les moteurs de recherche ne couvraient à l’époque qu’une faible portion du Web (16 % pour le plus important), et que la couverture combinée des onze moteurs analysés ne représentait que 42 % du Web visible, estimé à cette date à 800 millions de pages (lire à ce sujet “800 millions de pages peu indexées par les moteurs”, Netsources n°21, juillet/août 1999)....

Auteur : Béatrice Foenix-Riou

Depuis cette étude, la taille du Web s’est considérablement accrue, celle des index des moteurs aussi (voir article pp.10-12), et  l’idée généralement partagée par les utilisateurs est que les grands moteurs ont aujourd’hui des fonctionnalités similaires, des index de taille comparable et qu’une même recherche y donnera par conséquent des résultats très proches.

Or, il n’en est rien.

En comparant de façon graphique les cent premiers résultats obtenus sur deux moteurs pour une même requête, l’outil Ranking.thumbshots.com démontrait déjà de façon admirable que le taux de recouvrement des pages identifiées était en moyenne de 20 %, que les classements des pages “communes” divergeait souvent fortement d’un outil à l’autre et que par conséquent, il était indispensable d’interroger plusieurs moteurs si l’on souhaitait répondre de façon complète à une question (voir Netsources n°49).

Plus récemment, la société InfoSpace Inc. – éditeur notamment des métamoteurs Dogpile, MetaCrawler et WebCrawler – a entrepris  en avril 2005 une étude, en collaboration avec des chercheurs des universités de Pittsburgh et de Pennsylvanie, pour mesurer le taux de recouvrement et les différences de classement dans les résultats des principaux moteurs.

Les chercheurs ont pour cela analysé la première page de résultats(2) fournie par Google, Yahoo et Ask.com pour 10 316 requêtes – choisies au hasard parmi celles posées à divers outils – ce qui représentait 336 232 résultats uniques.
Ils ont alors constaté que seulement 3,2 % de ces résultats étaient présents sur les trois moteurs, que 11,9 % étaient offerts par deux des trois outils et que 84,9 % des résultats étaient identifiés uniquement par l’un des moteurs.

Pour la seconde phase de cette étude, menée en juillet 2005, les chercheurs ont intégré MSN dans l’évaluation et ont analysé les réponses des quatre moteurs à 12 570 questions, ce qui représentait 485 460 résultats uniques, comprenant à la fois des pages issues des index des moteurs et des liens sponsorisés.
L’analyse – tant sur le plan du recouvrement que sur celui du classement – des premières pages de résultats obtenues sur les quatre moteurs, confirme les résultats de la première phase et ne manque pas de surprendre. Il nous a donc semblé utile de faire ici une brève synthèse de cette étude de 30 pages, disponible au format PDF(3).

Il faut toutefois garder en mémoire que l’étude a été réalisée à l’initiative d’InfoSpace, éditeur de métamoteurs, et que son objectif est bien évidemment de démontrer tout l’intérêt de cette famille d’outils...

UN TRES FAIBLE RECOUVREMENT DES RESULTATS


L’analyse des premières pages de réponses aux 12 570 requêtes confirme le taux de recouvrement extrêmement faible entre les quatre moteurs. Sur les 485 460 résultats uniques – sponsorisés ou non – identifiés :
• 1,1% sont trouvés par les quatre outils ;
• 2,6 % sont présents sur les premières pages de trois des quatre outils ;
• 11,4 % sont offerts par deux moteurs ;
• et 84,9 %  des résultats enfin – le même pourcentage qu’en avril – ne sont identifiés que par un seul moteur.

Plus précisément, 66,4 % sont identifiés uniquement par Google, 70,8 % par MSN, 71,2 % par Yahoo! et 73,9 % par Ask.com.
Si l’on se limite aux résultats non sponsorisés, la proportion des réponses propres à un seul moteur est de 71,8 % pour Google, 73,9% pour MSN et pour Yahoo! et 79,1% pour Ask.com

Bien sûr, ces chiffres ne signifient pas que les couvertures globales des moteurs ont un très faible recouvrement. Dans cette étude en effet, seuls les liens présents sur la première page de résultats de chaque outil ont été comparés.

On peut raisonnablement penser qu’une part non négligeable des liens identifiés par un moteur unique est en fait présente dans l’index des autres outils, mais a été classée au-delà de la première page.

Néanmoins, ces chiffres signifient que si l’on se limite à consulter la première page de résultats d’un seul moteur – ce qui est le réflexe d’une majorité d’internautes –, on manque forcément une part importante des résultats jugés comme “les plus pertinents” par les autres outils.
La proportion de résultats “manqués” varie alors de 70,8 %  (si l’on se limite à Google) à 67,9 % (Ask.com).

En ce qui concernent les liens sponsorisés, ils représentent, selon les moteurs, entre 18 % et  27 % des réponses (respectivement pour MSN et Ask.com). Le nombre moyen de liens sponsorisés par page de résultats varie quant à lui de 1,9 sur MSN à 3,2 sur Ask.com.

Enfin, les auteurs de l’étude se sont attachés au classement des réponses – qu’elles soient sponsorisées ou non – sur les quatre moteurs et ont mis en évidence que même les premiers résultats variaient fortement d’un outil à l’autre.
Ainsi, la première réponse proposée (celle que l’on obtient par exemple sur Google en cliquant sur “J’ai de la chance”) est identique pour seulement 7% des questions, pour ce qui concerne les pages non-sponsorisées et dans 0,9% des cas pour les liens sponsorisés.
D’autre part, lors des 12 570 requêtes-tests effectuées, il n’est jamais arrivé que les trois premiers résultats – sponsorisés ou non – soient les mêmes sur les quatre outils, dans le même ordre ou non.
En revanche, dans 30,8 % des cas pour les résultats non-sponsorisés et dans 44,5 % des cas pour les liens sponsorisés, les trois premiers résultats étaient tous différents pour les quatre outils.

LE TAUX DE SUCCES DES RECHERCHES


InfoSpace s’est ensuite intéressé à la performance des moteurs et à leur capacité à “interpréter” les attentes des utilisateurs, si tant est qu’une telle notion puisse être quantifiée, tant elle est subjective.

Le degré de satisfaction des internautes a été mesuré ici à partir de l’étude des clics effectués sur la première page de résultats ;  on peut en effet estimer que ce “taux de clics” correspond en quelque sorte au “taux de succès” des recherches.
Il ressort de cette analyse – confiée à comScore Media Metrix – que ce taux de succès est plus faible qu’on aurait pu le penser, puisqu’il est respectivement de 39,7 %  pour Ask.com, 46,6 % pour MSN, 50 % pour Yahoo! et 55,6 % pour Google.

En cas de succès, le nombre de clics par recherche est en moyenne de 1,44 pour Ask.com, 1,36 pour MSN, 1,57 pour Yahoo! et 1,95 pour Google.

C’est là qu’apparaît tout l’intérêt d’un métamoteur tel Dogpile, qui propose sur sa première page de résultats les liens jugés comme les plus pertinents par les quatre moteurs. Ainsi, pour des 12 570 requêtes-tests, la première page de résultats de Dogpile a identifié 99,3 % des liens trouvés par les quatre moteurs, 95  % des liens identifiés par trois des moteurs, 77,3 % des liens fournis par deux des outils et 30,4 % des liens présents sur un moteur uniquement.
Quant au “taux de succès” de Dogpile, il s’est révélé supérieur à celui de Google (62,9 %), tout comme le nombre moyen de clics sur les recherches fructeuses (2,08).

Cela étant, si l’intérêt d’un métamoteur est indéniable pour des requêtes “basiques” (quelques mots reliés par AND ou OR), l’utilisation des fonctions avancées propres à chaque moteur reste à notre avis le meilleur moyen d’obtenir satisfaction dans ses requêtes...

(1) “Accessibility of information on the Web”, de S. Lawrence & C. Lee Giles.
Nature, vol. 400, 8 july 1999, pp.107-109
(2) Diverses enquêtes ont en effet montré que la majorité des internautes cliquent sur l’un des liens présentés dans la première page de résultats
(3) “Different Engines, Different Results - Web seachers not always finding what they’re looking for online”
http://CompareSearchEngines.dogpile.com/OverlapAnalysis.pdf