Bases, Numéro de Mai 2005 - n°216


Nouvel opérateur sur EDD

Nous avons vu dans un récent numéro de Bases ("Recherche en ligne : comment ne pas être noyé sous les résultats", n° 213, février 2005) qu’il n’était pas rare de se trouver débordé par un trop grand nombre de réponses. Dans cet article, nous avons passé en revue différentes méthodes et outils et annoncé la mise à disposition prochaine par EDD d’un nouvel opérateur, baptisé QUORUM....

Auteur : François Libmann

Cet opérateur est aujourd’hui disponible.
Il permet de sélectionner les documents contenant un minimum de n termes, parmi une liste qui peut être illimitée.

L’EDD donne dans son communiqué un exemple avec une recherche sur la société Total, qui est un classique dans les recherches qui posent problème.

Pour identifier par exemple les articles dans lesquels se trouvent le mot Total et au moins trois mots parmi les dix indiqués entre parenthèses, la syntaxe est la suivante :
Total et (desmarest : petrol* : raffin* : “station service” : gaz : hydrocarbures : gisement : essence : “plate forme” : forage)q>=3.

Nous avons effectué quelques tests autour de cette question pour mesurer la sensibilité des résultats aux variations de la stratégie.

Ces tests ont porté sur une durée de quatre jours, pour avoir un nombre de documents manipulable. Le critère que nous avons retenu pour évaluer la pertinence des documents était simplement que le terme “total” présent dans l’article soit le nom de la société Total, quel que soit le contexte de l’article.

Nous avons bien conscience qu’il faut être particulièrement prudent sur la portée statistique de ces résultats, mais les tendances qu’ils font apparaître sont néanmoins intéressantes.

La stratégie indiquée plus haut, demandant la présence d’au moins trois termes signifiants parmi les dix indiqués, génère 26 réponses dont une en triple, soit en fait 24 réponses dont 19 pertinentes, soit environ 80 %.

Si l’on exige la présence d’au moins quatre termes parmi les dix indiqués, on ramène le résultat à 2 réponses, dont on n’est pas surpris qu’elles soient pertinentes.

Si, à l’inverse, on exige la présence de deux termes seulement parmi les dix, on obtient 52 réponses – en fait 50, en enlevant les documents en double. On rajoute donc 26 nouveaux  documents aux 24 précédents, dont 16 (61 %) sont pertinents, ce qui n’est pas du tout négligeable ; le taux global de pertinence (pour l’ensemble des 50 réponses) tombe alors à 70 %.

Si l’on n’utilise plus le nouvel opérateur mais que l’on cherche simplement avec “total” ou l’un des dix termes, on obtient 302 réponses.

Avec la stratégie plus simple total et (petrol* ou raffin* ou hydrocarbures), on obtient 223 réponses. Un test sur les vingt plus récentes en français fait apparaître six réponses pertinentes, qui n’étaient pas dans les 50 précédentes.

On arrêtera là l’avalanche de chiffres, pour terminer par quelques commentaires.

Une première leçon, utilement rappelée par ces quelques tests, est que sauf exception, la recherche dans une banque de données d’articles et de dépêches n’est pas une science exacte et que le savoir-faire du chercheur, lié aux outils de recherche mis à sa disposition, reste un facteur déterminant dans le niveau de qualité des résultats obtenus.

Le deuxième point est le choix que l’on fait du positionnement du curseur entre taux de pertinence des résultats  – l’inverse du niveau du bruit – et le risque de silence, c’est-à-dire de documents pertinents non retrouvés.

Ce nouvel opérateur Quorum est proche, dans son concept, de l’opérateur permettant d’exiger qu’un terme figure n fois dans un document. Ce dernier est maintenant très répandu chez les serveurs/ agrégateurs.

Mais Quorum est, à notre avis, beaucoup plus original.

Certes, l’utilisation de Quorum – pas plus que celle des autres opérateurs – ne supprimera  pas magiquement les difficultés de certaines recherches ; mais cet outil s’ajoute à la panoplie mise à disposition des chercheurs et cela est très positif.

On notera d’ailleurs que si, dans l’exemple choisi, Quorum était utilisé pour limiter le bruit d’un terme particulièrement ambigu, une autre application très intéressante est la recherche sur un domaine large, dont les concepts peuvent s’exprimer de diverses façons.