Bases, Numéro de Décembre 2006 - n°233


Le piège des abréviations dans les bases scientifiques

Le langage scientifique utilise couramment des abréviations ; les symboles des unités de mesure en sont un exemple particulièrement répandu. Mais les abréviations sont également courantes pour des termes fréquemment utilisés, comme compsn pour composition ou prodn pour production. Cet usage est infiniment moins codifié puisque chaque chercheur a ses propres abréviations. Tant qu’il est le seul lecteur ou presque de ses écrits, cela ne pose pas de problème. Lorsque ces écrits sont destinés à un public plus large, leur compréhension à la lecture ne pose, en principe, guère plus de difficultés, tant que les abréviations restent suffisamment évidentes. Comprendre composition lorsque l’on lit compsn est somme toute relativement naturel, même si l’on n’est pas habitué à lire des textes de cet auteur. Là où cela devient en revanche beaucoup plus problématique, c’est quand ces mots sont utilisés comme des termes de recherche, lors de l’interrogation d’une banque de données. ...

Auteur : François Libmann

En effet, si l’abréviation est utilisée seule dans la référence, une recherche sur le terme complet seul fera basculer une référence pertinente du côté du silence et, si la stratégie de recherche comporte plusieurs termes susceptibles d’être abrégés, le risque est évidemment encore plus grand.
   
Cette pratique de l’usage des abréviations dans les références des bases scientifiques est loin d’être la règle. En effet, sur quelques centaines de banques de données scientifiques et techniques que nous avons testées essentiellement sur Dialog et STN, nous n’en avons repéré que quelques unes dans lesquelles l’emploi d’abréviations est fréquent, sinon systématique. Mais parmi ces bases, deux au moins sont fortement utilisées – World Patents Index de Derwent et Chemical Abstracts – et les résultats des recherches qui y sont effectuées ont fréquemment un impact stratégique important.

Nous avons également trouvé un nombre significatif d’abréviations dans les banques de données bibliographiques suivantes – outre les deux précédemment citées : Analytical Abstracts (chimie analytique), EncompassPat (brevets dans le domaine du pétrole), Japio (brevets japonais), World Surface Coating Abstracts (WSCA), Paperchem, Inpadoc (brevets) et Fampat (brevets), cette dernière sur Questel.Orbit.

Derwent Patents Citation Index en contient aussi beaucoup, ce qui est logique puisque c’est une base produite par Derwent, comme DWPI. Toxcenter (sur STN) fait également partie du lot, ce qui n’est pas surprenant non plus dans la mesure où une partie de son contenu est issu de Chemical Abstracts.

Nous avons également testé Scopus. Dans cette base, l’usage des abréviations est très marginal ; pour les abréviations testées, on obtenait souvent zéro résultat ou, au maximum, quelques dizaines, provenant notamment de la publication polonaise Przemysl Chemiczny.

Nous ne pouvons pas exclure que d’autres banques de données utilisent à une fréquence élevée des abréviations plus “exotiques”, qui auraient échappé à nos tests.

Il n’y a pas en effet de “normalisation” des abréviations entre les différentes banques de données, chacune ayant son propre jeu dont la liste n’est même pas toujours disponible pour les utilisateurs.

A titre d’exemple, dans celles que nous avons citées, beaucoup utilisent l’abréviation compsn pour composition… mais pas Analytical Abstracts, qui utilise en revanche beaucoup sepn pour separation. Cette abréviation n’est pas utilisée en revanche  dans WSCA. Pour revenir à composn, cette abréviation n’est pas non plus utilisée dans PaperChem, ni dans Chemical Abstracts.
       
Les abréviations ont été utilisées surtout par les producteurs qui réécrivaient une part importante des résumés, à l’époque où l’espace mémoire était une denrée plus rare qu’aujourd’hui. Dans certains cas aussi, on peut retrouver ce type d’abréviation dans les résumés d’auteurs, mais cela semble moins fréquent.

Ces problèmes de taille mémoire faisant maintenant partie du passé et – on l’espère – le souci de rendre plus fiables les recherches de leurs clients, ont conduit la plupart des producteurs de banques de données à fortement restreindre l’utilisation des abréviations au fil des ans.

Cependant, les abréviations utilisées dans le passé n’ont pas été remplacées et leur présence est un piège dans lequel il est difficile de ne pas tomber, le plus souvent sans même le savoir car, sauf pour certaines bases de STN, rien n’est dit et rien n’est fait pour prévenir l’utilisateur.

On trouvera dans le tableau ci-dessous une illustration des  risques que l’on prend en n’utilisant pas les abréviations dans les banques de données qui s’en servent de façon significative. Plus précisément, nous avons compté le nombre de références dans lesquelles seule l’abréviation figure et nous l’avons comparé au nombre total de références comprenant le terme ou son abréviation.
 
Nous avons effectué les tests en utilisant le plus souvent le terme composition au singulier et au pluriel et son abréviation composn au singulier et au pluriel.  Mais cette abréviation n’étant pas utilisée dans toutes les bases, nous avons testé la présence de oxidation et de son abréviation oxidn dans PaperChem et Chemical Abstracts et separation et son abréviation sepn dans Analytical Abstracts.

L’observation de ce tableau fait apparaître qu’à l’exception de Chemical Abstracts, toutes les banques de données étudiées ont significativement réduit l’usage des abréviations, sans pour autant toujours le faire disparaître. Néanmoins, dès que l’on fait une recherche avec une certaine antériorité – ce qui est très fréquent dans le domaine scientifique –, c’est un élément à prendre en compte.

On sait bien que la recherche dans les banques de données n’est pas une science exacte, mais il est dommage que ce problème des abréviations introduise un risque supplémentaire.

LA SOLUTION STN


Il existe néanmoins une solution pour les cas qui risquent de poser le plus de problèmes, à savoir l’interrogation des banques de données Chemical Abstracts et World Patents Index. Cette solution est apportée depuis plusieurs années par le serveur STN, en collaboration avec les producteurs de banques de données correspondantes.
Ces deux producteurs ont en effet établi une liste précise des abréviations qu’ils utilisent – la liste de Chemical Abstracts étant de loin la plus importante –, et depuis plusieurs années déjà, STN met à la disposition de ses clients la commande SET ABB ON, que l’on peut rendre permanente en tapant SET ABB ON PERM.  Grâce à cela, le système prendra automatiquement en compte les abréviations des mots de recherche.

Ni Questel.Orbit, ni Dialog ne proposent à ce jour de commande équivalente et, semble-t-il, n’en prévoient pas à court terme.
En fait, le problème se pose surtout pour World Patents Index. Chemical Abstracts en effet a été déchargée de Questel.Orbit à la fin 2006 et ne reste donc disponible que sur STN et sur Dialog ; or,  le refus obstiné de Chemical Abstracts de fournir des résumés interrogeables à Dialog fait que ce serveur n’est pas le meilleur choix pour interroger cette base.
D’autre part, la liste des abréviations est librement accessible* et il n’est pas inconcevable de garder, à portée de main, la liste des abréviations de WPI** lorsque l’on interroge cette base sur Questel.Orbit ou Dialog.

Pour compléter ce que l’on peut dire sur les raisons de choisir Dialog, STN ou Questel.Orbit lorsque l’on souhaite interroger WPI, on précisera que :

• sur STN, la possibilité de prendre en compte automatiquement les abréviations, mais aussi les pluriels, est un avantage certain ;

• sur Dialog, l’avantage réside plutôt dans la tarification du format de visualisation Kwic (Keywords in Context).
Sur Questel.Orbit comme sur STN en effet, la facturation du format Kwic est fonction du prix de la visualisation du champ dans lequel se trouvent les mots de recherche. On risque donc de se voir facturer une visualisation du format Kwic au prix du document complet, ce qui atténue considérablement l’intérêt de l’utilisation de ce format.
Sur Dialog en revanche, la visualisation au format Kwic est gratuite. Pour notre part, nous utilisons le format 26,K, qui revient à 0,44 $ (hors coût de connexion ou DialUnits), et qui permet de visualiser le titre (format 26, qui lui, est payant) en complément du Kwic ;

• sur Questel.Orbit enfin, l’avantage tient au traitement des mots vides. Il faut savoir que, depuis le rechargement de WPI, il n’y a en principe plus de mots vides dans cette base. Cela a pour but de simplifier les recherches sur des mots qui peuvent être ambigus, ce qui est plutôt une bonne chose. Néanmoins, et bien que cela soit moins un problème aujourd’hui, les recherches sur de tels mots peuvent générer un très grand nombre de réponses, dont une part importante de bruit.
Il se trouve que Questel s’est depuis longtemps intéressé au traitement des mots vides et, en particulier, de ceux qui pouvaient l’être ou non, selon leur position dans la phrase, leur contexte, ou le fait qu’ils contiennent ou non des majuscules.
A l’époque, le but était de limiter le temps de réponse ou les overflows. Aujourd’hui, cela reste intéressant pour traiter de façon plus astucieuse les mots vides de WPI, en tenant compte de la typographie et du champ d’indexation.

Si l’on prend l’exemple du mot be dans le résumé, on trouve :
• environ 4,9 millions de réponses sur Dialog, qui avait une mise à jour d’avance sur les deux autre serveurs au moment de nos tests,
• environ 4,75 millions sur STN
• et seulement 8 668 sur Questel.Orbit, qui correspondent par exemple à Be pour Beryllium ou à l’abbréviation BE (Best Effort).
De la même façon, AND dans le résumé donne environ 11,5 millions de réponses dans Dialog et dépasse les limites de STN, quand Questel.Orbit n’en trouve qu’environ 70 000, avec par exemple l’expression “AND gate”.

* www.cas.org/ONLINE/standards.html
** www.scientific.thomson.com/ support/patents/dwpiref/reftools/abbrev/