Actualités
Agenda
Liens utiles
Netsource
Netsource - Sommaire en cours
Netsource - Anciens sommaires
Netsource - Recherche des archives
Revue Bases
Revue Bases - Sommaire en cours
Revue Bases - Anciens sommaires
Revue Bases - Recherche des archives
Ouvrages
Qui sommes-nous ?
Notre équipe
Accueil > Bases > Anciens sommaires > Troncature à gauche : des possibilités loin d'être systématiques

Bases, Numéro de Janvier 2007 - n°234


Troncature à gauche : des possibilités loin d'être systématiques

Nous apprécions particulièrement les services qui, outre un riche fonds d’information, offrent des possibilités de recherche sophistiquées. Non pas que nous préconisions de complexifier les stratégies de recherche pour le plaisir ou par principe, mais nous considérons qu’il est vraiment dommage – et même très pénalisant pour certaines questions – de ne disposer ou de n’utiliser que des critères de recherche limités. ...

Auteur : François Libmann

 
On sait que la très grande majorité des utilisateurs de banques de données et, plus largement, de ressources électroniques, se contentent de stratégies de recherche très simples, voire élémentaires.
Il existe heureusement des professionnels de l’information qui estiment que la recherche elle-même peut avoir une vraie valeur, en amont de celle apportée dans le traitement des informations qu’elle va permettre de retrouver.
   
Parmi les possibilités de recherche sophistiquées, nous nous intéresserons dans cet article à la troncature à gauche, c’est-à-dire à la possibilité d’effectuer la recherche sur tous les termes se terminant par une chaîne de caractère.
C’est ainsi qu’une requête sur le terme “luminescence” avec troncature à gauche permettra de retrouver des documents dans lesquels figurent, par exemple, les termes bioluminescence ou électroluminescence.

Si l’on analyse à la fois le profil des serveurs/agrégateurs offrant ces possibilités et le type de questions pour lesquels la troncature à gauche est utile, on peut distinguer trois cas :
- les recherches dans le domaine scientifique et technique, en particulier dans le domaine de la chimie ;
- les recherches sur des noms de marque ;
- les recherches effectuées en langue allemande, compte-tenu de la construction des mots de cette langue.

Nous allons évoquer successivement ces trois cas, mais essentiellement le premier.

RECHERCHES DANS LE DOMAINE SCIENTIFIQUE ET TECHNIQUE


Dans le domaine scientifique et technique, les serveurs STN International, Questel.Orbit et Dimdi permettent l’utilisation de la troncature à gauche. Celle-ci peut être illimitée, de zéro ou un caractère, ou d’un caractère exactement.

On retrouve d’ailleurs sur le serveur EINS cette possibilité, pour les bases de STN et de Dimdi auxquelles il donne accès et qui acceptent cette troncature. En revanche, la troncature à gauche est impossible sur les bases d’EINS chargées sur Cineca.

De la même façon, ni Dialog, ni DataStar n’offrent de possibilité de troncature à gauche.
Dialog dispose néanmoins pour les bases de données marques de spécificités proches, sur lesquelles nous reviendrons.

Sur STN International, il est par ailleurs possible de tronquer à la fois à gauche et à droite – ce que STN appelle SLART, c’est-à-dire Simultaneous Left and Right Truncation –.
Néanmoins il faut prendre garde au fait que l’option de pluriel automatique ne fonctionne pas sur STN quand on fait une troncature à gauche sur un terme ; mais on peut bien sûr ajouter à droite une troncature d’un ou de plusieurs caractères.

Sur Questel, la troncature à gauche est disponible dans toutes les bases, sauf ARMEMENT, BODACC, ECLA, FRJURISP, IALINE et USCLASS. Elle fonctionne en général sur le Basic Index.

Sur Dimdi, le service assistance nous a affirmé que la troncature à gauche était possible sur toutes les bases offertes par ce serveur, mais nous n’avons pu le vérifier.

Sur STN International, la troncature à gauche fonctionne dans une petite centaine de bases, dont on trouve la liste à jour à l’adresse www.cas.org/ONLINE/DBSS/stnslartfiles.html.
On notera que l’essentiel des “grandes” bases de données font partie de la liste. Parmi celles qui n’offrent pas cette possibilité, on trouve quelques bases de données de CSA, des bases de Derwent (hormis World Patents Index qui permet de l’appliquer à une grande variété de champs), 1Mobility, Agricola, CEABA-VTB…

Cette troncature peut en général être utilisée sur l’ensemble du Basic Index, mais il est parfois possible de se limiter aux titres ou aux résumés des documents.
Pour les bases de données qui contiennent des structures de molécules – telles que Registry ou ADISInsight –, la troncature est disponible dans le champ CNS (Chemical Name Segment). Tout cela est précisé dans la liste évoquée plus haut.
   
STN International permet par ailleurs de visualiser les termes générés par la troncature à gauche, avec la commande EXPAND LEFT.

Sur Questel, ces termes apparaissent lorsque l’on fait une troncature à gauche, avec l’option “visualisation des termes” ; cette option est activée par défaut si l’option troncature est avec choix, ou peut être forcée en rajoutant /C, si l’option troncature est “auto”.
   
Comme on vient de le voir, toutes les bases n’offrent pas la troncature à gauche.

Dans son numéro 5/2006, STN News propose une démarche astucieuse pour arriver à un résultat très proche, dans les “non SLART databases” : l’exemple choisi consiste à rechercher dans Agricola, qui n’offre pas de troncature à gauche, les références dans lesquelles se trouve un terme comprenant la chaîne de caractères TETRACYCLIN.

La démarche consiste à démarrer la recherche dans Chemical Abstracts, avec la stratégie S?TETACYCLIN?, qui génère 36 234 documents.
La commande ANALYZE est ensuite utilisée pour analyser les résultats. Plus précisément, on entre la commande ANA HIT 1-10000, qui permet d’extraire, de classer et de compter, dans 10 000 des 36 234 documents, les termes contenant la chaîne de caractères TETRACYCLIN.

Le choix de 10 000 documents est un compromis, car le coût de la commande ANALYZE est fonction du nombre de documents traités : 9,65 € de 1 à 1000, 16,55 € de 1001 à 10 000 et 22,10 € de 10 001 à 50 000, ce dernier chiffre représentant la limite des possibilités du système.
La commande ANALYZE génère une liste des termes, qui sont réunis dans un ensemble, par exemple L3.

Si l’on passe ensuite dans une base de données comme Agricola ou Lifescience, qui n’offrent pas de troncature à gauche, la commande S L3 (dans notre exemple) permet de rechercher dans cette base les documents contenant au moins l’un des termes sélectionnés dans la commande ANALYZE, comme OXYTETRACYCLIN ou CHLOROTETRACYCLIN.

L’augmentation du nombre de résultats obtenus dans ce cas est très significative, puisque cela revient pratiquement à doubler le nombre de réponses.

Nous avons un peu creusé autour de cet exemple présenté assez rapidement et pouvons faire les recommandations suivantes :

- il vaut mieux faire l’analyse sur 10 000 documents que sur 1 000 ; le nombre de termes obtenus est significativement plus important ;

- si l’on ne précise rien, la commande ANALYZE dans Chemical Abstracts ne s’exécute que dans le titre ; si on l’exécute dans le titre et le résumé (ANALYZE Ln 1-10000 TI AB HIT), cela augmente là aussi significativement le nombre de termes obtenus, ce qui est bien le but lorsque l’on s’engage dans une telle démarche.
En revanche, rechercher aussi dans l’indexation (champ IT) n’augmente que très marginalement le nombre de réponses, mais le temps d’exécution de la commande ANALYZE devient beaucoup plus long ;

- il faut par ailleurs penser, dans le deuxième fichier – Agricola ou LifeScience dans notre exemple –, à écrire S Ln/BI (si Ln regroupe tous les termes retrouvés par la commande ANALYZE). Sinon, le système ne recherchera les termes que dans les titres, ce qui diminue très sensiblement le nombre de réponses ;

 - on peut aussi utiliser la commande EXPAND LEFT dans une banque de données qui autorise la troncature à gauche, sélectionner les termes et les utiliser comme termes de recherche dans une autre banque de données, mais le risque est que le nombre de termes dans l’EXPAND soit très grand et devienne difficile à manipuler.

On sera, en effet, amené à prendre en compte un grand nombre de termes très peu utilisés (au moins une fois cependant) dans la base de départ, dont on n’est pas du tout sûr qu’ils seront utilisés dans la deuxième base.

RECHERCHES SUR DES NOMS DE MARQUES


Lorsque l’on fait des recherches sur les marques, la troncature à gauche est indispensable.

Elle est, comme on l’a vu, disponible dans les bases marques offertes par Questel, via l’une des interfaces classiques. Dans le cas de l’interface TradeMark Explorer, cette fonctionnalité est également proposée.

Pour ce qui concerne Catamaran Plus, service d’Edital racheté récemment par Questel (Bases n° 231, octobre 2006), il y a un raffinement supplémentaire puisque l’on peut exiger que la troncature à gauche porte uniquement sur une voyelle ou un chiffre.

En ce qui concerne Dialog, qui offre une large collection de banques de données marques dans la collection Trademarkscan, différentes possibilités sont offertes, bien que, d’une façon générale, ce serveur ne propose pas de troncature à gauche.

Ces bases disposent en effet d’un index permuté (rotated index), qui permet de rechercher des chaînes de caractères présentes à n’importe quel endroit de la marque.

C’est ainsi que SS TR=ERIC? (la troncature est indispensable et Dialog conseille d’utiliser SS – Select Steps, plutôt que S – Select) permettra de retrouver les marques AMERICA, GENERIC ou CLERICAL. Par ailleurs, la commande SS TR=<terme>@ ? fonctionne comme une troncature à gauche, puisque la commande SS TR=FLUFF@? permet de retrouver par exemple FYPERFLUFF.

LE CAS DE LA LANGUE ALLEMANDE


Dans le cas de la presse allemande, si Factiva ou LexisNexis ont une offre dans le domaine, seul le serveur allemand GBI propose une troncature à gauche, mais il n’est pas possible de faire à la fois une troncature à gauche et une troncature à droite.

Comme on le voit, ces possibilités de troncature à gauche sont bien réelles, même si elles ne sont pas systématiques. Nous ne pouvons qu’encourager nos lecteurs à les utiliser, quand elles pemettent d’obtenir de meilleurs résultats.

 

Version imprimable
BASES PUBLICATIONS
27, rue de la Vistule
75013 Paris
Tél. : 01.45.82.75.75
contact@bases-publications.com
Abonnez-vous   |   Contact   |   Mentions légales |   Crédits