Actualités
Agenda
Liens utiles
Netsource
Netsource - Sommaire en cours
Netsource - Anciens sommaires
Netsource - Recherche des archives
Revue Bases
Revue Bases - Sommaire en cours
Revue Bases - Anciens sommaires
Revue Bases - Recherche des archives
Ouvrages
Qui sommes-nous ?
Notre équipe
Accueil > Bases > Anciens sommaires > BioText Search Engine : un concurrent de CSA Illustrata dans le biomédical

Bases, Numéro de Juillet-Août 2007 - n°240


BioText Search Engine : un concurrent de CSA Illustrata dans le biomédical

Développé par l’université de Californie à Berkeley, BioText est un outil de recherche destiné aux biologistes, pour leur permettre d’accéder aisément à la littérature scientifique. Certes, le domaine était déjà bien pourvu, tant avec de grandes banques de données telles PubMed, Biosis, Embase... qu’avec des outils de recherche dédiés à une publication ou à un éditeur, sans oublier les agrégateurs tels Google Scholar, Scirus, Scopus ou Web of Science. Mais l’idée d’un nouvel outil – le BioText Search Engine – est née de l’observation que la plupart des chercheurs débutent leur lecture d’un article scientifique par son titre, le résumé, les illustrations et les descriptifs de celles-ci. ...

Auteur : Béatrice Foenix-Riou

 
Les illustrations leur sont en effet très utiles, car elles peuvent permettre d’identifier des articles contenant des informations importantes sur des méthodes expérimentales.

Or, si les outils de recherche sur les résumés ou le texte intégral des articles sont légion, très peu mettent en exergue les illustrations (on citera néanmoins le lancement récent de CSA Illustrata, voir Bases n°236).

C’est pour tenter de combler cette lacune qu’a été développé the BioText Search Engine, accessible sur le site de l’université de Berkeley  (http://biosearch.berkeley.edu).

LES ILLUSTRATIONS DES ARTICLES MISES EN AVANT


La page d’accueil de BioText offre une traditionnelle zone de saisie pour inscrire les termes de sa requête, celle-ci étant lancée sur plus de 150 revues en open access ; sous la zone de saisie, figurent diverses options permettant de définir la présentation des résultats et leur mode de classement.

On peut ainsi choisir, depuis un menu déroulant, de classer les résultats par ordre chronologique (descendant ou ascendant) ou par pertinence.

Quant à leur présentation, trois options sont proposées :

- Abstract (List View) : la recherche s’effectue sur les titres, les résumés, les noms d’auteurs et, depuis quelques jours, sur le texte intégral de l’article (les champs titre et résumé ont toutefois plus de poids que le texte intégral, dans le calcul de la pertinence).

La page de résultats affiche la liste des articles sélectionnés avec, pour chacun, son titre, le nom des auteurs et de la source, un résumé détaillé, quelques extraits pertinents du texte intégral ainsi que – c’est l’atout de BioText – les différentes illustrations propo-sées dans l’article ; un lien vers l’article en texte intégral, au format HTML ou PDF, est également offert ;

- Captions (List View) : la recherche s’effectue sur le titre, le nom des auteurs et sur les descriptions des différentes illustrations contenues dans les articles.

L’outil identifie les articles pertinents et affiche, pour chacun, la première de ses illustrations, accompagnée du titre de l’article, du nom des auteurs et de la source et du descriptif de l’illustration.
Des liens permettent d’accéder au texte intégral de l’article (format PDF ou HTML) ou aux autres illustrations de l’article ;

- Captions (Grid Views) : le mode de recherche est le même que le précédent, mais la présentation des résultats diffère et met en avant les illustrations.

La page de résultats affiche les illustrations identifiées mais ne donne, pour chacune, que la première ligne de sa description.

Le lien “View Fig. & Caption” permet néanmoins d’ouvrir une fenêtre comportant la figure et son descriptif complet.

Le lien View All Figs. propose quant à lui d’afficher toutes les illustrations de l’article accompagnées de leurs descriptifs complets, ainsi que du résumé de l’article, de son titre, etc.

Enfin, en glissant le curseur sur l’image, on affiche dans une fenêtre le titre de l’article et le nom des auteurs et de la source.

DES POSSIBILITES DE RECHERCHE ORIGINALES


BioText a été développé avec le moteur de recherche libre Lucene et indique, dans sa page About BioText, qu’il utilise sa syntaxe.

Un lien est d’ailleurs donné vers une description détaillée de cette dernière, qui offre des possibilités de recherche très sophistiquées.

Malheureusement, certains opérateurs de Lucene semblent ne pas fonctionner sur BioText.

Ainsi, l’opérateur de proximité n’est pas compris et il est impossible de limiter la recherche aux titres des articles.

D’après nos tests toutefois, plusieurs possibilités intéressantes sont offertes par BioText :

- les opérateurs booléens classiques (AND, +, OR, NOT, –) sont supportés et l’on peut formuler sa requête en utilisant les parenthèses.
Alors que Lucene utilise l’opérateur OR par défaut, BioText vient heureusement de changer sa syntaxe pour choisir le AND implicite, comme le font la quasi-totalité des outils de recherche sur le Web ;

- comme sur (presque) tous les outils, les guillemets permet-tent de rechercher un mot-composé ou une expression ;

- une troncature est disponible, avec diverses options : ? remplace ainsi un caractère, * plusieurs, ces deux symboles pouvant être utilisés au milieu ou à la fin d’un mot ;

- BioText supporte la “recherche floue”, pour prendre en compte des mots ayant une orthographe approchée.
Il faut pour cela inscrire le symbole ~ après le mot. On peut préciser la similarité désirée en ajoutant un chiffre compris entre 0 et 1 (ex. sorbitol~0.7), 1 étant la plus forte similarité ;

- il est également possible, lors d’une recherche sur plusieurs mots, de pondérer un terme, pour renforcer son importance.
Il faut pour cela utiliser le symbole ^ après le mot, en indiquant le “boost factor” (qui est 1 par défaut) (ex.: glucose insulin^5).

En matière de couverture enfin, BioText indexe aujourd’hui les articles des 150 revues en open access disponibles dans PubMed Central, ce qui représente 20 000 articles et 80 000 illustrations (de nouveaux articles sont chargés chaque jour).

Au final, the BioText Search Engine dispose donc de nombreux atouts, qui devraient lui assurer un succès certain.
L’interface s’avère extrêmement conviviale et facilite considérablement la lecture des résultats. 
Il faut dire que son développement s’est fait en tenant compte de plusieurs études pilotes menées auprès de chercheurs.

Bref, dans un domaine déjà bien couvert par les outils de recherche, BioText Search Engine a su trouver le “plus” qui attirera sans doute de nombreux internautes.

Et BioText ne compte pas s’en tenir là. L’outil devrait dans un futur proche offrir encore d’autres fonctionnalités, comme le classement des illustrations par thèmes...


INFORMATIONS
http://biosearch.berkeley.edu
“Exploring the Efficacity of Caption Search for Bioscience Journal Search Interfaces”
Marti A. Hearst, Anna Divoli et al.
in ACL 2007 Workshop on BioNLP
http://biotext.berkeley.edu/papers/bionlp07.pdf


 

Version imprimable
BASES PUBLICATIONS
27, rue de la Vistule
75013 Paris
Tél. : 01.45.82.75.75
contact@bases-publications.com
Abonnez-vous   |   Contact   |   Mentions légales |   Crédits