Bases, Numéro de Mars 2007 - n°236


Une innovation majeure dans les banques de données bibliographiques scientifiques

Lors du dernier Online de Londres, Matt Dunie, le président de CSA, nous avait annoncé le lancement prochain de CSA Illustrata (voir Bases n°232), présenté aujourd’hui par ses promoteurs comme la seule innovation de taille dans le domaine des banques de données A&I (Abstracting & Indexing) depuis l’introduction, il y a plus de 40 ans par Eugene Garfield, des citations bibliographiques présentes dans l’article original. ...

Auteur : François Libmann

Si ce produit est une réelle innovation – l’innovation étant une invention qui se généralise, ou tout au moins est diffusée largement –, issue d’une société par ailleurs en mouvement, on peut néanmoins considérer que l’enthousiasme provoqué par son lancement est un petit peu exagéré. Les recherches sur les images ont en effet fait l’objet de multiples travaux depuis de nombreuses années et des moteurs de recherche aussi connus que Google ou Yahoo! offrent des modules spécifiques pour la recherche d’images ; mais les requêtes sont le plus souvent lancées sur les mots qui entourent les images dans les pages web.
Quant aux banques de données d’images et aux différentes possibilités de recherche qu’elles proposent, elles sont focalisées sur les images elles-mêmes et ne sont pas dans la problématique qui considère les illustrations comme un des éléments des articles scientifiques.

On évoquera aussi les possibilités – également d’autre nature – offertes par la société LTU de rechercher sur les images elles-mêmes, possibilités qui avaient été testées puis abandonnées pour la recherche sur les dessins et modèles, un des services proposés par Plutarque (Bases n°206). La technologie de cette société est d’ailleurs utilisée depuis peu par le moteur Exalead, qui vient de lancer en version bêta une application permettant de restreindre la recherche d’images aux illustrations qui contiennent un visage.

TABLEBASE, IL Y A NEUF ANS DEJA


Ce qui se rapproche le plus du concept de CSA Illustrata dans l’offre existante, est la banque de données TableBase, disponible depuis début 1998 sur Dialog (fichier n°93) et DataStar (BTBL).
La société RDS, qui l’a lancée, a été rachetée quelques mois plus tard par Dialog et fait maintenant partie de Gale, une autre filiale du groupe Thomson.

Cette banque de données est constituée à partir d’une sélection des références et des articles présents dans la banque de données Business & Industry, du même producteur, parmi ceux qui comportent des statistiques ou des données numériques de toutes natures : parts de marché, classements, prévisions, données d’import/ export, données démographiques...

Les données proposées par TableBase sont de nature plus restreinte que celles proposées par CSA Illustrata, puisqu’il ne s’agit que de séries de chiffres mais, à l’époque, la technologie ne permettait pas vraiment autre chose.

On peut donc considérer que RDS a été assez précurseur sur ce concept, à qui CSA a clairement donné une dimension bien plus large avec des ambitions sans commune mesure.

On est d’ailleurs assez étonné de la discrétion des producteurs de TableBase, qui n’en ont jamais fait une promotion très active.

On notera aussi qu’ils n’ont pas cherché non plus à faire évoluer cette banque de données comme ils auraient pu le faire en utilisant les nouvelles technologies, ce qui aurait pu être très intéressant.

CSA : DES STRATEGIES TRES PENSEES


A côté de cela, CSA est le contraire d’une société immobile et sans réflexion stratégique. Son concept de départ était déjà intéressant, puisqu’il consistait à récupérer les banques de données bibliographiques de nombre de sociétés savantes, qui ne souhaitaient pas que leur production devienne une part trop importante de leur activité.

Cette exigence stratégique assez poussée explique sans doute les démêlés de CSA avec Dialog ; ce dernier s’était vu retirer d’un coup, fin septembre 2002, 19 banques de données ; puis, en 2006, plus de 20 banques de données de ce même producteur furent à nouveau disponibles, mais pas pour tous les clients (les clients académiques notamment, cœur de cible de CSA, ne peuvent y accéder) et pas toutes en “pay as you go”.

Pendant tout ce temps, les relations avec STN sont, semble-t-il, restées au beau fixe, ce serveur continuant à offrir les bases de CSA.
Les raisons de la différence de traitement entre les deux serveurs ne sont jamais apparues très clairement.

CSA a également été actif dans le lancement de différents outils comme Refworks qui permet, à partir de références issues de CSA Illumina, EbscoHost, Google Scholar, Highwire ou d’autres, de se constituer et de partager simplement une petite banque de données personnelle, qui peut aussi constituer la bibliographie d’une thèse ou d’un mémoire.

Plus récemment, l’annonce faite en décembre dernier du rachat de Proquest Information and Learning (pour environ 222 millions de dollars) est une autre illustration d’un dynamisme et d’un esprit entrepreneurial certain.

Rappelons que Proquest est en fait une très ancienne société. Elle s’appelait auparavant Bell et Howell Information & Learning, qui était le nouveau nom de UMI, créé en 1938 sous le nom de University Microfilm.

La société au cours de son existence a absorbé nombre de sociétés du secteur, telle que la britannique Chadwick-Healey.
L’offre à destination essentiellement du monde académique est connue, noramment pour sa collection de thèses et l’agrégation de multiples publications. C’est une clientèle très proche du cœur de clientèle de CSA, ce dernier atteignant la clientèle d’entreprises essentiellement par ses accords avec STN et Dialog.

L’opportunité de ce rachat de Proquest par CSA a été provoquée par les graves problèmes comptables et financiers qu’a rencontrés Proquest, qui ne sont pas sans rappeler – même si c’est à une moindre échelle – ceux qui avaient abouti il y a quelques années à la déconfiture de Rowecom. Ces problèmes ont, en effet, conduit Proquest à se vendre par appartements pour résoudre sa crise financière.

Mais le projet Illustrata était né bien avant, puisque Matt Dunnie nous a affirmé que les premières réflexions dataient de 1997.

Les travaux, qui supposaient de disposer de fonds significatifs, n’ont cependant commencé qu’en 2004, dans le cadre d’un partenariat privilégié avec l’éditeur Blackwell Publishing Company, qui a mis à disposition des volumes significatifs de contenus.

Ce partenariat était en effet nécessaire car CSA n’offre que les références bibliographiques avec résumé, et qu’il était indispensable de disposer d’une collection significative d’articles avec des illustrations, ce que, par définition, possède un éditeur.

INDEXER EN DETAIL LES ILLUSTRATIONS


L’idée d’Illustrata est venue de la rencontre de deux éléments :
• le développement dans le monde du Web de ce qu’on a nommé le “Deep Indexing”, c’est à dire la volonté d’aller au delà d’une indexation “élémentaire” des documents ; plus précisément dans ce cas-là, il s’agissait d’indexer les illustrations de toutes natures présentes dans les articles scientifiques, ce qui ne s’était a priori jamais fait, tout au moins à cette échelle, sauf parfois pour signaler la simple présence d’une illustration ;
• une réflexion considérant que, dans bien des cas, l’essence même d’un travail scientifique se trouve au cœur des données présentes dans les illustrations et autres graphiques figurant dans l’article.

Un prototype a été réalisé, réunissant 300 000 illustrations dans les domaines de la biologie, de l’environnement et des sciences de l’eau.
Compte tenu du nombre moyen d’illustrations par article dans ce domaine – qui est de 10 –, cela représente environ 30 000 articles.
On notera que le nombre moyen d’illustrations par article est de 14 dans le domaine des sciences et techniques, mais de 4 seulement dans celui des sciences sociales.

CSA a chargé le Center for Information Studies de l’université du Tennessee d’étudier, à partir de ce prototype, l’intérêt que pouvait avoir ce type de “deep indexing” pour les scientifiques et d’explorer comment cela pouvait améliorer l’efficacité de la recherche scientifique.
Une équipe conduite par Carrol Tenopir et Robert J. Sandusky  a mené les investigations auprès de 60 scientifiques de différents niveaux, dans sept universités et deux instituts de recherche, trois situés en Europe (mais aucun en France) et six aux USA.

Cette étude a montré, en particulier, que les recherches de tableaux, figures et autres images étaient réalisées le plus souvent en utilisant Google et que le niveau de satisfaction était faible. Après utilisation du prototype présenté par CSA, environ 37% des personnes du panel pensaient pouvoir retrouver des articles qu’ils n’auraient pas retrouvés autrement (17% sûrement et 20% sans doute) et 60% pensaient qu’ils passaient moins de temps à retrouver les articles que dans une banque de données classique (sans indexation des images).

Finalement, 90% des personnes participant à ce panel ont dit préférer un système proposant une recherche traditionnelle couplée à une recherche sur les illustrations, indexée de façon appropriée.
Sur un plan méthodologique ce n’est pas une surprise, surtout si l’aspect financier n’était pas évoqué, comme on peut le supposer.

Ces nouvelles possibilités étaient considérées comme pouvant faire gagner du temps, mais aussi améliorer la qualité de la recherche.

Une application potentielle est apparue également, qui consiste à inclure plus facilement et de façon plus pertinente des illustrations dans une présentation ou un cours.

CSA a considéré que les résultats de cette étude étaient suffisamment positifs pour décider de lancer CSA Illustrata en commençant par le domaine des sciences naturelles, avec un premier ensemble d’éditeurs partenaires.
CSA Illustrata a été lancé au début de l’année avec près d’un million d’objets (un objet étant défini comme une illustration quelle qu’elle soit), issus d’environ 100 000 articles dans le domaine des sciences naturelles, publiés par une vingtaine d’éditeurs, sachant que des négociations sont en cours pour élargir encore le panel d’éditeurs.

Près de 90% des objets sont issus d’articles publiés depuis 2003. L’objectif est d’atteindre les deux millions d’objets (environ 200 000 articles) au début 2008 et les trois millions (environ 300 000 articles) début 2009.
Il est également prévu de lancer, peut-être d’ici la fin de cette année, des banques de données de même nature dans le domaine des sciences sociales d’une part et dans celui de la technologie d’autre part, qui sont les autres domaines couverts par la plate-forme CSA Illumina, qui donne accès à toute une série de banques de données.

Chaque utilisateur accède à tout ou partie de ces bases en fonction de l’abonnement qu’il a souscrit.

A ce niveau, CSA Illustrata est considéré comme l’une des bases du catalogue, même si sa structure est différente de celles des autres banques de données disponibles sur la plate-forme.

L’utilisateur a le choix entre trois domaines : Natural Sciences, Social Sciences et Technology.
S’il sélectionne les Natural Sciences, il se voit proposer l’accès à CSA Illustrata et à une série de banques de données “classiques”, avec résumé, indexation et texte intégral dans certains cas.

Si CSA Illustrata est la seule banque choisie ou si elle est incluse dans la sélection, l’utilisateur a accès aux champs d’indexation spécifiques des objets (c’est le terme générique utilisé pour parler des différentes sortes d’illustrations présentes dans le document), en plus des champs d’indexation classiques.

Que ce soit dans la recherche simple ou avancée, les termes sont recherchés par défaut dans l’ensemble des champs indexés.

Dans la recherche avancée, on peut préciser pour chaque terme dans quel champ il doit se trouver. On peut donc rechercher spécifiquement sur les images ce qui, à l’évidence, diminue dans la quasi-totalité des cas le nombre de réponses mais, en contrepartie, augmente très significativement leur pertinence.

L’indexation des objets est assez détaillée. On dispose en effet non seulement d’un descripteur général (Object Descriptor), mais également de descripteurs géographique, statistique, taxonomique et un “Subject Descriptor”, qui sont des sous-ensembles du descripteur général.

Ces descripteurs très détaillés sont extraits des légendes des illustrations, ce qui ne facilite pas la recherche sur un sujet précis, puisqu’il est rare de pouvoir l’exprimer d’une seule façon.

L’utilisateur n’est pour autant pas totalement démuni, car il est possible de relancer une recherche en sélectionnant certains mots-clés liés aux images d’un document visualisé.
On a alors la possibilité de restreindre la recherche précédente (opérateur AND) ou de l’élargir (opérateur OU).

Il est également possible de consulter l’index des descripteurs d’objets.
On dispose aussi sur l’écran de recherche de la possibilité de limiter la requête à certaines catégories d’images telles que graphe, illustration, carte, photographie, tableau…

Lorsque l’on fait une recherche sans se limiter aux termes d’indexation des images, le système affiche le nombre de “Published works” trouvés et le nombre de “Tables and Figures”, qui sont d’ailleurs ventilées en nombre de “Tables” et en nombre de “Figures”.

Si l’on choisit de visualiser par le biais des “Published works”, on obtient dans un premier temps une liste de références bibliographiques avec titre, source, auteur, début du résumé, début de la liste des mots-clés et une série de petites vignettes figurant les images, celles contenant le(s) mot(s) de recherche étant entourées d’un liseré orange.

Si l’on clique sur “View Record”, on obtient les références complètes avec la totalité du résumé, de l’indexation et des vignettes plus grandes pour les images. Si l’on met le curseur sur une image, apparaît alors sa légende qui peut être longue, sa catégorie et son indexation spécifique.

Si l’on clique sur l’image, elle apparaît alors en grand format, avec dans l’image le rappel de la référence bibliographique et quelques éléments bibliographiques. Si l’on clique sur Show original, on obtient l’image et la référence seule.

Si l’on choisit de visualiser par le biais de Tables and Figures, chaque document affiché est directement une image répondant aux critères de recherche dans l’indexation spécifique ou dans la légende. On peut, à partir de là, visualiser spécifiquement l’image, ou revenir sur la référence bibliographique obtenue avec la démarche précédente (en cliquant sur “View Abstract”).
  
Par ailleurs, lorsque l’on fait une recherche (simple ou avancée) sur la plate-forme CSA Illumina, dans un domaine qui n’inclut pas explicitement Illustrata – comme “Technology Subject Aera” –, le système indique quand même des résultats issus d’Illustrata (dans un objectif de promotion), auxquels on accède en cliquant sur Tables & Figures.

Le fait que l’on trouve des images dans un autre domaine que celui explicite d’Illustrata est lié au fait qu’une partie des revues prises en compte sont pluridisciplinaires.
On trouve avec CSA Illustrata une confirmation que l’innovation dans le domaine de l’information électronique ne se limite pas à ce qui tourne autour des moteurs de recherche sur Internet, ni autour des diverses technologies de text mining.

On peut penser que sous réserve d’un prix jugé acceptable par les clients, cette approche va se développer.

Malheureusement, elle sera peut-être, au moins dans un premier temps, limitée de facto au monde académique et aux clients de la plate-forme CSA Illumina, qui ont des abonnements forfaitaires annuels.

Il paraît en effet peu vraisemblable qu’à court terme, CSA propose à d’autres plates-formes ou serveurs d’utiliser ou de donner accès à Illustrata, considéré comme un élément innovant qui fait la différence avec ses concurrents.