
|
Bases, Numéro de Septembre 2006 - n°230 Web of Science : une philosophie de la rechercheNous avons présenté Scopus de façon assez détaillée dans le n°223 (janvier 2006) de Bases. Ce produit est relativement récent, puisqu’il a été lancé en novembre 2004. Proposé par l’un des acteurs importants du secteur (Reed Elsevier), il est venu concurrencer Web of Science, un produit de même nature, nettement plus ancien car lancé en décembre 1996, offert par un autre acteur majeur du secteur à savoir Thomson, qui avait racheté en 1992 ISI, le créateur de Web of Science. Web of Science fait maintenant partie de la division Thomson Scientific. ... |
Auteur : François Libmann |
|
Nous n’allons pas décrire ici Web of Science dans le détail, d’une
part car ce n’est pas un produit nouveau – même si des
améliorations sont régulièrement proposées –, mais également parce
qu’il est finalement très semblable à Scopus ou, pour respecter la
chronologie, parce que Scopus est très proche dans son concept de
Web of Science.
On peut d’ailleurs se demander si cette similitude n’est pas – au moins pour une part – liée au fait que, lors de la phase de définition de Scopus, l’approche “User Centered Design” d’Elsevier s’est beaucoup appuyée sur les démarches et les demandes de plus de 300 chercheurs et documentalistes qui, selon toute vraisemblance, étaient familiers du Web of Science ; ce dernier a donc représenté une sorte d’archétype ou, à tout le moins, une référence forte. On accède au Web of Science (WoS) par le biais de la plateforme ISI Web of Knowledge, qui donne également accès à une autre série de services ou de banques de données, produites ou non par Thomson Scientific, telles que Derwent Innovation Index référençant les brevets, Biosis Preview, CAB Abstracts dans le domaine de l’agriculture ou encore FSTA (Food Science and Technology Abstracts). Le Web of Science est composé pour l’essentiel de trois banques de données distinctes, que l’on peut interroger ensemble ou séparément : - Science Citation Index Expanded couvre plus de 6 000 revues ; - Social Sciences Citation Index en couvre 1 800 ; - Arts & Humanities Citation Index en indexe plus de 1 100. COUVERTURES COMPAREES DE WEB OF SCIENCE ET DE SCOPUSA quelques exceptions près, l’ensemble des documents de chaque numéro et de chaque titre – comprenant aussi bien les articles que les lettres de lecteurs – est référencé (cover to cover) et le producteur annonce que la couverture de chaque titre ne comprend aucune lacune. L’ensemble représente près de 38 millions de références. Pour la partie scientifique, la couverture de toute une série de publications remonte jusqu’à 1900, notamment pour le British Medical Journal, le Journal of the American Chemical Society, Nature ou The Lancet ; l’antériorité pour les sciences sociales remonte à 1956 et, pour les arts et sciences humaines, à 1975. Sont également disponibles deux banques de données spécifiquement centrées sur la chimie, à savoir Current Chemical Reactions et Index Chemicus. En comparaison, la couverture de Scopus est plus large en termes de titres, puisque plus de 15 000 sont couverts. Mais Scopus remonte beaucoup moins loin dans le temps (1966 pour de nombreux titres, plus loin pour d’autres), ce qui explique que le volume de documents annoncé soit de 28 millions “seulement”. On notera aussi que les références ne sont présentes dans Scopus que pour les documents publiés à partir de 1996, alors qu’elles le sont depuis l’origine dans le Web of Science. Scopus en revanche intègre des références de conférences, ce qui n’est pas le cas de Web of Science. On trouve cependant sur la plateforme ISI Web of Knowledge la banque de données ISI Proceedings, avec une antériorité qui ne remonte qu’à 1990. Mais dans cette banque de données, les références ne sont disponibles que pour les documents publiés à partir de 1999. Dans certains domaines où les conférences sont nombreuses, le fait qu’elles ne soient pas référencées dans la même base que les articles peut avoir un certain impact en terme de bibliométrie. Par ailleurs, le domaine des sciences sociales et humaines est bien mieux couvert dans Web of Science que dans Scopus. POSSIBILITES DE RECHERCHEDès l’écran d’accueil, Web of Science propose une recherche rapide. Il suffit de préciser la période et les bases à interroger. Cette recherche n’est plus offerte après, car elle devient un sous-ensemble de la General Search, qui permet de combiner une recherche dans un ou plusieurs champs, proposés dans autant de zones de saisie : Topic (c’est à dire titre + résumé + mots-clés), auteur, titre de la publication, adresse des auteurs … avec la possibilité de restreindre par langue ou nature de document. L’Advanced Search permet d’entrer une équation de recherche en indiquant les champs dans lesquels les différents termes doivent être recherchés. Un écran spécifique enfin est proposé pour une recherche sur les citations. Par ailleurs, il est possible de lancer une requête sur les structures chimiques. L’accès au document primaire est, bien entendu, facilité autant que faire se peut par une série de liens, dont une partie est propre à chaque institution abonnée. Bien que d’inspiration proche et s’adressant sensiblement au même type de public, Web of Science et Scopus ne sont pas identiques. Nos tests et l’étude de comparatifs déjà publiés nous ont permis de noter une série de différences, dont on trouvera ci-après une rapide présentation ; celle-ci n’a pas, pour autant, vocation a être exhaustive : • dans Scopus, il y a une troncature automatique qui n’existe pas dans Web of Science ; • l’opérateur AND est l’opérateur par défaut dans les deux systèmes, sachant que jusqu’à une période récente de quelques mois, l’opérateur par défaut dans Web of Science était l’opérateur d’adjacence ; • le seul opérateur de proximité dans Web of Science est SAME, qui demande que les termes soient dans la même phrase. Scopus offre un peu plus de possibilités ; • dans Web of Science, le nombre de documents pris en compte dans une étape de recherche ne peut pas être supérieur à 100 000. Pour certaines recherches complexes, c’est un inconvénient ; • dans Scopus, les premiers éléments de l’analyse des résultats apparaissent systématiquement et un bouton “more” permet d’obtenir les suivants. Dans Web of Science, il faut cliquer sur le bouton Analyze pour déclencher cette analyse. Le nombre de documents qu’il est possible d’analyser dans Web of Science vient d’ailleurs de passer de 2 000 à 100 000 ; • le nombre de critères d’analyse est plus limité dans Scopus. En effet, si les critères source, auteur, année de publication, type de document, sujet, se retrouvent sur les deux services, Web of Science propose aussi de classer les documents selon les critères pays, nom de l’institution, langue ; • sur Web of Science, la recherche sur les citations s’effectue à partir d’un écran spécifique, composé de trois boîtes : auteurs cités, titre de la publication citée et année de publication des documents cités. Un index des auteurs et des abbréviations de titres est disponible. On notera qu’il est possible de retrouver des citations incomplètes. Dans Scopus, on peut chercher aussi dans le titre de l’article cité et, dans la recherche avancée, sur chacun des éléments de la référence. On peut par ailleurs, dans les deux services, rechercher les articles citant un article donné. • dans Scopus, l’administrateur peut paramétrer lui-même les publications auquel l’organisme est abonné, afin que les articles de ces publications soient accessibles à partir des références. Dans Web of Science, il faut passer par le help desk. Plusieurs comparaisons de Web of Science avec Scopus sont disponibles dans la littérature, ou ont fait l’objet de conférences. Il est frappant de constater qu’aucun de ces comparatifs ne fait vraiment pencher la balance d’un côté ou de l’autre, Web of Science bénéficiant cependant de l’avantage du premier arrivé. Il est en fait fréquent que les auteurs de ces articles conseillent finalement de prendre les deux produits … si les budgets des institutions intéressées le permettent. WEB OF SCIENCE ET LES SERVEURS CLASSIQUESNous avons trouvé des comparaisons entre Scopus et Web of Science, incluant quelquefois Google Scholar. Mais aucune n’était étendue aux serveurs scientifiques classiques. Peter Jacso de l’université de Hawaï, auteur prolixe sur ce sujet, nous a d’ailleurs confirmé qu’il n’en connaissait pas. Il nous a donc paru intéressant d’effectuer des tests, incluant l’ensemble des bases scientifiques disponibles sur Dialog et STN hors brevets. Nous n’avons aucunement la prétention d’avoir fait une étude scientifique, à partir d’un nombre statistiquement significatif de questions (sur quels critères ?). Nous avons simplement choisi des questions générant peu de résultats, afin que les comparaisons soient plus faciles, tout en étant conscient du biais introduit. On verra que l’analyse des résultats permet, malgré tout, de mettre en évidence une série de points intéressants et de soulever quelques questions. La première recherche a porté sur l’effet lotus appliqué au domaine des céramiques et, en particulier, des tuiles et briques, application qui a été développée en Allemagne. L’effet lotus, du nom de la plante, concerne les surfaces tellement hydrophobes que les gouttes d’eau qui s’y trouvent restent presque sphériques. Elles n’adhèrent donc pas à la surface et roulent en emportant les poussières qui s’y trouvent. On sait faire des matériaux ou des revêtements de matériaux ayant ces propriétés. Nous avons fait les recherches en anglais sans limitation de date, en croisant (opérateur ET) l’expression “lotus effect” avec des termes tels que ceramics, tile ou brik, assortis des troncatures nécessaires. Cette stratégie ne génère aucun résultat dans Web of Science, deux dans Scopus et 73 dans Google Scholar. Dans Dialog, on trouve 12 réponses après élimination des doublons – on en trouve en fait 11, car l’une est une référence bibliographique à un brevet. Sur STN, nous avons retrouvé sensiblement les mêmes résultats, plus trois documents dans Kosmet ; cette base n’est pas sur Dialog, mais est offerte sur DataStar, un “cousin” de Dialog. En réalité, sur les onze références trouvées dans Dialog, trois sont présentes dans Web of Science, mais deux n’ont pas de résumé et la troisième en possède un plus court, ce qui explique qu’elles n’aient pas été retrouvées avec la stratégie utilisée. De façon analogue, outre les deux références trouvées dans Scopus avec les mots-clés, quatre autres sont présentes mais n’ont pas été identifiées car leur résumé est différent ou absent. Si l’on regarde les dix premières réponses de Google Scholar enfin, on retrouve les références issues des banques de données Pascal et Ceramic Abstracts, ce qui est logique compte-tenu des accords que Google Scholar a passé avec l’Inist (voir Bases n°228) et CSA. Par ailleurs, deux liens sont brisés et un autre document apparaît parce que textile est écrit tex-tile par erreur. Les autres documents de Google Scholar sont sélectionnés parce que la recherche est effectuée sur le texte intégral de l’article et non seulement sur le titre, le résumé et les mots-clés. Ils sont donc a priori moins pertinents. Parmi eux, deux sont visualisables mais on ne peut les imprimer. Deux autres sont aussi présents dans Dialog et Scopus mais pas dans Web of Science et, enfin, un document non daté n’est que dans Google Scholar. Pour le deuxième test, le souci d’utiliser une question ne générant pas trop de documents nous a conduit à rechercher du côté des maladies orphelines. Nous avons choisi de chercher des références citantle cystadane, un médicament qui traite l’homocystinurie, une maladie héréditaire due à un trouble enzymatique du métabolisme de la méthonine. Nous avons obtenu 16 références dans Dialog – en enlevant les doublons et les publications non scientifiques stricto sensu –, sensiblement le même nombre dans STN, une dans Web of Science, sept dans Scopus et 20 dans Google Scholar. En comparant les résultats de Dialog et de Scopus, nous avons remarqué que, outre les sept références trouvées avec le mot cystadane, cinq autres étaient présentes dans Scopus mais n’avaient pas été identifiées. De la même façon, huit autres références étaient présentes dans Web of Science, alors qu’une seule avait été identifiée en utilisant les mots-clés. Dans la quasi-totalité des cas, les références présentes mais non-retrouvées n’ont pas de résumé, ou ont une indexation beaucoup moins développée que dans Dialog ou STN. En particulier, Biosis sur Dialog a un champ “drug name”, qui n’est repris ni dans Scopus, ni dans Web of Science. On notera que parmi les treize articles présents mais non retrouvés dans Scopus et dans Web of Science, cinq n’étaient cités par aucun autre document et trois par un ou deux documents seulement. Cela rend très improbable la possibilité de les retrouver en naviguant dans les citations. Ces tests, bien que très limités, nous paraissent très éclairants sur les diverses philosophies de recherche qui sous-tendent les différents systèmes. DEUX PHILOSOPHIES DE RECHERCHE TRES DIFFERENTESDialog et STN sont les descendants des systèmes traditionnels de documentation scientifique. Les banques de données scientifiques qu’ils hébergent sont, souvent, la version informatique des bulletins d’abstracts diffusés sur papier, bien avant la naissance des banques de données. On y trouve traditionnellement un résumé, qui peut être assez étoffé. Dans certaines bases comme Compendex (depuis 1970) et FSTA, le pourcentage de références avec résumé dépasse les 95 % ; il atteint même 99 % sur Inspec, depuis 1969. De plus, ces bases offrent une indexation très développée. En revanche, dans la majorité des cas, on ne trouve pas trace des références citées dans l’article original. Les banques de données produites par ISI – telles SCISearch, dont le contenu se trouve dans Web of Science – se distinguent toutefois et comprennent les références citées. Mais, sur Dialog ou STN, ces références sont écrites en abrégé et ne sont guère exploitables qu’à des fins statis-tiques ; en effet, le titre de l’article est absent et le titre de la publication est écrit en abrégé. D’autres producteurs de banques de données commencent à faire figurer les références citées. C’est le cas, notamment, de Chemical Abstracts sur STN ; mais les possibilités offertes sur ces serveurs restent très loin de ce que l’on peut faire sur Web of Science ou Scopus. Dans les années 50 aux USA, l’augmentation significative des budgets de recherche a eu, entre autres conséquences, un accroissement important du nombre des publications scientifiques. Certains ont alors remis en cause le modèle de l’indexation manuelle des documents, considérant que son coût était trop élevé et sa qualité insuffisante. Une autre critique était liée au fait que les thésaurus n’étaient pas mis à jour assez vite pour bien suivre l’évolution des sciences et techniques, très rapide dans certains secteurs. De fait, l’apparition de nouvelles disciplines ou de nouveaux concepts n’était pas intégrée assez vite. Cela a conduit Eugene Garfield à développer une approche radicalement différente, basée sur l’idée d’une pensée collective d’un collège invisible de chercheurs, matérialisé notamment par les références présentes dans leurs publications. A partir d’un nombre très limité de documents pertinents, la navigation entre documents citant et cités est alors supposée identifier les références répondant à une question. On s’affranchit ainsi des problèmes d’indexation et de mise à jour de thésaurus. D’autre part, les banques de données créées par Eugene Garfield sur ce principe sont pluridisciplinaires, ce qui enlève aussi l’inconvénient que l’on observe parfois du cloisonnement entre les disciplines. Il est vrai que la très grande majorité des banques de données référençant la littérature scientifique et technique concerne un domaine, alors que Science Citation Index, proposée pour la première fois en 1963, est pluridisciplinaire, tout comme d’ailleurs Pascal, créée une dizaine d’années plus tard. Cela étant, même si l’indexation des références présentes dans les banques de données d’ISI est, logiquement, assez limitée, elle est tout de même liée partiellement aux citations. On trouve ainsi dans Web of Science, outre les mots-clés d’auteur quelquefois présents, des Keywords Plus qui sont générés par un algorithme, à partir de l’analyse des termes contenus dans les titres des références citées. ATOUTS ET INCONVENIENTS DE LA RECHERCHE PAR CITATIONSLa recherche par les citations dans les banques de données de littérature scientifique présente toute une série d’avantages : • sur le fond, le concept du collège invisible est loin d’être dépourvu de sens et effectuer des recherches en naviguant entre les publications reliées entre elles sur le plan intellectuel présente un intérêt certain ; • dans la pratique, l’effort intellectuel demandé pour la recherche d’informations pertinentes est beaucoup plus limité que celui qui est nécessaire pour identifier des mots-clés appropriés – qu’ils soient ou non dans un thésaurus – et les combiner entre eux de façon optimale. La recherche par navigation dans les citations est donc beaucoup plus largement ouverte à un public de chercheurs et d’étudiants, qui ne souhaitent pas s’investir trop dans la recherche d’information elle-même et/ou ne désirent pas faire appel à des professionnels de l’information, pour diverses raisons (volonté de faire sa recherche soi-même, éloignement ou manque de disponibilité du centre de documentation) ; • ce type de recherche favorise la sérendipité, qui est toujours très valorisante ; • l’utilisation des citations est plutôt bien adaptée : - à une première recherche sur un sujet assez large, car elle permet de retrouver facilement les “experts” du secteur, ainsi que les articles et les auteurs les plus renommés ou les plus classiques, publiés dans ce qui sont supposés être les publications les plus renommées ; - à des recherches très ciblées, sur les publications de quelques experts. Il ne faut pas pour autant ignorer les inconvénients d’une recherche, basée essentiellement sur la navigation par les citations. Les deux exemples évoqués plus haut permettent de faire apparaître une première série d’inconvénients : • l’absence plus fréquente de résumés que dans les banques de données classiques ; d’après les tests réalisés par Peter Jacso*, 67 % des références de Scopus ont un résumé, pourcentage légèrement supérieur à celui de Web of Science. Pour ce qui concerne Web of Science, Thomson Scientific nous a indiqué que 90 % des références dans le domaine de la médecine clinique ont un résumé, mais ce pourcentage tombe à 25% dans le domaine “arts & humanities”. Ce manque fréquent de résumé, ajouté à la “rusticité” de l’indexation, conduit – lors d’une recherche par mots-clés – à ne pas retrouver des articles pourtant présents. Lorsque ces articles ne font l’objet d’aucune citation, ce qui n’est pas rare, les probabilités de les retrouver sont bien minces et l’on peut aller jusqu’à se demander s’ils ne gonflent pas artificiellement le volume de Scopus ou de Web of Science ; • le choix d’une sélection relativement sévère de publications – bien plus dans Web of Science que dans Scopus – a, bien sûr, une justification liée à la loi de Bradford, qui énonce que l’essentiel des informations scientifiques sur un sujet se trouve dans un nombre finalement limité de publications. Cela ne veut pas dire pour autant que tout ce qui est publié ailleurs soit sans intérêt. Sur des sujets pointus, cela peut limiter de façon très pénalisante la richesse des résultats. En poussant le raisonnement, on pourra remarquer que le chercheur est fortement dirigé vers les résultats les plus “officiels” et reconnus, et qu’il a de faibles probabilités de trouver des pensées ou des auteurs qui soient hors des théories dominantes et des consensus du moment ; • pour ce qui concerne Google Scholar, on est dans l’aléatoire le plus complet, ce qui n’empêche pas d’obtenir des réponses. Mais elles ne sont pas toujours exploitables (liens brisés, interdiction d’imprimer le document …) et, la recherche se faisant sur le texte intégral avec une stratégie ne pouvant être complexe, le niveau de bruit est nécessairement élevé. Il est vrai que Google Scholar est en libre accès ce qui, pour certains, est un avantage décisif. En complément de ces points, il nous paraît intéressant de citer quelques faiblesses inhérentes au principe même des citations et de leur utilisation. Ces informations sont issues du chapitre IV “Les indicateurs bibliométriques et la mesure des performances scientifiques” du document “Evaluation de la recherche publique dans les établissements publics français”, publié en décembre 2002 par le Comité national d’évaluation de la recherche**. On notera qu’à la date de publication de ce document, Scopus n’avait pas encore été lancé. On trouvera dans ce document de nombreuses références des différents articles, dont l’analyse du contenu a conduit aux remarques que nous avons reprises ci-dessous. Le nombre de revues répertoriées par ISI est élevé dans l’absolu, mais faible par rapport au nombre de revues scientifiques publiées dans le monde entier. Leur sélection est fortement dominée par les revues américaines et celles de langue anglaise sont sur-représentées. • Il faut un certain temps avant que les publications ne commencent à être citées, généralement un an. • Bien qu’il soit possible d’inclure tous les auteurs d’un article, il est impossible de savoir comment le travail scientifique a été réparti entre eux. • On trouve environ 10 % de “citations abusives”, dues à la formation de “réseaux de citations”, et également 10 % environ d’autocitations. Il semblerait néanmoins, selon différentes études, que ces citations n’introduisent que peu de biais en terme de bibliométrie. • La sélection des citations peut être un problème : certains auteurs tendent à ne citer que ce qu’ils estiment être les références les plus importantes, ou à ne pas citer les références bibliographiques des auteurs les plus connus. Dans d’autres cas, seuls les auteurs qui soutiennent le même point de vue sont cités. Un chercheur peut également ne pas en citer un autre, pour de simples raisons de concurrence scientifique. • Un comportement très courant consiste à omettre les articles de base et à ne citer que les résultats les plus récents. • Le nombre d’erreurs de citations peut varier de 10 à 50 % selon les revues. • Certains auteurs citent d’autres auteurs afin d’infirmer leurs résultats, tandis que d’autres évitent de citer les influences négatives. • Il n’est pas rare que les auteurs privilégient les références aux publications de l’éditeur de la revue auquel ils envisagent de soumettre leur article, ou à des “examinateurs” potentiels, afin d’accroître les chances de voir leur article accepté. • Le nombre moyen de références par article est très variable selon les disciplines. -:-:-:-:-:-
Comme on le voit, si les recherches fondées principalement sur une navigation basée sur les citations et sur leur analyse présentent toute une série d’avantages, on est loin d’avoir à faire à une science exacte. On peut penser que la recherche “classique” sur des références avec résumé et indexation détaillée garde tout son intérêt, pour peu que l’on dispose d’un langage d’interrogation performant et que l’on fasse l’effort de bâtir une stratégie suffisamment complexe. Mais il faut aussi savoir que les les possibilités d’analyse de citations sur un ensemble de publications sévèrement sélectionnées ont une autre application que la recherche d’information. Web of Science est en effet devenu un outil incontournable dans l’évaluation des chercheurs et des laboratoires et certains ne l’utilisent que dans cette application. Le nombre de publications – et surtout le nombre de citations – dans un panel de revues jugées comme les plus importantes sont en effet considérés comme d’excellents critères d’évaluation. On peut penser que cette application devenue incontournable est une place forte que Scopus aura sans doute du mal à prendre. D’autant que la position de Web of Science vient encore d’être renforcée en France par la signature, annoncée le 11 septembre, d’un contrat de 7,2 millions de dollars. Ce contrat, d’une durée de trois ans, est signé par un consortium incluant l’Inist, le groupe Couperin, l’Inra, l’Inserm, le CNRS, le ministère de la Recherche, ainsi que plusieurs universités (Lyon, Strasbourg, Paris, Grenoble, Marseille et Montpellier). Il permet à 60 000 chercheurs et à 400 000 étudiants d’accéder à la plateforme ISI Web of Knowlege et, en particulier, à Web of Science et à ISI Proceedings, certaines institutions ayant également accès à d’autres éléments de la plateforme. La concurrence entre Scopus et Web of Science ne pourra que s’exacerber, ce qui finalement a toutes les chances d’être bénéfique pour les utilisateurs. * As we may search. Comparison of major feature of the Web of Science, and Google Scholar citation based and citation enhanced databases. Peter Jacso, current Science Vol. 89 n° 9-10 November 2005. ** www.cner.gouv.fr/fr/pdf/bib.pdf |
|