
|
Bases, Numéro de Février 2004 - n°202 Identifier les meilleurs partenaires académiques |
Auteur : François Libmann |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Quelle que soit leur discipline, les chercheurs disposent d’un
réseau relationnel, que le développement d’Internet n’a pu
qu’élargir et faire vivre plus intensément. Les collaborations
entre différentes institutions – en particulier les collaborations
entre chercheurs d’entreprises et chercheurs de laboratoires
universitaires – sont souvent définies en puisant dans ce réseau
relationnel. On peut néanmoins légitimement se poser la question de
savoir s’il inclut les “meilleurs” partenaires, ou tous les
partenaires sérieux possibles dans une spécialité donnée.
On pourra donc être tenté de vérifier, par une méthode présentant un caractère objectif et systématique, s’il n’existe pas, hors du champ relationnel des chercheurs, des instituts de bonne qualité avec lesquels des collaborations pourraient utilement être établies. Une question analogue se pose quand une entreprise aborde un domaine jusqu’alors inexploré et qu’elle souhaite établir des partenariats avec un ou des institut(s) universitaire(s) parmi les meilleurs. Pour répondre à ce type de question, on pense bien sûr à des opérations de bibliométrie – donc à l’utilisation des banques de données –, qui permettent de prendre en compte à la fois les publications des différents experts et celles qu’ils citent dans leurs articles. Ce travail sur les citations est loin d’être nouveau et l’ISI (Institute for Scientific Information) est connu pour avoir développé, il y a longtemps déjà, des outils permettant d’effectuer des travaux sophistiqués sur les citations. Plus récemment, on a vu se développer des bases centrées sur les citations de brevets – comme Derwent Patents Citation Index –, tandis que les citations des rapports de recherche d’un brevet sont fréquemment présentes dans des bases telles que Pluspat de Questel.Orbit ou dans les bases de données de brevets français et européens. Chemical Abstracts enfin offre pour sa part, sur STN, les références citées dans un article ou dans un brevet, à la suite de la référence du document. Nombre de travaux de bibliométrie, correspondant à différents types de problématiques, ont été réalisés et les publications sur le sujet ne manquent pas. On citera par exemple les travaux de Robert J.W. Tijssen et Thed N. van Leeuwen du Centre for Science and Technology Studies (CWTS) de l’université de Leiden aux Pays-Bas, pour le Third European Report on Science and Technology Indicators, à la demande de la Commission Européenne. L’objectif était, entre autres, d’identifier les “meilleures institutions de recherche européennes à partir de leurs publications et des citations à leurs publications”*. On notera que si la démarche est tout à fait intéressante, elle a supposé au départ l’acquisition relativement coûteuse de l’édition 2000 du cédérom de la banque de données d’ISI, qui inclut plus d’un million de documents et environ 18 millions de citations. Ces données ont été chargées sur le système informatique du CWTS et ont fait l’objet de différents traitements bibliométriques, l’ensemble – on l’imagine – ayant mobilisé des moyens importants. Pour notre part, nous nous sommes intéressés à une problématique différente mais susceptible d’intéresser toutes les entreprises ayant une activité de recherche et souhaitant, dans ce cadre, créer ou élargir des partenariats avec des instituts de recherche. Nous avons tenté, de plus, de définir une méthodologie applicable dans un cadre industriel réel, avec donc un budget plus réaliste. IDENTIFIER DES PARTENAIRES POTENTIELSNotre problématique consiste, pour une thématique scientifique suffisamment précise, à identifier – n’importe où dans le monde – des institutions publiques de recherche, avec lesquels les chercheurs d’une entreprise pourraient établir des collaborations. Pour disposer d’un choix suffisant, nous avons considéré que notre objectif était, pour chaque thématique, d’identifier une quinzaine d’organismes. Pour ce faire, nous avons mis au point une méthodologie relativement sophistiquée, avec une série de choix de départ, une série de décisions prises au fur et à mesure des problèmes rencontrés et plusieurs vérifications pour valider la méthodologie appliquée. Cette démarche ne s’est pas limitée à une simple expérimentation, mais a constitué un travail réel effectué par FLA Consultants pour répondre à la demande précise d’une entreprise. PASSER PAR LES AUTEURS POUR IDENTIFIER LES ORGANISMESMême si l’objectif final était d’identifier des organismes, nous avons fait le choix de repérer d’abord des experts. L’expérience montre en effet qu’il existe une très grande hétérogénéité dans la saisie des affiliations des auteurs par les producteurs de banques de données. Il est donc illusoire de vouloir effectuer des opérations de bibliométrie sur les affiliations, telles qu’elles sont présentes dans les références des bases. Pour sélectionner une quin-zaine d’organismes, nous avons estimé nécessaire d’identifier entre vingt et trente experts, afin de tenir compte des experts travaillant dans le même organisme et d’écarter les institutions non publiques ou les experts qui, même beaucoup cités, n’avaient rien publié depuis 10 ans. Le choix s’est avéré judicieux, car même si nous avons rencontré quelques problèmes avec les noms d’auteurs, comme on le verra plus loin, ils sont restés gérables. Par ailleurs, nous nous sommes limités aux articles et conférences, sans prendre en compte les brevets. Nous avons pensé en effet que les affiliations des auteurs d’articles et de conférences sont plus souvent de type universitaire – ce que nous recherchions –, alors que celles des brevets renvoient fréquem-ment à des entreprises, car les brevets comptent en général moins pour l’évaluation des chercheurs. LE CHOIX DES SOURCESS’est posé ensuite le choix des sources à utiliser. Nous avons éliminé pour des raisons de coûts la solution de l’abonnement direct à l’un des produits d’ISI, d’autant que nous avions besoin d’effectuer des classements sur les auteurs et les auteurs cités et non pas d’éditer un grand nombre de références. Nous regrettons néanmoins le manque de coopération dont a fait preuve ISI au moment où nous préparions cet article et où nous souhaitions effectuer quelques vérifications. Nous avions donc le choix entre les deux principaux serveurs proposant des banques de données scientifiques et techniques, à savoir Dialog et STN, tous deux offrant notamment la base SCISearch. Le choix de travailler avec des grands serveurs présentait plusieurs avantages, tels que : - la possibilité de ne pas se limiter à la banque de données SCISearch ; - un investissement de départ très limité, l’essentiel de la facturation de ces serveurs se faisant à la consommation ; - la possibilité de travailler sur des ensembles de références qui pouvaient être importants (plusieurs milliers), sans avoir à les visualiser ou les télécharger au préalable ; - la disponibilité d’outils logiciels nettement plus sophistiqués – nous a-t-il semblé (mais nous n’avons pu le tester) – que ce qui était disponible sur les produits d’ISI. S’est posée ensuite la question du choix des banques de données à interroger. Si SCISearch est incontournable dans ce genre d’exercice, compte-tenu de la sélection sévère des revues dont les articles sont référencés, de la présence des citations, ainsi que de sa couverture pluridisciplinaire, d’autres banques de données peuvent également présenter un intérêt pour certains sujets. Dans le domaine de la chimie au sens large par exemple, on peut considérer que la qualité des articles référencés dans Chemical Abstracts est tout aussi bonne ; de plus, la version disponible sur STN offre désormais les références citées depuis 1998. Selon les sujets, on peut aussi utiliser Medline, Biosis, CAB Abstracts et Pascal, sachant que ces bases ne proposent pas les références citées. LE CHOIX DU SERVEURSur Dialog comme sur STN, on peut élaborer des stratégies complexes ; cet élément n’a donc pas été discriminant. Sur les deux serveurs, des opérateurs d’analyse des résultats sont disponibles (Rank sur Dialog, Analyze sur STN). En revanche, les modes de facturation de ces opérateurs sont très différents d’un serveur à l’autre. Sur STN, l’opérateur Analyze est facturé forfaitairement, quelle que soit la base : 9,70 e pour le traitement de 1 à 1 000 réponses, 16,60 e pour le traitement de 1 001 à 10 000 réponses et 22,15 e pour 10 001 à 50 000 réponses. Chez Dialog, la facturation de la commande Rank se fait également au nombre de documents traités – mais ils sont comptabilisés à l’unité près – et le prix varie très fortement d’une banque de données à l’autre : de 0 sur Medline ou Biosis à 0,18 $ dans SCISearch, ce qui est particulièrement élevé. Même dans World Patents Index de Derwent, qui n’est pas une banque de données particulièrement bon marché, le coût n’est que de 0,04 $ par document traité. L'ELABORATION DES STRATEGIESPour chacune des thématiques traitées, nous avons, au minimum, interrogé SCISearch et Chemical Abstracts – toutes deux sur STN – et, dans certain cas, d’autres banques de données en complément, sur Dialog en général. Les stratégies utilisées avaient pour but de constituer un corpus de documents sur 10 ans (documents publiés de 1994 à 2004), sur lequel effectuer avec une “sécurité” suffisante des opérations de bibliométrie. Pour que les résultats des traitements effectués soient valables, nous avons estimé qu’environ 90 % des documents du corpus (d’un minimum de 150 documents) devaient être pertinents, les 10 % restant n’influençant pas la détermination des meilleurs experts. Pour cela nous avons appliqué plusieurs principes : - ne retenir certains termes génériques concernant la thématique que s’ils apparaissent dans le titre et/ou les descripteurs ; - utiliser un grand nombre d’expressions spécifiques en les recherchant aussi dans le résumé ; ces expressions spécifiques sont issues des éléments fournis par le demandeur, mais aussi de notre analyse des documents considérés comme particulièrement pertinents à la suite des premiers tests ; - ne pas hésiter à avoir une stratégie “positive” complexe, en adoptant une démarche itérative : après analyse des documents pertinents, la stratégie est relancée en rajoutant à la requête les termes, expressions, codes de catégorie... identifiés (liés avec l’opérateur OR). Mais à mesure que la stratégie s’enrichit par l’ajout de nouveaux termes, le nombre de nouveaux docu-ments pertinents retrouvés devient moindre. On peut alors considérer que la stratégie de recherche est achevée (il n’est pas nécessaire de définir une liste “exhaustive” des termes pertinents). L’expérience nous a montré que cette méthode constituait une bonne garantie de la validité du corpus ; - l’utilisation de certains termes peut renvoyer à des domaines très différents, dont certains seront hors sujet. Par exemple, le mot solar peut être utilisé aussi bien dans le contexte de l’énergie solaire que du système solaire. Dans ces bases bibliographiques structurées, nous avons donc lié aux stratégies “positives”, des stratégies d’élimination (straté-gies “négatives”), pour exclure de la liste des résultats la plupart des documents hors-sujet, en utilisant l’indexation propre à la base et certaines expressions ; - adapter la stratégie à chaque banque de données, pour tenir compte de sa couverture et des spécificités de son indexation. Dans Medline, on peut par exemple limiter très facilement, au moins pour l’essentiel, la recherche à ce qui concerne l’homme; - nous avons enfin envoyé aux chercheurs un échantillon d’environ 80 extraits de références. Ce nombre est un compromis entre une taille d’échantillon suffisante et la capacité d’absorption et de réaction pour une personne non habituée à évaluer des extraits de références de banques de données. On notera que, à part le temps – le nôtre et le temps de connexion –, ces tests sont peu onéreux, dans la mesure ou les formats titres + descripteurs sont gratuits, en règle générale ; le format Scan, de Chemical Abstracts, gratuit lui aussi, ne donne pas le numéro des documents édités mais, pour de tels tests, cela n’a aucune importance. LE TRAITEMENT DES DOCUMENTSPour les sujets que nous avons traités, nous avons obtenu pour chaque base des corpus de 600 à plus de 10 000 documents, limités à des références d’articles et de conférences, sur la période 1994-2004. Dans SCISearch et Chemical Abstracts, nous avons utilisé l’opérateur Analyze sur STN, pour comptabiliser le nombre d’articles écrits par chaque auteur du corpus, puis le nombre de fois où chaque auteur était cité. Nous avons ensuite édité chaque liste de résultats (quatre en tout pour ces deux banques de données) de deux façons : - par ordre décroissant d’occurrences, en n’éditant que le début de la liste (par exemple, auteurs ayant écrit plus de deux articles, en utilisant au sein du corpus la commande D OGT 2) ; - par ordre alphabétique des noms d’auteurs, comprenant cette fois la totalité de la liste, parfois très longue ; cela est très important, comme on va le voir plus loin. Il s’agit ensuite de synthétiser ces listes en un tableau des auteurs les mieux “notés”. Pour cela, nous avons reporté pour chaque auteur, et pour chaque base interrogée, le nombre d’articles écrits et le nombre de fois où il était cité – cette opération ne peut se faire commodément et relativement rapidement que si l’on dispose de l’ensemble des listes classées par ordre alphabétique des auteurs. Nous avons appliqué ensuite à chaque nombre un coefficient multiplicateur, afin que le poids des citations d’articles ne prenne pas le pas sur l’importance du nombre d’articles écrits. En général, nous avons multiplié par un nombre de 2 à 6 le nombre d’articles écrits, qui était souvent inférieur au nombre d’articles cités. Nous avons considéré, en effet, qu’écrire un article était un vrai travail dont il ne fallait pas minorer l’importance. Nous avons ensuite rempli un tableau Excel (voir ci-dessous), en indiquant pour chaque auteur les notes obtenues dans chacune des listes ; après quoi, il a suffit de classer les auteurs par ordre décroissant de leur note globale (addition des différentes notes).
Si nous voulions aussi prendre en compte les auteurs cités – et c’était bien l’objectif de cette démarche –, nous voulions garder à un niveau raisonnable le poids de ces auteurs cités pour plusieurs raisons : - comme on le voit dans le tableau de la page suivante, il arrive que la somme des citations des auteurs les plus cités soit très largement supérieure au nombre total d’articles écrits par les auteurs les plus prolifiques ; - dans les citations, seul le premier auteur est cité, ce qui introduit un biais assez difficile à évaluer ; - nous n’avons pas, avec cette démarche, éliminé les auto-citations ; - il peut y avoir des effets de mode, conduisant à une inflation de citations de quelques auteurs ; - dans Chemical Abstracts, les citations ne sont disponibles que depuis début 1998, alors que notre étude remontait jusqu’en 1994. Par ailleurs, on peut aussi jouer sur ces paramètres pour attribuer une importance plus ou moins grande aux auteurs dont les articles sont référencés ou cités dans les références d’une banque de données plutôt qu’une autre. Pour les banques de données autres que SciSearch ou Chemical Abstracts on n’aura, évidemment, qu’une seule colonne (celle des articles écrits), à qui il conviendra aussi d’attribuer un paramètre. Plusieurs tests effectués en faisant varier ces paramètres, sans les bouleverser, ont montré un impact assez faible sur le classement – limité à quelques changements de place –, ce qui plaide pour la robustesse de la méthode. La question s’est également posée du nombre d’auteurs à prendre en compte dans chaque liste. Nous avons fait des tests en prenant les quinze ou les quarante premiers auteurs. Il y a une première différence dans le temps passé à chercher dans les listes et à reporter sur le tableau les différentes notes (environ une demi-journée de temps de travail avec trois banques de données). Au niveau des résultats, nous nous sommes rendus compte que, sauf très rares exceptions, il existait certes quelques modifications dans le classement des auteurs, mais pas de bouleversement. Les “nouveaux” experts apparus par la prise en compte d’un nombre plus grand d’auteurs ne surgissent en effet que vers la quinzième place. Exceptionnellement, peut aussi apparaître un auteur moyennement classé sur différentes variations de son nom et qu’un regroupement propulsera à une bonne place. Ces problèmes d’orthographe sont à prendre en compte de façon précise, car ils peuvent introduire un biais certain, celui-ci relativement facile à éviter. Lorsque l’on recherche les auteurs dans les listes alphabétiques, il est donc prudent d’examiner précisément l’environnement du nom retenu. Cela étant, sur plusieurs centaines d’auteurs pris en compte, il n’est resté qu’un nombre extrêmement limité de cas où nous n’avons pas su trancher et où nous avons décidé d’écarter le ou les auteurs de la liste des experts. Par exemple, nous n’avons pas réussi à démêler les prénoms et initiales de prénoms d’un ou de plusieurs auteurs nommés KIM. La banque de données Pascal pose quant à elle quelques problèmes spécifiques. Outre des problèmes d’inversions de nom et de prénom, elle renseigne dans le même champ les auteurs et les éditeurs (au sens américain du terme) des actes de conférences. Or, aucun serveur ne permet d’éliminer dans cette banque de données les auteurs dont le nom est suivi d’“ed.”. On sera donc prudent avec les auteurs beaucoup cités dans la seule base Pascal. LE CAS DES AUTEURS SEULEMENT CITESDans toutes les thématiques, nous avons trouvé bien classés, parfois même en tête, des auteurs beaucoup – voire énormément – cités, mais qui n’avaient rien publié depuis 1994, début de notre période de référence. Nous avons choisi de les éliminer car – quelques vérifications nous l’ont confirmé – il s’agissait d’auteurs ayant connu leur heure de gloire, mais qui avaient changé de sujet d’étude, étaient retraités ou décédés. Néanmoins, le laboratoire dans lequel ils ne travaillaient plus depuis au moins dix ans a pu apparaître dans notre sélection de partenaires potentiels, parce que de jeunes chercheurs de ce laboratoire faisaient partie du haut du classement. Dans le cas contraire, on a pu en conclure que le laboratoire ne travaillait plus sur cette thématique. LA RECHERCHE DES AFFILIATIONSUne fois la liste des “meilleurs“ experts finalisée, nous avons retenu les 20 à 30 premiers, afin d’identifier une quinzaine de laboratoires partenaires potentiels. L’écart entre ces deux chiffres provient du fait que plusieurs experts peuvent travailler dans le même laboratoire, mais aussi parce que la liste ne devait être composée que d’institutions publiques et pas d’entreprises. Pour identifier les affiliations, nous avons choisi la banque de données SCISearch car elle donne, avec néanmoins quelques erreurs, les affiliations de tous les auteurs d’un article, alors que la banque de données Chemical Abstracts ne donne que l’affiliation du premier auteur. Pour chaque auteur, nous avons édité la référence de son article le plus récent du corpus. EXEMPLE DE CHIFFRES OBTENUS POUR UNE THEMATIQUE
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||