|
Netsources, Numéro de Septembre-Octobre 2004 - n°52 Dénicher la littérature grise sur le Net |
Auteur : Béatrice Foenix-Riou |
|||||||
|
Les internautes curieux et chanceux le savent : le Web recèle des
trésors que l’on ne trouve nulle part ailleurs, ou très
difficilement. A savoir notamment ce que l’on nomme la “littérature
grise”, c'est-à-dire, d’après la définition de l’Afnor, l'ensemble des documents
dactylographiés ou imprimés, produits à l’intention d’un public
restreint, en dehors des circuits commerciaux de l’édition et de la
diffusion et en marge des dispositifs de contrôle
bibliographiques.
Cette littérature souvent inédite rassemble des rapports, des prépublications (preprints ou eprints), des “working papers”, des thèses, des actes de congrès... Autant dire qu’elle constitue un gisement d’informations à forte valeur ajoutée, à caractère plutôt confidentiel et qu’elle fait le bonheur des internautes qui la dénichent. Quand ils la débusquent. Car il n’est pas toujours aisé de la découvrir, son identification relevant plus souvent du hasard que d’une méthodologie de recherche bien maîtrisée... Pourtant, quelques astuces peuvent aider le chercheur dans sa quête. Nous dévoilerons dans cet article quelques pistes, dont l’exploration pourra se révéler fructueuse. A titre d’illustration, nous tenterons ici de localiser un type spécifique de littérature grise : les “documents de recherche” – également nommés “working papers” –, qui font généralement état des derniers résultats de recherche dans un domaine (qui peut être scientifique ou économique) et qui précèdent généralement une publication dans une revue spécialisée. L’internaute qui souhaite identifier de telles publications semi-confidentielles se heurte de prime abord à un écueil : quel mot-clé doit-il utiliser pour préciser sa question, quand ce type de document lui-même n’est pas clairement défini ? Selon les sites, ces documents de recherche peuvent en effet être désignés par des termes comme “documents de travail”, “cachiers de recherche”, “papiers de recherche”, “working papers”, “discussion papers”, “research papers”, “technical reports” ou encore, lorsqu’une publication est prévue, “preprints”, “prépublications” (en un ou deux mots) ou “eprints”...
Certes, il existe des différences plus ou moins subtiles entre chaque type de document. Ainsi, sur le site du ESRC Centre for Research in Innovation and Competition (CRIC) de l’Université de Manchester (http://les.man.ac.uk/cric/publications.htm), on trouve les définitions suivantes : • Working Papers are “finalised” pieces of work. They will often relate quite closely to published work but may contain more detail or data than would be appropriate for an academic journal. Some of these papers may be the basis for future monographs. They have an ISBN number. • Discussion Papers are used by the Centre to communicate quickly work in progress to our audiences. Typically, these papers will be submitted for publication to academic journals after revision. Mais ces définitions varient d’un site à l’autre et la frontière entre chaque type de document semble particulièrement floue ; certains sites amalgament clairement les divers travaux de recherche dans une même famille, quand d’autres au contraire les recensent sous des rubriques bien distinctes. La recherche sur un moteur – réflexe le plus courant des internautes – s’avère donc délicate. Pour être exhaustif, il faudrait prendre en compte les différentes appellations et comparer les résultats au singulier ou au pluriel. On peut ainsi identifier quelques travaux de recherche concernant le traitement des eaux usées par exemple, avec la requête “wastewater treatment” “working paper” OR “working papers” OR “discussion paper”. Mais sur Google, la requête est limitée à dix mots, ce qui est très peu dans un cas comme le nôtre*... Cela étant, si cette stratégie peut permettre d’identifier directement quelques travaux de recherche dans un domaine, d’autres méthodes peuvent s’avérer plus efficaces. Il faut avant tout prendre un peu de “recul” avec la recherche et ne plus se focaliser sur l’identification du document final. Si l’on reprend le problème dans son ensemble, on remarque que : - le nombre de documents de recherche disponibles sur le Web est extrêmement important ; de nombreux de rapports sont proposés en texte intégral, au format PDF (la requête “working paper” filetype:pdf identifie 829 000 documents) ; - ces documents peuvent être offerts par plusieurs types de sources : • les sites personnels des chercheurs eux-mêmes ; • les sites d’organismes scientifiques – centres de recherche des universités, institutions publiques –, qui proposent souvent les documents de leurs chercheurs en texte intégral ; • des banques de données, qui référencent les travaux de recherche réalisés par différents organismes ; • des serveurs de prépublications, qui permettent aux chercheurs du monde entier de publier leurs travaux en ligne. Eu égard à l’importance de l’offre, il est donc vraisemblable qu’il y ait sur le Net des pages de liens qui recensent les différentes ressources sur le sujet (serveurs, banques de données et sites des organismes). Identifier des listes de ressources sur les “working papers”Plusieurs méthodes permettent d’identifier des bookmarks concernant les documents de recherche. Comme on l’a vu dans l’article “Trucs et astuces pour un chasseur de liens” (Netsources n°51), on peut aisément localiser les pages de liens avec un moteur, en utilisant une requête comme “working papers” inurl:links OR intitle:links.Le nombre de réponses étant important, on peut aussi tenter intitle:“working papers” inurl:links OR intitle:links. On obtient 241 résultats, dont les premiers sont tout à fait pertinents. Pour une requête de ce type, on peut aussi interroger le moteur Teoma.com, qui a comme caractéristique de classer ses résultats dans quatre catégories : • Sponsored Links : AdWords de Google ; • Results - Relevant Web pages : pages Web pertinentes identifiées dans son index ; • Refine - Suggestions to narrow your search : propositions de mots et expressions connexes ; • Resources - Links collections from experts and enthusiasts, qui constitue indéniablement le point fort de Teoma. Dans cette rubrique, on trouve en effet une sélection de pages de liens en rapport avec la requête. Même si cette sélection est faite automatiquement, elle s’avère dans la grande majorité des cas très efficace, les quelques ressources signalées étant presque toujours très riches. En lançant sur Teoma.com une requête avec simplement “working papers”, on obtient dans la catégorie Resources de nombreux résultats, dont les premiers sont : • SSL: Discussion and Working Papers www.ssl.ox.ac.uk/dwp.html • Business and Economics - Working Papers http://lib.monash.edu.au/subjects/buseco/worksite.html • Social Science Library Working Papers Collection www.library.yale.edu/socsci/economics/working.html • Library - Useful Links - Working Papers on the Web www.jims.cam.ac.uk/library/links/papers.html • Working Papers Collection www.princeton.edu/~econlib/wplist.html. Chacune de ces pages offre une liste impressionnante de liens vers des ressources classées par organismes, par domaines... Interroger les répertoires sélectifs pour localiser les gisementsLa deuxième piste d’investigation concerne l’identification, non plus des listes de ressources, mais des ressources elles-mêmes. Les “working papers” constituant un matériau incomparable pour les universitaires et les chercheurs, on peut espérer que les répertoires sélectifs, qui sélectionnent justement les sites les mieux à même de répondre aux questions de ces derniers, auront recensé les principales ressources sur le sujet. Nous choisissons donc ici d’interroger Infomine (http://infomine.ucr.edu), qui est l’un des répertoires sélectifs les plus importants ; il recense en effet 128 112 “academically valuable resources” (voir Netsources n°42 “Répertoires sélectifs au fil du Web”). Une recherche avec “working papers” obtient 227 réponses, classées par pertinence. Les premiers résultats identifient de nombreuses banques de données sur le sujet, comme : • Electronic Working Papers in Economics : WoPEc ; • Technical Reports and Working Papers in Business and Economics ; • Berkeley Law and Economics Working Papers ; • European Research Papers Archive... La liste des résultats donne un descriptif du contenu de chaque base et il est possible d’obtenir en complément, en cliquant sur le lien More info, une fiche détaillée qui précise les catégories dans lesquelles le site est indexé, le nom des éditeurs, les “subject headings” de la bibliothèque du Congrès, des mots-clés, le type de ressources (articles, preprints...), l’accès (payant ou gratuit), la cible... On peut aussi relancer la recherche sur certains champs du document, comme les mots-clés, le titre, les subject headings... ce qui permet d’avoir une sélection plus ciblée. Ainsi, une recherche sur Infomine limitée aux titres, mots-clés et sujets identifie 90 ressources pour “technical reports”, 70 pour “preprints”, 49 pour “working papers” et 10 pour “preprints server”... Les répertoires sélectifs sont donc une piste à explorer en priorité, du fait de leur sélection qualitative des sites. Néanmoins, les annuaires généralistes ne sont pas à dédaigner et peuvent apporter également une aide utile. Tenter sa chance avec les annuaires généralistesUne recherche avec “working papers” sur l’annuaire de Yahoo (onglet Directory de l’interface search.yahoo.com) obtient ainsi 28 sites tout à fait pertinents (Working-Papers Sites of Political Science Scholars ; CH Working Papers ; Yale Working Papers on Solid Waste Policy...) et permet de découvrir des rubriques comme Political Science > Papers (6 sites) ou Economics > Papers (11 sites). La requête “technical reports” identifie quant à elle 41 sites et la catégorie Computer Science > Technical Reports (21 sites). Quant à la requête preprints, elle sélectionne 28 sites et des catégories comme Mathematics > Academic Papers (8 sites)... Les mêmes requêtes sur l’Open Directory (www.dmoz.org) obtiennent : • avec “working papers” : 242 sites – certains très pertinents (International Monetary Fund Working Papers in Full Text ; Working Papers in Economics...) et d’autres moins – et la catégorie Business: Resources: News and Media: Working Papers (12 sites) ; • avec “technical reports” : 141 sites et des rubriques comme Science: Publications (16 sites) ou Computers: Robotics: Research: Papers (13 sites) ; • avec preprints : 232 sites et des rubriques comme Science: Physics: Relativity: Journals and Preprints (6 sites), Science: Math: Publications (46 sites)... Sur des sujets “non commerciaux”, la différence de couverture entre les deux annuaires est ici frappante. Bizarrement, Yahoo! référence dans son annuaire certains documents de recherche (au format PDF) publiés sur le serveur ArXiv, l’un des plus célèbres et des plus anciens serveurs de préprints. Il indexe ces documents dans des catégories très précises – comme Cosmology > Universal Origins ou Stars > White Dwarfs – mais il ne recense pas le serveur ArXiv en tant que tel... L’Open Directory en revanche a une très bonne couverture du sujet ; il identifie les sites spécialisés (banques de données, serveurs de preprints...), mais aussi les rubriques qui contiennent des documents de recherche, sur les sites universitaires, institutionnels, etc. Mais contrairement à Infomine, il donne peu de détail sur leur contenu ou leur qualité. Tirer parti des tutoriels et autres guidesLa littérature grise sur le Net est abondante. Il existe de nombreux gisements, de nombreuses listes de gisements et nous avons vu dans cet article quelques pistes pour les découvrir. Ce domaine intéressant aussi bien le monde de l’entreprise que celui de la recherche publique comme privée, il y a fort à parier que de nombreux internautes se sont posé la même question que nous – comment dénicher la littérature grise sur le Net ? – et ont mis sur le Web les résultats de leurs explorations. Il peut donc être astucieux d’en tirer profit. Mais comment identifier de telles méthodologies ? On peut tout simplement tenter sa chance en lançant sur un moteur une requête telle que “find working papers” OR “finding working papers”, afin d’identifier les éventuelles pages Web expliquant comment trouver ces documents sur le Net. A cette question, Google identifie 188 résultats, dont le premier est un tutoriel intitulé “Finding Working Papers”, réalisé par la bibliothèque Business & Economics de l’Université de l’Illinois, expliquant comment trouver des documents de recherche via plusieurs sources électroniques. Nombre de résultats étant néanmoins peu satisfaisants, on peut préciser sa question en limitant la requête au titre des pages et dans le même temps l’élargir, en recherchant des “technical reports”. Pour tenir compte de la limite maximale de dix mots dans une requête on peut, sur Google, utiliser la stratégie intitle:“finding working papers” OR intitle:“finding technical reports” OR intitle:"find technical reports".** On obtient vingt-et-une réponses, parmi lesquelles : • How to Find Technical Reports - UC Berkeley Library Web. Tutorials and Guides: How to Find Technical Reports. www.lib.berkeley.edu/ENGI/techrpts.html • Use the Internet to Find Technical Reports sciweb.lib.umn.edu/general/itech.html • SULAIR: How Do I Find?: Technical Reports ... Technical Reports. What Are Technical Reports? Identifying Technical Reports Using Indexes and Abstracts; Finding Technical Reports Owned By Stanford; ... www-sul.stanford.edu/collect/techrpt.html Autant de pistes susceptibles de fournir des astuces pour identifier “working papers” et “technical reports”. Bien évidemment, cette stratégie peut être répétée avec différents mots-clés, en français ou en anglais. La stratégie trouver “littérature grise” permet ainsi de localiser un excellent document sur le guide Sapristi – Sentiers d'Accès et Pistes de Recherche d'Informations Scientifiques et Techniques sur l'Internet –, proposé sur le site de l’Insa de Lyon (docinsa.insa-lyon.fr/sapristi/). On le voit, plusieurs astuces peuvent permettre d’identifier des documents de recherche et autres types de littérature grise sur le Net. Mais il est pour cela important de changer ses réflexes et : - de penser à utiliser d’autres outils que Google ; - de prendre un peu de recul et de tenter de répondre à la question qui devrait être préliminaire à toute recherche, à savoir “quel type de source est susceptible de contenir l’information recherchée ?”. Et de nombreuses pistes se dévoilent alors... *On notera qu’en revanche, Yahoo! Search Technology n’est pas aussi limitatif et permet de combiner dans une même requête un nombre bien plus important de mots ; la limite n’est pas précisée mais, d’après nos tests, les requêtes fonctionnent correctement avec largement plus de vingt mots. Contrairement à Google, il est impératif sur Yahoo! d’inscrire entre parenthèses les mots ou expressions reliés par OR – exemple : “wastewater treatment” (“working paper” OR “working papers” OR “discussion paper” OR “research paper” OR...) (2004 OR 2003 OR...). **Voulant sans doute illustrer le dicton populaire affirmant que “nul n’est parfait”, Yahoo! répond à cette requête de façon très décevante. Il semble en effet que les guillemets fonctionnent de façon aléatoire dès lors qu’ils rassemblent plus de deux mots – les mots ne sont pas forcément côte à côte dans les pages sélectionnées – et par conséquent, les pages ne contiennent pas forcément tous les mots dans leurs titres...
|
||||||||