Actualités
Agenda
Liens utiles
Netsource
Netsource - Sommaire en cours
Netsource - Anciens sommaires
Netsource - Recherche des archives
Revue Bases
Revue Bases - Sommaire en cours
Revue Bases - Anciens sommaires
Revue Bases - Recherche des archives
Ouvrages
Qui sommes-nous ?
Notre équipe
Accueil > Netsources > Anciens sommaires > Dénicher la littérature grise sur le Net

Netsources, Numéro de Septembre-Octobre 2004 - n°52


Dénicher la littérature grise sur le Net

Auteur : Béatrice Foenix-Riou

 
Les internautes curieux et chanceux le savent : le Web recèle des trésors que l’on ne trouve nulle part ailleurs, ou très difficilement. A savoir notamment ce que l’on nomme la “littérature grise”, c'est-à-dire, d’après la définition de l’Afnor, l'ensemble des documents dactylographiés ou imprimés, produits à l’intention d’un public restreint, en dehors des circuits commerciaux de l’édition et de la diffusion et en marge des dispositifs de contrôle bibliographiques.

Cette littérature souvent inédite rassemble des rapports,  des prépublications (preprints ou eprints), des “working papers”, des thèses, des actes de congrès...

Autant dire qu’elle constitue un gisement d’informations à forte valeur ajoutée, à caractère plutôt confidentiel et qu’elle fait le bonheur des internautes qui la dénichent.
Quand ils la débusquent.

Car il n’est pas toujours aisé de la découvrir, son identification relevant plus souvent du hasard que d’une méthodologie de recherche bien maîtrisée...

Pourtant, quelques astuces peuvent aider le chercheur dans sa quête. Nous dévoilerons dans cet article quelques pistes, dont l’exploration pourra se révéler fructueuse.

A titre d’illustration, nous tenterons ici de localiser un type spécifique de littérature grise : les “documents de recherche” – également nommés “working papers” –, qui font généralement état des derniers résultats de recherche dans un domaine (qui peut être scientifique ou économique) et qui précèdent généralement une publication dans une revue spécialisée.

L’internaute qui souhaite identifier de telles publications semi-confidentielles se heurte de prime abord à un écueil : quel mot-clé doit-il utiliser pour préciser sa question, quand ce type de document lui-même n’est pas clairement défini ?

Selon les sites, ces documents de recherche peuvent en effet être désignés par des termes comme “documents de travail”, “cachiers de recherche”, “papiers de recherche”, “working papers”, “discussion papers”, “research papers”, “technical reports” ou encore, lorsqu’une publication est prévue, “preprints”, “prépublications” (en un ou deux mots) ou “eprints”...

Nombre de pages identifiées par Google sur le Web
                                               au singulier                     au pluriel

“document de travail”               135 000                         124 000
“cahier de recherche”                  7 030                           27 900
“document de recherche”            7 310                           14 800
“papier de recherche”                  1 120                                830

“working paper”                     1 880 000                      1 900 000
“discussion paper”                1 300 000                         633 000
“research paper”                   1 370 000                      2 120 000
“technical report”                   2 360 000                      1 790 000

preprint                                     934 000                         693 000
prepublication                             63 000                           11 900
“pre-publication”                       130 000                                858



Certes, il existe des différences plus ou moins subtiles entre chaque type de document. Ainsi, sur le site du ESRC Centre for Research in Innovation and Competition (CRIC) de l’Université de Manchester (http://les.man.ac.uk/cric/publications.htm), on trouve les définitions suivantes :
• Working Papers are “finalised” pieces of work. They will often relate quite closely to published work but may contain more detail or data than would be appropriate for an academic journal. Some of these papers may be the basis for future monographs. They have an ISBN number.
• Discussion Papers are used by the Centre to communicate quickly work in progress to our audiences. Typically, these papers will be submitted for publication to academic journals after revision.

Mais ces définitions varient d’un site à l’autre et la frontière entre chaque type de document semble particulièrement floue ; certains sites amalgament clairement les divers travaux de recherche dans une même famille, quand d’autres au contraire les recensent sous des rubriques bien distinctes.

La recherche sur un moteur – réflexe le plus courant des internautes – s’avère donc délicate. Pour être exhaustif, il faudrait prendre en compte les différentes appellations et comparer les résultats au singulier ou au pluriel. On peut ainsi identifier quelques travaux de recherche concernant le traitement des eaux usées par exemple, avec la requête “wastewater treatment” “working paper” OR “working papers” OR “discussion paper”. Mais sur Google, la requête est limitée à dix mots, ce qui est très peu dans un cas comme le nôtre*...

Cela étant, si cette stratégie peut permettre d’identifier directement quelques travaux de recherche dans un domaine, d’autres méthodes peuvent s’avérer plus efficaces.

Il faut avant tout prendre un peu de “recul” avec la recherche et ne plus se focaliser sur l’identification du document final.

Si l’on reprend le problème dans son ensemble, on remarque que :
 - le nombre de documents de recherche disponibles sur le Web est extrêmement important ; de nombreux de rapports sont proposés en texte intégral, au format PDF (la requête “working paper” filetype:pdf identifie 829 000 documents) ;
- ces documents peuvent être offerts par plusieurs types de sources :
• les sites personnels des chercheurs eux-mêmes ;
• les sites d’organismes scientifiques – centres de recherche des universités, institutions publiques –, qui proposent souvent les documents de leurs chercheurs en texte intégral ;
• des banques de données, qui référencent les travaux de recherche réalisés par différents organismes ;
• des serveurs de prépublications, qui permettent aux chercheurs du monde entier de publier leurs travaux en ligne.

Eu égard à l’importance de l’offre, il est donc vraisemblable qu’il y ait sur le Net des pages de liens qui recensent les différentes ressources sur le sujet (serveurs, banques de données et sites des organismes).

Identifier des listes de ressources sur les “working papers”

Plusieurs méthodes permettent d’identifier des bookmarks concernant les documents de recherche. Comme on l’a vu dans l’article “Trucs et astuces pour un chasseur de liens” (Netsources n°51), on peut aisément localiser les pages de liens avec un moteur, en utilisant une requête comme “working papers” inurl:links OR intitle:links.

Le nombre de réponses étant important, on peut aussi tenter intitle:“working papers” inurl:links OR intitle:links. On obtient 241 résultats, dont les premiers sont tout à fait pertinents.

Pour une requête de ce type, on peut aussi interroger le moteur Teoma.com, qui a comme caractéristique de classer ses résultats dans quatre catégories :
• Sponsored Links : AdWords de Google ;
• Results - Relevant Web pages : pages Web pertinentes identifiées dans son index ;
• Refine - Suggestions to narrow your search : propositions de mots et expressions connexes ;
• Resources - Links collections from experts and enthusiasts, qui constitue indéniablement le point fort de Teoma. Dans cette rubrique, on trouve en effet une sélection de pages de liens en rapport avec la requête. Même si cette sélection est faite automatiquement, elle s’avère dans la grande majorité des cas très efficace, les quelques ressources signalées étant presque toujours très riches.

En lançant sur Teoma.com une requête avec simplement “working papers”, on obtient dans la catégorie Resources de nombreux résultats, dont les premiers sont :
•    SSL: Discussion and Working Papers
    www.ssl.ox.ac.uk/dwp.html

•    Business and Economics - Working Papers
    http://lib.monash.edu.au/subjects/buseco/worksite.html

•    Social Science Library Working Papers Collection
    www.library.yale.edu/socsci/economics/working.html

•     Library - Useful Links - Working Papers on the Web
    www.jims.cam.ac.uk/library/links/papers.html

•     Working Papers Collection
    www.princeton.edu/~econlib/wplist.html.

Chacune de ces pages offre une liste impressionnante de liens vers des ressources classées par organismes, par domaines...

Interroger les répertoires sélectifs pour localiser les gisements


La deuxième piste d’investigation concerne l’identification, non plus des listes de ressources, mais des ressources elles-mêmes. Les “working papers” constituant un matériau incomparable pour les universitaires et les chercheurs, on peut espérer que les répertoires sélectifs, qui sélectionnent justement les sites les mieux à même de répondre aux questions de ces derniers, auront recensé les principales ressources sur le sujet.
Nous choisissons donc ici d’interroger Infomine (http://infomine.ucr.edu), qui est l’un des répertoires sélectifs les plus importants ; il recense en effet 128 112 “academically valuable resources” (voir Netsources n°42 “Répertoires sélectifs au fil du Web”).

Une recherche avec “working papers” obtient 227 réponses, classées par pertinence. Les premiers résultats identifient de nombreuses banques de données sur le sujet, comme :
• Electronic Working Papers in Economics : WoPEc ;
• Technical Reports and Working Papers in Business and Economics ;
• Berkeley Law and Economics Working Papers ;
• European Research Papers Archive...

La liste des résultats donne un descriptif du contenu de chaque base et il est possible d’obtenir en complément, en cliquant sur le lien More info, une fiche détaillée qui précise les catégories dans lesquelles le site est indexé, le nom des éditeurs, les “subject headings” de la bibliothèque du Congrès, des mots-clés, le type de ressources (articles, preprints...), l’accès (payant ou gratuit), la cible...

On peut aussi relancer la recherche sur certains champs du document, comme les mots-clés, le titre, les subject headings... ce qui permet d’avoir une sélection plus ciblée.

Ainsi, une recherche sur Infomine limitée aux titres, mots-clés et sujets identifie 90 ressources pour “technical reports”, 70 pour “preprints”, 49  pour “working papers” et 10 pour “preprints server”...

Les répertoires sélectifs sont donc une piste à explorer en priorité, du fait de leur sélection qualitative des sites.
Néanmoins, les annuaires généralistes ne sont pas à dédaigner et peuvent apporter également une aide utile.

Tenter sa chance avec les annuaires généralistes


Une recherche avec “working papers” sur l’annuaire de Yahoo (onglet Directory de l’interface search.yahoo.com) obtient ainsi 28 sites tout à fait pertinents (Working-Papers Sites of Political Science Scholars ; CH Working Papers ; Yale Working Papers on Solid Waste Policy...) et permet de découvrir des rubriques comme Political Science > Papers  (6 sites) ou Economics > Papers  (11 sites).

La requête “technical reports” identifie quant à elle 41 sites et la catégorie Computer Science > Technical Reports  (21 sites). Quant à la requête preprints, elle sélectionne 28 sites et des catégories comme Mathematics > Academic Papers (8 sites)...

Les mêmes requêtes sur l’Open Directory (www.dmoz.org) obtiennent :
• avec “working papers” : 242 sites – certains très pertinents (International Monetary Fund Working Papers in Full Text ; Working Papers in Economics...) et d’autres moins – et la catégorie Business: Resources: News and Media: Working Papers (12 sites) ;
• avec “technical reports” : 141 sites et des rubriques comme Science: Publications  (16 sites) ou Computers: Robotics: Research: Papers  (13 sites) ;
• avec preprints : 232 sites et des rubriques comme Science: Physics: Relativity: Journals and Preprints (6 sites), Science: Math: Publications (46 sites)...

Sur des sujets “non commerciaux”, la différence de couverture entre les deux annuaires est ici frappante.

Bizarrement, Yahoo! référence dans son annuaire certains documents de recherche (au format PDF) publiés sur le serveur ArXiv, l’un des plus célèbres et des plus anciens serveurs de préprints. Il indexe ces documents dans des catégories très précises – comme  Cosmology > Universal Origins ou Stars > White Dwarfs – mais il ne recense pas le serveur ArXiv en tant que tel...

L’Open Directory en revanche a une très bonne couverture du sujet ; il identifie les sites spécialisés (banques de données, serveurs de preprints...), mais aussi les rubriques qui contiennent des documents de recherche, sur les sites universitaires, institutionnels, etc. Mais contrairement à Infomine, il donne peu de détail sur leur contenu ou leur qualité.

Tirer parti des tutoriels et autres guides



La littérature grise sur le Net est abondante. Il existe de nombreux gisements, de nombreuses listes de gisements et nous avons vu dans cet article quelques pistes pour les découvrir.
Ce domaine intéressant aussi bien le monde de l’entreprise que celui de la recherche publique comme privée, il y a fort à parier que de nombreux internautes se sont posé la même question que nous – comment dénicher la littérature grise sur le Net ? – et ont mis sur le Web les résultats de leurs explorations.
Il peut donc être astucieux d’en tirer profit.

Mais comment identifier de telles méthodologies ? 

On peut tout simplement tenter sa chance en lançant sur un moteur une requête telle que “find working papers” OR “finding working papers”, afin d’identifier les éventuelles pages Web expliquant comment trouver ces documents sur le Net.

A cette question, Google identifie 188 résultats, dont le premier est un tutoriel intitulé “Finding Working Papers”, réalisé par la bibliothèque Business & Economics de l’Université de l’Illinois, expliquant comment trouver des documents de recherche via plusieurs sources électroniques.

Nombre de résultats étant néanmoins peu satisfaisants, on peut préciser sa question en limitant la requête au titre des pages et dans le même temps l’élargir, en recherchant des “technical reports”.

Pour tenir compte de la limite maximale de dix mots dans une requête on peut, sur Google, utiliser la stratégie intitle:“finding working papers” OR intitle:“finding technical reports” OR intitle:"find technical reports".** On obtient vingt-et-une réponses, parmi lesquelles :
•    How to Find Technical Reports - UC Berkeley Library Web. Tutorials and Guides: How to Find Technical Reports.
www.lib.berkeley.edu/ENGI/techrpts.html
•    Use the Internet to Find Technical Reports
sciweb.lib.umn.edu/general/itech.html
•    SULAIR: How Do I Find?: Technical Reports
... Technical Reports. What Are Technical Reports? Identifying Technical Reports Using Indexes and Abstracts; Finding Technical Reports Owned By Stanford; ...
www-sul.stanford.edu/collect/techrpt.html

Autant de pistes susceptibles de fournir des astuces pour identifier “working papers” et  “technical reports”.

Bien évidemment, cette stratégie peut être répétée avec différents mots-clés, en français ou en anglais.

La stratégie trouver “littérature grise” permet ainsi de localiser un excellent document sur le guide Sapristi – Sentiers d'Accès et Pistes de Recherche d'Informations Scientifiques et Techniques sur l'Internet –, proposé sur le site de l’Insa de Lyon (docinsa.insa-lyon.fr/sapristi/).

On le voit, plusieurs astuces peuvent permettre d’identifier des documents de recherche et autres types de littérature grise sur le Net. Mais il est pour cela important de changer ses réflexes et :
- de penser à utiliser d’autres outils que Google ;
- de prendre un peu de recul et de tenter de répondre à la question qui devrait être préliminaire à toute recherche, à savoir “quel type de source est susceptible de contenir l’information recherchée ?”.

Et de nombreuses pistes se dévoilent alors...


*On notera qu’en revanche, Yahoo! Search Technology n’est pas aussi limitatif et permet de combiner dans une même requête un nombre bien plus important de mots ; la limite n’est pas précisée mais, d’après nos tests, les requêtes fonctionnent correctement avec largement plus de vingt mots.
Contrairement à Google, il est impératif sur Yahoo! d’inscrire entre parenthèses les mots ou expressions reliés par OR – exemple : “wastewater treatment” (“working paper” OR “working papers” OR “discussion paper” OR “research paper” OR...) (2004 OR 2003 OR...).

**Voulant sans doute illustrer le dicton populaire affirmant que “nul n’est parfait”, Yahoo! répond à cette requête de façon très décevante.
Il semble en effet que les guillemets fonctionnent de façon aléatoire dès lors qu’ils rassemblent plus de deux mots – les mots ne sont pas forcément côte à côte dans les pages sélectionnées – et par conséquent, les pages ne contiennent pas forcément tous les mots dans leurs titres...



Quelques pistes pour localiser les travaux de recherche




Banques de données et serveurs dédiés

RePEc - Research Papers in Economics (http://repec.org)
  Réalisée par un réseau de plus de cent participants dans le monde, RePEc est une base de données bibliographiques concernant la recherche en économie ; elle référence notamment 138 000 documents de recherche, 144 000 articles de publications, 1100 logiciels... Elle est  utilisée par de nombreux sites, tels que Ideas (http://ideas.repec.org) qui permet d’interroger  l’ensemble de la base ; NetEc (http://netec.mcc.ac.uk) qui offre un accès à plusieurs bases, en partie issues de RePEc ou encore EconPapers (http://econpapers.hhs.se) qui interroge l’ensemble de la base RePEc, avec une interface plus sophistiquée.

SSRN (Social Science Research Network) eLibrary  (papers.ssrn.com)
  Ce réseau de chercheurs, créé aux Etats-Unis, a pour vocation la diffusion mondiale et rapide de la recherche en sciences sociale. Sa eLibrary permet d’interroger (par mots-clés ou par arborescence) une banque de données contenant près de 78 000 résumés détaillés de  documents de recherche dans le domaine des sciences sociales. Le texte intégral de 53 000 de ces documents est téléchargeable gratuitement.

•  GrayLit Network (www.osti.gov/graylit/)
  GrayLit Network – a Science Portal of Technical Reports – donne accès à la littérature grise des agences fédérales américaines : Department of Energy, Nasa... Le texte intégral des documents de recherche (working papers, technical reports...) est accessible.

•    Grisemine  (http://cridoc.univ-lille1.fr/default.asp?bustl/grisemine)
    Projet de bibliothèque numérique de littérature grise, initié par le Service commun de documentation de l’Université des sciences et technologies de Lille. Le catalogue contient actuellement le texte intégral de 1 039 documents : rapports de recherche, extraits de  thèses....

•    ArXiv  (http://lanl.arxiv.org)
    Le plus connu – et l’un des plus anciens – serveurs de prépublications, basé à Los Alamos (Etats-Unis, Nouveau-Mexique). Il permet aux chercheurs du monde entier de mettre en  ligne leurs travaux de recherche juste avant leur publication. Il couvre les domaines de la physique (principalement), des mathématiques et des sciences informatiques. Il possède de nombreux sites miroirs.

•    Ministères et organismes officiels
    En France, on pensera également à consulter les sites des différents ministères et autres organismes officiels (la Documentation Française, la Datar...), qui cachent souvent des richesses insoupçonnées en matière de littérature grise...

Listes de ressources

•    Réservoirs de documents de recherche en sciences économiques et de gestion
    Liste importante de ressources, principalement francophones, donnant accès à des documents de recherche ; les ressources sont classées par domaines.
   www.ccr.jussieu.fr/urfist/docrech.html

•    HKUST Library  (http://library.ust.hk/guides/technical/)
    La bibliothèque de l’Université des Sciences et Technologies de Hong-Kong offre un recensement des ressources donnant accès à des “technical reports and working papers” ; les ressources sont classées dans trois catégories – sciences et technologies, management et économie, sciences sociales et humanités – puis par sous-catégories, selon le type de ressources (universités, organismes gouvernementaux, entreprises...).






 

Version imprimable
BASES PUBLICATIONS
27, rue de la Vistule
75013 Paris
Tél. : 01.45.82.75.75
contact@bases-publications.com
Abonnez-vous   |   Contact   |   Mentions légales |   Crédits