|
Netsources, Numéro de Novembre-Décembre 2003 - n°47 www.archives.orgPour la sauvergarde d'un patrimoine historique du Net |
Auteur : Jennifer Clerté |
|
Les archives ? …. Une cave poussiéreuse et sombre située au
vingt-cinquième sous-sol de votre entreprise ? Un lieu où vous
n’avez d’ailleurs jamais mis les pieds de peur de vous salir, de
vous perdre ou de ne jamais retrouver le document que vous avez eu
la folie de vouloir rechercher ?
Mais non, voyons ! Cette réalité n’est plus de mise, tout particulièrement lorsqu’il s’agit des archives de l’internet, accessibles sur le site www.archive.org. Netsources avait déjà signalé, il y a deux ans, l’existence de ces archives virtuelles, permettant de retrouver les anciennes versions de certaines pages Web (Netsources n°35 – novembre/décembre 2001). A l’époque, ce site répertoriait plus de dix milliards de pages archivées depuis 1996. Depuis, il a continué d’évoluer, aussi bien du point de vue du contenu que des fonctionnalités de recherche. Mais revenons tout d’abord sur la vocation de cet outil. Fondé en 1996, The Internet Archive est un organisme à but non lucratif, dont l’objectif est de constituer une bibliothèque de pages Web accessible de façon permanente pour les chercheurs, historiens et universitaires et d’empêcher ainsi ce nouveau type de sources de sombrer dans l’oubli. Aujourd’hui, la bibliothèque d’Internet Archive regroupe plus de 30 milliards de pages Web, soit 100 terabytes de données, et s’accroît de 12 terabytes par mois. Elle constitue désormais la plus grande bibliothèque du monde. Pour rechercher au sein de ces archives, The Internet Archive a développé l’outil Wayback Machine, en collaboration avec la société Alexa Internet. Celui-ci permet de retrouver simplement l’historique des différentes versions d’un même site. The Wayback Machine : revisitez l’histoire de vos sites favorisSur la page d’accueil (www.archive.org), il faut inscrire l’URL de la page dont on souhaite retrouver les différentes versions dans la zone de saisie Wayback Machine, puis cliquer sur le bouton Take me back.On obtient alors un tableau avec, classés par année (depuis 1996), les liens vers les différentes versions indexées de la page ; chaque version est datée. Cette date est soit celle de la mise à jour réelle (lorsque la date est suivie d’une *) soit celle à laquelle la page a été indexée par l’outil. En cliquant sur une date, on affiche la copie de la page Web telle qu’elle apparaissait alors. Pour chaque année le moteur indique le nombre total de versions archivées disponibles. Il est par ailleurs possible de comparer visuellement les modifications intervenues entre deux versions d’une page en cliquant sur le lien Compare Archive Pages, proposé en haut de la page de résultats. On obtient un nouveau tableau, qui permet de choisir les versions que l’on souhaite comparer. Un clic sur le bouton Compare two dates fait apparaître la version la plus récente de la page, avec les éléments modifiés ou disparus de la version plus ancienne, barrés d’un trait bleu. Mais si cet outil peut être utile pour deux versions assez proches ne faisant apparaître que peu de changements, il ne fonctionne plus pour deux versions totalement différentes d’une même page (par exemple lorsque la maquette du site a été intégralement refaite). Précisons de plus qu’il ne fonctionne que pour comparer les textes et pas les images. Wayback Machine dispose par ailleurs d’une grille de recherche avancée (lien situé à côté du champ de recherche), qui permet notamment de limiter sa requête à une période précise. Elle offre aussi les possibilités suivantes : - retrouver la page la plus proche de l’URL indiquée ; - retrouver toutes les versions réperto-riées pour l’URL indiquée ; - prendre en compte les versions des sites miroirs, en les affichant ensemble ou séparément ; - afficher ou ne pas afficher les URLs dirigeant vers un autre site ; - pour un site donné, afficher toutes les URLs archivées conduisant à un même type de fichier (images, pdf…). Cette fonctionnalité est particulièrement intéressante ; elle peut par exemple permettre de retrouver un rapport d’une entreprise bien qu’il ait été déchargé de son site depuis plusieurs années ; - afficher les doublons ; - conversion au format pdf : cette dernière fonctionnalité peut aussi s’avérer fort utile si l’on souhaite sauvegarder ou diffuser certaines de ces pages. Wayback Machine est donc l’outil indispensable pour retrouver les différentes versions d’une même page Web et ainsi permettre de retracer l’histoire cybernetique d’une entreprise ou d’une institution. Cependant, il ne permet pas de travailler, comme le souhaiteraient certains chercheurs, sur une thématique plus large, puisque la recherche porte uniquement sur les URLs. Jusqu’au début des années 90, les historiens et sociologues disposaient pour leur travail de divers types de sources tels que les sources officielles des institutions (jugements, données statistiques, textes politiques…), la presse ou encore les documents scientifiques, religieux ou artistiques. Toutes ces sources ont été précieusement archivées depuis la nuit des temps et constituent notre patrimoine historique, origine de notre identité. Or depuis 1996, une nouvelle source est née : le document virtuel – étrange hybride de tous les documents préexis-tants. Il est devenu en l’espace de quelques années un moyen d’expression tel, qu’il ne peut en aucun cas être ignoré. The Internet Archive avait résolu depuis longtemps la question de sa préservation. Restait encore à permettre son exploration. C’est désormais chose faite grâce au moteur Recall. FULLTEXT SEARCH - RECALL : RECHERCHEZ LE PASSE DU WEB EN TEXTE INTEGRAL Ce moteur, actuellement encore en phase Beta, permet de rechercher en texte intégral parmi onze milliards de pages Web parues entre 1996 et mai 2003. Il peut être interrogé depuis la page d’accueil d’Internet Archive en tapant la requête dans le champ Search en haut à gauche de l’écran et en sélectionnant au sein du menu déroulant l’outil Wayback Machine. Recall peut rechercher une expression exacte (les mots doivent être écrits entre guillemets) et propose l’utilisation des opérateurs AND et OR. Si l’on tape deux mots, le moteur recherche d’abord par défaut l’expression exacte puis, s’il n’y a pas de réponse, il applique l’opérateur AND et enfin OR. Notons également que Recall est sensible à la casse et qu’il vaut donc mieux écrire le mot avec et sans majuscule. Cependant, il ne se contente pas de retrouver les pages qui contiennent les mots recherchés. Il offre également d’autres outils précieux. Une fois la recherche lancée, les résultats s’affichent au sein d’une fenêtre composée de trois cadres (cf écran ci-dessous) : - on retrouve dans le cadre supérieur le champ de requête et le terme recherché, ainsi que plusieurs menus déroulants permettant de restreindre la recherche à une période donnée. A la suite de ces champs, Recall rappelle les critères de la recherche et indique le nombre total de résultats ; - le cadre central donne la liste des pages trouvées pour la requête. Pour chaque résultat, Recall indique le titre de la page avec un lien vers celle-ci, la date, un extrait et l’URL. Les résultats sont classés selon un coefficient de pertinence basé sur le contenu et non sur la popularité. Mais surtout, cette liste est surmontée de deux graphiques non dénués d’intérêt. Le premier établit, pour une série d’expressions associées aux termes recherchés, le pourcentage de pages trouvées chaque jour. On obtient ainsi un graphique composé de plusieurs courbes, correspondant à la fréquence d’utilisation de ces expressions dans le cyberespace. Recherchons par exemple le terme Terrorism. Recall lui associe les expressions suivantes : Counter Terrorism, Prevention of Terrorism, Response to Terrorism, War against Terrorism, International Terrorism et War on Terrorism. Le graphique montre alors la très nette explosion de l’usage de l’expression War on Terrorism à partir de septembre 2001. Le second graphique montre l’évolution du nombre de pages retrouvées avec le terme recherché (sur une base mensuelle). On peut ainsi évaluer le poids d’un sujet d’actualité au cours des dernières années. Si cet outil est sans aucun doute utile pour les chercheurs, il peut également servir aux professionnels du marketing et de la communication pour mesurer l’impact de leur campagne sur Internet ; - dans le cadre de droite, plusieurs rubriques offrent la possibilité de restreindre ou de reformuler la recherche grâce à des concepts associés : - La rubrique Instead of permet de relancer la requête avec un nouveau terme ; elle propose deux champs : • Do you mean offre un certain nombre de termes associés généraux pour reformuler sa requête ; • Capitalization Variants propose de relancer la requête sur le même mot, mais avec une casse différente. -Les rubriques Categories et Topics proposent quant à elle de restreindre la recherche en associant un autre mot au terme initial. Ces termes associés sont regroupés au sein de menus déroulants thématiques ; pour une recherche sur le terme Terrorism, Recall propose ainsi les thèmes People, International, Response ou encore Nuclear terrorism et Prevention on terrorism. Cependant la distinction entre les rubriques Categories et Topics n’est pas limpide. Au total, Archive.org s’avère une source d’information précieuse, qui deviendra à coup sûr une institution patrimoniale incontournable. Pour ceux qui douteraient encore de son utilité, sachez que l'US Internet Council a estimé la durée de vie moyenne d’une page Web à 44 jours ! C’est donc une somme astronomique d’informations – et tout un pan de la culture cybernetique – qui partirait en fumée sous notre nez, si une telle initiative n’était pas menée. |
|