
|
Netsources, Numéro de Juillet-Août 2002 - n°39 Quelques pistes pour débusquer l'auteur d'un site |
Auteur : Jean-François Vincent |
|||||||||||||||||||||
|
Lorsqu'on se documente, trouver une ressource qui corresponde au
thème de sa recherche est une étape certes essentielle. Encore
faut-il ensuite se faire une idée de la valeur probable du
document. A côté de critères tels que la richesse apparente des
données, ou la qualité du raisonnement, des références, de la
construction, il est traditionnel et justifié de s'interroger sur
les différents responsables de la publication : l'éditeur
commercial, l'éditeur scientifique, l'auteur, dont on peut
connaître la réputation, voire les autres travaux et
l'orientation.
Cette étape de l'évaluation est particulièrement importante sur Internet, puisque le réseau a profondément bouleversé la structure traditionnelle de l'édition, et permet à n'importe qui de s'improviser éditeur ou auteur publié. De surcroît, il y est facile et fréquent de publier de manière anonyme, parfois pour des raisons impérieuses (politiques par exemple), d'autres fois par goût de la discrétion (on le constate assez souvent sur des sites personnels, dont on peine à trouver l'auteur sans comprendre pourquoi il ne dévoile pas son identité), assez souvent aussi pour s'abriter des conséquences d'illégalités plus ou moins graves, en particulier par rapport aux droits de propriété intellectuelle. Pour celui qui cherche à se documenter, l'anonymat ou l'information insuffisante sur les responsables d'une publication sont toujours une difficulté, qu'ils soient ou non justifiés. Cet article vise à présenter quelques astuces qui permettent parfois de trouver des indications sur les responsables d'un site : de fait, s'il est facile sur Internet d'être “presque” anonyme, il est difficile de l'être tout à fait. On y laisse des traces de tout ordre. Les suites des événements du 11 septembre 2001 ont montré combien la police et la justice ont de moyens pour les décrypter et les suivre. Même pour l'usager ordinaire, qui ne peut délivrer de commissions rogatoires ni accéder aux nœuds informatiques du réseau, il est parfois assez facile de trouver des pistes. Les sources d'information peuvent être internes au document, qui n'est alors anonyme que parce qu'on avait mal regardé d'abord. Elles peuvent être liées aux conditions techniques de sa publication. Elles peuvent enfin être tout à fait externes, et retrouvées à partir d'indices. LE SITE EST-IL VRAIMENT ANONYME ?- SAVOIR FOUILLER DANS LE SITELes habitudes de l'imprimé sont très normalisées, pour ce qui concerne l'affichage des responsabilités. Des conventions pluricentenaires nous font chercher l'auteur et l'éditeur sur la page de titre, sur la couverture, sur le dos, sur la quatrième de couverture, etc. Sur les sites Web, les conventions sont beaucoup plus floues. On trouve cependant souvent des informations de responsabilité :- en pied de page (en pied de page d'accueil en particulier) ; - dans des pages dédiées : “A propos…”, “About us”, “Copyright”, etc. ; -sous la forme d'une adresse de courrier électronique (jean.dupond@fournisseur.com), forme peu satisfaisante dont il faut parfois se contenter (noter qu'un mail est fait pour servir, et qu'on peut du moins demander des détails si l’on en a vraiment besoin). Il faut parfois fouiller plus avant. Ainsi, un rapide coup d'œil sur Hands-on Science Centers Worldwide (www-2.cs.cmu.edu/~mwm/sci.html) — une liste sommaire de sites Web de musées scientifiques classés géographiquement —, ne montre qu'un mail non explicite (mwm@cmu.edu) en pied de page. Il existe pourtant deux moyens simples de retrouver l'auteur. Le premier moyen est un peu anecdotique, mais illustre bien l'incertitude des usages : en passant le curseur de la souris sur l'adresse mail, on se rend compte qu'elle pointe vers une page HTML nommée whois-mwm.html. Contrairement à l'habitude, le lien hypertexte réalisé sur l'adresse pointe vers une page Web, au lieu d'ouvrir un message vide. Et le fichier que l'on peut lire tient la promesse de son nom : c'est un curriculum vitæ. Le second moyen est d'usage plus courant : en “remontant” dans l'arborescence d'un site (ici, en retranchant sci.html pour ne garder que www-2.cs.cmu.edu/~mwm/, ce qui mène à la racine de ce site personnel), on a de bonnes chances de trouver d'autres informations. En l'occurrence, la même page whois-mwm.html s'affiche alors. Y-A-T-IL DES METADONNEES ?La page qui s'affiche dans un navigateur ne constitue pas l’intégralité du document. Elle n'est que la mise en forme graphique d'un document primaire, codé le plus souvent en utilisant la norme HTML. Or le HTML prévoit des éléments non affichés dans nos navigateurs, parmi lesquels des informations sur le document lui-même. Ces informations, qui sont généralement assez faciles à lire pour un non-informaticien, sont ce qu'on appelle les métadonnées.Si certaines métadonnées sont destinées au logiciel (en lui indiquant par exemple quelle norme d'encodage des caractères il doit utiliser pour “savoir lire” le document), d'autres, optionnelles, s'apparentent à des éléments bibliographiques traditionnels. On peut ainsi trouver un titre, une description du contenu, des mots-clés et aussi, parfois, des mentions de responsabilité : auteur, éditeur, contributeur. Mais les usagers ordinaires ne voient pas ces dernières informations, et les moteurs de recherche ne les prennent pas en compte. Elles ne sont donc fournies qu'assez rarement (contrairement aux métadonnées de description et aux mots- clés, plus ou moins pris en considération par les moteurs de recherche). Il ne coûte cependant pas cher d'aller voir : avec un peu de chance, l'information peut être riche, notamment sur les sites de nature académique, dont les auteurs sont peut-être plus sensibles que d'autres à l'information bibliographique et aux besoins de la normalisation en la matière. Soit, par exemple, le sommet de la collection de répertoires thématiques connue sous le nom de The WWW Virtual Library — une institution du Web, lancée par Tim Berners-Lee. On apprend dans la page “About the Virtual Library” (http://vlib.org/AboutVL.html) que “the central catalog pages are maintained by Gerard Manning”. On le veut bien, mais où s'arrête le centre, et où commence la périphérie, dans un objet documentaire réparti sur des dizaines de serveurs et qui joue à fond le jeu du réseau ? L'examen des métadonnées des pages est ici efficace. Voici par exemple une partie de l'en-tête HTML de la page Bio Sciences (1) :
Encore une fois cependant, il faut avoir un peu de chance pour trouver des métadonnées utilisables.
Et plus souvent encore, on ne trouvera rien du tout — du moins tant que les outils de recherche n'auront pas appris à exploiter ces informations. LES INFORMATIONS LIEES A LA MISE EN LIGNE : LES BASES DE DONNEES WHOISRien n'interdit cependant à un auteur de site de ne donner aucune information sur lui-même dans les pages HTML. En revanche, il aura plus de mal à ne donner aucune information personnelle aux organismes qui lui permettent de mettre en ligne sa production. Ces informations peuvent être inaccessibles à l'usager de base d’Internet. Par exemple, si je crée un site sur Free.fr, je serai obligé de donner mon identité et mon adresse à cette entreprise, mais vous n'y aurez pas accès. Elles peuvent aussi être publiques. C'est le cas des informations fournies lors de l'achat d'un nom de domaine. Si je veux utiliser l'adresse monnombril.com, je devrai d'abord l'acheter auprès d'un organisme habilité. Cet achat donnera lieu à la publication, sur le Web, d'un certain nombre d'informations me concernant, dans des bases de données ouvertes, connues sous le nom de bases de données Whois. Voici quelle est la structure de l'enregistrement du domaine lemonde.fr dans la base Whois telle qu'elle est fournie par l'AFNIC (www.nic.fr/cgi-bin/whois) (4) :
Chacun de ces points se trouve détaillé dans un tableau. Le tableau “Domain” fournit ainsi, notamment, les noms des serveurs DNS qui permettront aux ordinateurs de “résoudre” le nom de domaine en une adresse IP utilisable pour eux. Il contient aussi une adresse postale, qui peut servir dans notre recherche. Le tableau “Person” est souvent le plus intéressant pour ce qui nous occupe : il s'agit d'un individu physique, responsable de l'achat. Dans le cas d'une entreprise ou d'une institution, ce peut être par exemple le directeur, ou un responsable du service informatique. Ainsi, dans le cas du site du Monde, on obtient :
Dans le cas d'un site entretenu par une seule personne, le nom est bien souvent celui de cette personne-même. Et voilà parfois une donnée suffisante pour arriver à une certitude sur l'identité de l'auteur, mais au prix de recoupements indispensables. Il faut en effet garder en mémoire deux faits : - Les données contenues dans les bases Whois ne sont pas forcément actualisées. Ainsi, les informations concernant le domaine de la Bibliothèque nationale de France (bnf.fr) remontent au moins à 1996 : le responsable mentionné a quitté l'établissement à cette date (et n'avait d'ailleurs qu'une responsabilité administrative, sans aucune fonction d'auteur). - Il n'y a pas forcément d'identité entre le responsable du nom de domaine et l'auteur des données. Tout bêtement, dans un couple, l'un peut s'être chargé d'acheter le domaine, tandis que l'autre a fait le site… On peut imaginer bien d'autres cas plausibles, dont la volonté de dissimulation fait partie. Il faut donc se convaincre qu'on n'a là qu'un indice — mais souvent déterminant. Comment en tirer parti ? Voici un exemple de recherche (5). Le site HistoricOpera (<www.historicopera.com>) est dépourvu, à ce qu'il me semble, de toute signature. Une requête dans Whois permet d'abord d'obtenir un nom :
Un tour dans Google confirme qu'il s'agit bien de l'auteur. En y entrant le nom trouvé ainsi que le nom du site (requête Maaraj historicopera, donc), on trouve en effet très vite ce message, sur un forum du Web:
Il est difficile de rester anonyme lorsqu'on veut aussi être reconnu pour son travail ! Bien souvent, les anonymes se dévoilent donc, par nécessité ou par vanité. Ici, l'auteur ne s'attendait peut-être pas à voir son message publié, à vrai dire. Ces publications non souhaitées sont aussi une expérience courante sur le Web. INFORMATIONS EXTERNES : UTILISER LES OUTILS DE RECHERCHE GENERALISTES ET SPECIALISESLe cas le plus défavorable est sans doute celui d'un site personnel, sans aucune mention de responsabilité, et sans nom de domaine propre. Notons qu'en cas de problème grave avec un site, le fournisseur d'espace disque (Free.fr ou Club-Internet par exemple) est toujours un recours possible. Hors difficultés légales, il faut se débrouiller pour mener sa petite enquête avec les moyens du bord. Il me semble qu'on arrive assez souvent à ses fins en utilisant les outils de recherche généralistes. Quoiqu'il faille bien sûr faire feu de tout bois, trois éléments sont particulièrement utiles : le titre, l'URL, et l'adresse de courrier électronique éventuelle. L'adresse de courrier électronique, utilisée comme requête dans Google ou AlltheWeb, peut être un bon coup d’essai. Si le webmestre a participé à un forum de discussion en utilisant cette adresse, il se peut en effet qu'il ait aussi donné son identité véritable en signature, ou en tout cas des indices utilisables. D'autres que lui ont aussi pu associer son nom à cette adresse. C'est très courant dans les petits réseaux : “Je connais Untel, qui fait le site Truc, posez-lui donc votre question. Voilà son mail : truc@free.fr.” - Et adieu l'anonymat… La même chose survient souvent avec l'URL. On m'a signalé récemment un site anonyme proposant des textes alchimiques numérisés. Son adresse est <http://perso.wanadoo.fr/chrysopee/>. En l'utilisant comme requête dans AlltheWeb et en regardant avec un peu de soin les réponses, on trouve une page d'annonces sur un site d'amateurs d'insolite, où on lit :
Quelques recoupements plus tard, on arrive à la quasi-certitude que l'auteur de ce message est bien l'auteur du site, et on obtient même quelques indications probables sur son identité professionnelle. Là encore, on notera que l'anonymat a principalement été levé par la nécessité, pour l'auteur, de signaler sa production à un groupe d'usagers potentiels. Enfin, le titre peut mener à des trouvailles du même genre, éventuellement en le croisant avec un autre élément du site. Tous ces éléments peuvent notamment mener vers des documents qui, d'une manière ou d'une autre, décrivent les sites à propos desquels on cherche des informations. Il peut s'agir d'articles critiques, ou de notices bibliographiques comme celles que l'on trouve dans certains répertoires thématiques. Je citerai comme exemples de ces derniers les remarquables collections de ressources proposées par l'Université de Göttingen (SSG-Fachinformation : <www.sub.uni-goettingen.de/ssgfi/>), qui indiquent notamment les auteurs des ressources mentionnées. Il s'agit toujours de répertoires de petite taille (quelques milliers de ressources au plus), mais dont le recensement est souvent très spécialisé. Si la ressource à laquelle on s'intéresse fait clairement partie du champ de leur recensement, il est sensé d'aller voir si elle y a été sélectionnée, et si sa description ne contiendrait pas des informations utiles. Par exemple, une ressource dans le domaine de la forêt pourrait figurer dans le ForestryGuide de Göttingen, et y serait alors très finement décrite. A l'heure actuelle, on trouve souvent ces répertoires par l'intermédiaire des moteurs de recherche généralistes. Je signalerai une tentative pour fédérer plusieurs répertoires européens, Renardus (<www.renardus.org/>), qui donne accès en une requête à plus de 60 000 notices de ressources utiles au public académique, contenant souvent des indications d'auteur, et provenant de douze services couvrant de nombreuses disciplines (voir <www.renardus.org/about_us/> pour la liste et la description détaillée des services concernés). CONCLUSIONConnaître l'auteur entre en jeu dans l'évaluation de l'information. Au-delà de cet objectif documentaire — trouver l'auteur —, cela change toujours un peu la manière de lire ce qu'il produit, même quand on n'obtient que des données très élémentaires sur lui (un nom, une adresse, une profession, une manière de se présenter sur un forum…). Apprendre que tel auteur d'un répertoire consacré au cinéma est professeur d'anglais au Japon, cela n'apporte peut-être pas énormément à la connaissance objective de son travail. Pourtant, on ne voit plus son site tout à fait de la même manière. Des bribes de vie s'y sont ajoutées, et un peu d'imaginaire. Des détails aussi, incompréhensibles sans cela, s'en trouvent souvent éclairés. (1) On affiche le code de diverses manières selon le navigateur que l'on utilise. Dans Internet Explorer, cliquer avec le bouton droit de la souris dans la fenêtre du navigateur, et choisir dans le menu contextuel qui s'affiche "Afficher la source" (ou cliquer sur le choix “Source” du menu déroulant “Affichage”). Les métadonnées se trouvent normalement au début du code HTML, dans l'en-tête du document (partie située entre la balise <HEAD> et la balise </HEAD>.) (2) Le "format" choisi pour les métadonnées est ici le Dublin Core, recommandation très prisée dans le domaine. Cf. <http://dublincore.org> (3)<www.ipni.org/index.html> - On trouve d'ailleurs toutes les informations nécessaires "en clair" sur ce site, dont le webmestre pouvait donc se permettre cette private joke. (4) La présentation des enregistrements varie un peu d'un "registraire de nom de domaine" à l'autre, mais en gros on retrouve les mêmes informations essentielles. Il existe de multiples points d'accès aux données de Whois sur Internet. Outre celui de l'AFNIC, que je trouve simple et commode, je mentionnerai Uwhois.com (<www.uwhois.com> ou, pour échapper à la publicité, <www.uwhois.com/ cgi/domains.cgi?User=NoAds>). Cette interface permet de rechercher un même nom dans plusieurs "domaines de tête" à la fois. Elle est recommandée par l'Internic. (5) Comme il s'agit dans la suite de l'article de sites réellement anonymes, j'ai cru devoir modifier les noms de personnes que j'ai trouvés. POUR INFO : Jean-François Vincent est conservateur à la
Bibliothèque nationale de France, où il coordonne Les Signets
de la BnF ; ce répertoire propose une sélection commentée de
ressources accessibles par Internet, choisies par les
bibliothécaires de la BnF, qui les classent et tiennent à jour leur
description <www.bnf.fr/pages/liens/> |
||||||||||||||||||||||