Netsources, Numéro de Juillet-Août 2004 - n°51


Trucs et astuces pour un chasseur de liens

Auteur : Béatrice Foenix-Riou

Tous ceux qui ont passé de longues heures sur le Net, tentant de rassembler des informations leur permettant de faire le point sur un sujet, de découvrir un domaine qu’ils ne maîtrisent pas totalement, ou encore de préparer un dossier sur un thème quelconque, ne me contrediront certainement pas : lorsque l’on découvre, au hasard des résultats, ces fameuses “pages de liens” (également appelées bookmarks, signets...) qui rassemblent justement les sites-clés du domaine, on ressent l’exaltation du chercheur d’or qui a trouvé une pépite et l’on a envie de s’écrier “bonne pioche” !

Oui mais voilà, ces fameuses pages de liens ne font pas toujours partie de la donne et l’on peut alors errer des heures sur le réseau des réseaux, passant d’un site exceptionnel à un site décevant, sans réussir à se faire une idée de l’offre sur le domaine.

Car l’identification des pages de liens est souvent hasardeuse. Ces pages en effet, si elles peuvent recenser un nombre impressionnant de ressources, sont souvent partie intégrante d’un site beaucoup plus large, universitaire ou associatif par exemple.

Elles peuvent aussi être le résultat d’un travail personnel, celui d’un étudiant ou d’un expert notamment, qui auront décidé de mettre à disposition de tous les résultats de leurs recherches.
 
Elles sont par conséquent difficiles à localiser via les outils de recherche classiques.

Les annuaires négligent généralement les pages personnelles – qui choisissent rarement une offre de soumissionnement payant – et, s’ils recensent plus facilement les sites universitaires et associatifs, ils se bornent le plus souvent à préciser la nature du site, sans indiquer que ce dernier recèle des trésors...
Quant aux moteurs, s’ils indexent bien les pages de liens, ils ne les distinguent en rien des autres et ces perles sont alors noyées parmi des pages sans intérêt...

Fort heureusement, il existe un certain nombre d’astuces pouvant aider l’internaute à repérer des bookmarks en séparant le bon grain de l’ivraie.

LES OPERATEURS INTITLE: ET INURL: EN ACTION


La première astuce – que nous avons plusieurs fois utilisée au sein de cette rubrique, voir par exemple Netsources n°45 – s’appuie sur une constatation : les pages de liens proposées sur les sites sont très souvent incluses dans une rubrique intitulée simplement Nos liens, ou Nos signets... Un clic sur cette rubrique affiche la page en question et il arrive alors que celle-ci contienne, dans son URL ou dans son titre, le mot liens ou signets.

Bien évidemment, la présence du mot liens dans le titre ou dans l’URL n’est pas obligatoire. Il se trouve simplement que de nombreux éditeurs choisissent ce mot comme titre de leur page ou que le chaînage de navigation dans leur site explique la présence du mot dans l’URL.
Mais comme il n’existe aucune norme sur le sujet, on peut tout aussi bien trouver les mots liens, bookmark, signets (au singulier ou au pluriel) ... ou n’en trouver aucun.

Partant de cette constatation, on peut donc utiliser les fonctions avancées des moteurs pour rechercher les pages qui contiennent précisément le ou les termes de la requête ET le mot liens (ou lien ou bookmark ou signets...) dans le titre OU dans l’URL. Bien évidemment, si l’on recherche des pages en anglais, on utilisera les mots links (ou link, bookmark...) en complément des mots-clés...

Encore une fois, cette méthode n’est qu’une astuce. Toutes les pages identifiées ne seront pas des pages de liens (certaines n’en offrent qu’un ou deux...) et toutes les pages de liens ne seront pas identifiées...

Mais en l’état, cette stratégie augmente très fortement les probabilités de localiser rapidement quelques signets utiles sur un sujet...

Pour l’illustrer, nous prendrons l’exemple d’un internaute souhaitant  dresser rapidement un panorama des principales ressources en français concernant l’obésité.

Une recherche sur Google avec le simple mot “obésité” identifie ... 208 000 pages. Les premières sont tout à fait pertinentes et démontrent qu’il existe un grand nombre de sites spécialisés sur le sujet ; on trouve ainsi parmi les premiers résultats les pages d’accueil des sites obesite.com, obesitesante.com, obesity-diet.com (en français), gros.org, tpeobesite.free.fr, obesite-enfant.com, etc. Mais on est noyé sous le nombre de réponses ; on ne connaît pas le contenu de ces sites et l’on ne sait pas s’ils offrent une sélection de liens... Et une investigation site par site serait trop consommatrice de temps.

Si l’on limite la requête sur Google au titre des pages (intitle:obésité), on réduit la sélection à 48 000 documents – ce qui est toujours trop important –, les premiers résultats sont sensiblement les mêmes qu’à l’étape précédente ... et l’on n’est pas plus avancé quant au contenu des sites...

Dans ce type de problématique, il peut être intéressant de rechercher spécifiquement des pages de liens qui, si l’on est chanceux, pourront classer les ressources selon leur contenu, ou donner un bref résumé de ce que l’on y trouve.

Sur Google, la requête obésité inurl:liens OR intitle:liens obtient 460 pages.

Les premiers résultats semblent relativement pertinents. Si les deux premiers donnent une petite liste de liens sans autre indication, le troisième, issu du site Gros.org, recense une vingtaine de sites avec un réel résumé pour chacun. On trouve aussi une liste de liens couvrant le domaine de la nutrition et de la santé au sens large, classés par pays et par thèmes, des liens sur l’alimentation... bref, quelques pistes (surtout celle fournie par Gros.org), mais rien de “palpitant”, du moins dans les deux premières pages de résultats...

On notera que selon le nombre de résultats obtenu, on pourra élargir la requête, en utilisant les différents synonymes/orthographes du mot liens  – dans notre cas, ce pourrait être obésité inurl:liens OR intitle:liens OR inurl:lien OR intitle:lien OR inurl:bookmark OR intitle:bookmark.. sachant qu’une recherche sur Google est limitée à dix mots (intitle:liens comptant pour un mot).

Mais on peut aussi affiner la question, en recherchant le mot-clé dans le titre (intitle:obésité inurl:liens OR intitle:liens).

A cette étape, on peut poursuivre l’exploration des résultats de Google, ou changer de moteur et/ou de strategie.

Nous optons ici pour une méthodologie légèrement différente, tirant parti d’une fonctionnalité propre au nouveau Yahoo!

LA FONCTION LINK: ET SES SUBTILITES SUR YAHOO!


Sur la plupart des outils de recherche (Google, AltaVista...), la commande link: directement suivie d'une URL (ex.: link:www.bnf.fr) permet d'identifier facilement les backlinks, c’est-à-dire les pages Web qui pointent vers une URL donnée. Sur Google cependant, les résultats sont incomplets car, si le moteur identifie bien les backlinks de la page, il n’affiche que ceux qui sont issus d’un site ayant un PageRank* supérieur à 4. Cette limitation devrait être supprimée prochainement.

La nouvelle solution Yahoo! Search Technology offre quant à elle des subtilités intéressantes.

Pour cette fonction en effet, Yahoo! prend bizarrement le contrepied des autres moteurs.

Sur Yahoo! tout d’abord, pour connaître les liens qui pointent vers une page donnée, il ne faut pas inscrire link:www.bnf.fr mais link:http://www.bnf.fr (le tout sans espace). Sans quoi on obtient comme résultat 34 pages au lieu de 40 900 pages ! Un détail qui a son importance !

En complément de cette fonctionnalité, Yahoo! offre une astuce qui réjouira plus d'un webmaster, car elle permet de connaître non pas tous les liens qui pointent vers une page, mais tous les liens qui pointent vers un nom de domaine et donc vers un site dans son intégralité.

La commande linkdomain:bnf.fr identifie ainsi 189 000 pages pointant vers une partie ou une autre du site de la BnF, et non plus seulement celles qui pointent vers la page d’accueil.
On notera que pour cette commande-ci, il ne faut pas écrire http:// devant l'URL...

Mais ce n’est pas tout. Non content d’élargir de façon utile cette commande, Yahoo! permet en plus de la combiner, dans une même requête, à d’autres mots, avec ou sans opérateurs. C’est le seul moteur, à notre connaissance, qui offre cette possibilité – sur Google par exemple, il est impossible d’utiliser simultanément l’opérateur link: (suivi d’une URL) avec un mot-clé ou un autre opérateur.

Cette spécificité permet par exemple d’identifier  les liens pointant vers le site de la BnF, émanant de sites universitaires américains ; la requête devra être formulée linkdomain:bnf.fr site:edu (9 840 résultats)

Ces fonctionnalités originales peuvent être utilisées dans notre recherche de pages de liens.
Puisque la fonction link: permet d’identifier les backlinks d’une page, on peut partir du postulat qu’un nombre non négligeable de pages contenant par exemple le mot obésité dans leur texte et offrant un lien vers un site de référence du domaine (par exemple www.gros.org, identifié précédemment) peuvent offrir également d’autres liens vers d’autres sites du même domaine.

Sur Yahoo!, la requête sera donc formulée : obésité linkdomain:www.gros.org.

272 pages sont identifiées.

La première,  intitulée Obésité : sites et documents francophones, émane de Cismef, le site fédérateur du CHU de Rouen (www.chu-rouen.fr/ssf/pathol/ obesite.html) ; elle offre une liste impressionnante de ressources classées par types (article de périodique, association professionnels santé, enseignement et éducation, étude comparative...), avec pour chacune une description détaillée du contenu, les mots-clés... L’approche est certes médicale, mais la page constitue un bon point de départ.

Le deuxième résultat, issu de Caducee.net, est de même nature ; le troisième est la page de liens offerte par Gros.org... bref, la méthode semble, pour cette question tout au moins, très efficace...

Cela étant, si le choix d’identifier des pages de liens pour dresser rapidement un panorama des ressources sur l’obésité s’est avéré performant, il relève en fait d’un parti pris plus éditorial que méthodologique.

Pour une question de ce type, nous aurions pu tout aussi bien interroger des annuaires
généralistes ; ils nous auraient permis de connaître rapidement les principaux sites sur le sujet et d’avoir sur chacun un descriptif en une ligne.

L’Open Directory (www.dmoz.org) en poarticulier recense quelques dizaines de sites concernant l’obésité, classés dans des rubriques comme World: Français: Santé: Maladies: Troubles de la nutrition ou World: Français: Santé: Nutrition.
Et l’on découvre dans cette dernière le site www.xl-news.com, qui est tout simplement un annuaire de sites traitant de l'obésité, des régimes et de la minceur...

* Le PageRank – du nom de Larry Page, l’un des créateurs de Google – est une note attribuée par Google pour chaque page et qui va de 1 à 10. Cette note est fonction de trois critères :
• le nombre de “backlinks” de la page (c’est-à-dire le nombre de liens pointant sur la page) ;
• le “PageRank” de chaque backlink ;
• et le nombre de liens “sortants” de chaque backlink.
Ce PageRank – qui est l’un des principaux éléments intervenant pour le classement des résultats – est indiqué notamment par la Google Toolbar.