|
Netsources, Numéro de Mars-Avril 2003 - n°43 Comment utiliser au mieux les fonctions avancées des moteurs ? |
Auteur : Béatrice Foenix-Riou |
||||||||||||||||||||||||||||||||
|
Pendant de longues années – on serait tentés de dire “avant la
naissance de Google” – les annuaires comme Yahoo! ont eu la
préférence des internautes qui recherchaient des informations.
Dès l’écran d’accueil en effet, des rubriques et sous-rubriques leur permettaient d’obtenir en quelques clics une liste de sites forcément pertinents, puisque référencés par l’équipe édito-riale. Les moteurs comme AltaVista restaient quant à eux l’apanage des utilisateurs plus expérimentés. Puis, Google a fait son apparition et a su conquérir le cœur des netsurfers, qu’ils soient experts ou débutants. Alors que la plupart des moteurs, attirés par les sirènes du commerce électronique, s’étaient transformés en portail et offraient un écran surchargé, Google a fait la part belle à la recherche simple, avec un écran d’accueil à la fois sobre et gai qui a séduit les utilisateurs. On sait aujourd’hui que cette stratégie était la bonne. Preuve en est que le modèle “à la Google” est désormais suivi par de nombreux moteurs – comme AlltheWeb (Netsources n°42) ou AltaVista (Netsources n°40) – et que les internautes comptent en leur sein un nombre sans cesse croissant de “Googlemaniaques”. Cela étant, si Google a favorisé au départ la recherche simple, il a néanmoins largement étoffé ses possibilités de recherche avancées, qui étaient à l’origine réduites à leur plus simple expression. Ces possibilités restent toutefois très discrètes, et fort peu mises en avant. Or, l’utilisation conjointes des différentes fonctionnalités offertes par Google – et par les autres moteurs de recherche – peut permettre d’affiner sa question de façon souvent très utile. Pour aider nos lecteurs à optimiser la formulation de leurs requêtes, nous présenterons dans cet article les principales fonctions avancées des trois moteurs AlltheWeb, AltaVista et Google ; nous démontrerons la valeur ajoutée de ces fonctions en tentant de répondre à une question concrète : “Comment identifier rapidement des documents de synthèse sur les causes des accidents d’avions aux Etats-Unis”.On notera toutefois que la méthodologie employée ici l’est essentiellement dans un but illustratif, pour expliquer les combinaisons possibles entre les diverses fonctions avancées des moteurs. Mais si l’on avait voulu identifier les documents “les plus pertinents” sur le sujet, d’autres méthodes auraient pu être adoptées, avec d’autres mots-clés...AFFINER SA QUESTION : UNE DEMARCHE EN PLUSIEURS ETAPESLes grands moteurs offrent aujourd’hui sensiblement les mêmes fonctionnalités de recherche avancée. Si elles permettent incontestablement d’optimiser une requête, il est nécessaire de comprendre leur fonctionnement et de les utiliser à bon escient. Faute de quoi le risque est grand de trop affiner la sélection et de passer à côté de documents très pertinents.Avant d’utiliser les possibilités de recherche sur les différents champs du document, il est donc important de lancer la requête par mots sur l’intégralité des pages, pour avoir une estimation du nombre de résultats sur le sujet. Dans notre cas (comme souvent), se pose le délicat problème du choix des mots-clés. Une première analyse de ce que l’on recherche – “des documents de synthèse sur les causes des accidents d’avions aux Etats-Unis” – laisse à penser que les documents les plus nombreux et les plus détaillés seront, selon toute probabilité, d’origine américaine. Il est donc préférable d’utiliser des mots en anglais. Mais quels mots ? Ceux qui seront le plus vraisemblablement utilisés sont “aviation” et “accidents”. MOTS-CLES : ATTENTION AUX FORMES SINGULIER/PLURIELDes premiers tests sur Google avec simplement les deux mots aviation accidents montrent que ces termes semblent couramment utilisés dans ce contexte : on obtient plus de 350 000 pages, les premiers résultats étant issus de sites spécialisés sur le sujet (NSTB Aviation Accidents...).La première page de résultats de Google permet par ailleurs de découvrir des synonymes qui pourront être testés (plane crash...). Mais elle permet aussi de voir que le mot “accident” peut être utilisé au singulier (aviation accident database), et qu’il est important d’en tenir compte dans la formulation de la requête. En effet, si de nombreux annuaires utilisent une troncature implicite et recherchent donc automatiquement les formes singulier et pluriel des mots, il n’en est pas de même avec les moteurs. Certains, comme AltaVista, permettent d’utiliser le symbole * après les premières lettres d’un mot, pour retrouver tous les mots ayant le même radical (accident* retrouvera accident, accidents, mais aussi accidentés...). Mais d’autres, comme AlltheWeb et Google, recherchent uniquement sur l’occurrence exacte des mots. Les formes singulier et pluriel de “accident” devront donc figurer dans la stratégie. La requête devra être formulée ainsi : • AltaVista : aviation accident* • Google : aviation accidents OR accident • AlltheWeb : aviation (accidents accident) On notera que : - les trois moteurs emploient l’opérateur AND par défaut. Il est donc inutile de l’inscrire entre les termes, ou d’utiliser le symbole + ; - sur Google, l’opérateur OR doit impérativement être écrit en majuscules ; faute de quoi il n’est pas pris en compte car considéré comme un mot vide, et la recherche est alors faite avec un AND implicite. Lorsqu’une requête sur Google comprend plusieurs mots et un opérateur OR, ce dernier est appliqué uniquement aux deux mots qui l’entourent ; - sur AlltheWeb, dans la recherche simple, des mots écrits entre parenthèses sont automatiquement recherchés avec l’opérateur OR entre chacun ; en revanche, si l’on utilise le mode Boolean expression*, les parenthèses servent à préciser la question et il faut obligatoirement inscrire un opérateur (and, or, andnot..., écrit indifféremment en majuscules ou en minuscules) entre chaque mot. La requête serait alors : aviation and (accident or accidents) Les résultats des trois moteurs pour cette requête sont les suivants : • AlltheWeb : 988 913 résultats • AltaVista : 759 418 résultats • Google : 571 000 résultats. Ces résultats sont assez étonnants, en ce sens que Google, qui possède l’index le plus important – 3,1 milliards de pages contre 2,1 pour AlltheWeb et 1,7 pour AltaVista – est celui qui donne le nombre de réponses le plus faible. Cela est d’autant plus étonnant qu’après combinaison des diverses fonctions avancées, c’est lui qui donnera au total le plus grand nombre de réponses. Nous n’avons pas investigué plus sur cette question. Peut-être le “environ 571 000 résultats” de Google signifie-t-il ici “de façon très très approximative”... Ou inversement, peut-être sont-ce AlltheWeb et AltaVista qui ont surévalué leurs résultats. Mais pour chaque moteur, la question semblait bien interprétée et les premières pages de résultats étaient toutes pertinentes. Quoiqu’il en soit, eu égard au nombre de réponses, il est important d’affiner la question. Mais comment ? Rajouter des mots-clés à cette étape peut être prématuré. La façon la plus simple d’identifier directement les documents les plus pertinents est de tenir compte de la structure des pages pour restreindre sa question. Par défaut en effet, les mots sont cherchés dans l’intégralité des pages. Mais en fait, la pertinence des documents est souvent liée à l’endroit où se trouve le mot dans la page : une page qui contient le terme de la requête dans son titre est en effet plus centrée sur le sujet qu’une autre qui contiendra le mot en bas de page... LIMITER LA RECHERCHE AU TITRE DES PAGESCette stratégie est la première à adopter lorsque l’on souhaite limiter les résultats d’une recherche et identifier rapidement les documents les plus pertinents. Certes, quelques pages intéressantes pourront être perdues, mais dès lors que le nombre de résultats est important, cette méthode est à notre avis la plus simple et la plus efficace.Pour limiter la recherche au titre des pages – c’est-à-dire à la partie de la page qui apparaît en bleu avec un lien dans les résultats des moteurs de recherche, et qui correspond généralement à la balise meta “title” –, il suffit, depuis la zone de recherche simple offerte en page d’accueil, de saisir immédiatement devant le mot de la requête l’opérateur approprié. Ce dernier est title: pour AltaVista et AlltheWeb et intitle: pour Google. On notera qu’il ne doit jamais y avoir d’espace entre l’opérateur, le symbole “:” et le mot. La requête devra donc s’écrire title:mot sur AlltheWeb et AltaVista, et intitle:mot sur Google. Il est bien sûr possible de rechercher une expression, saisie entre guillemets, avec cet opérateur (ex. sur AltaVista : title:“agents intelligents”). En revanche, si deux mots doivent être recherchés dans le titre sans pour autant être côte à côte, il convient de saisir l’opérateur devant chaque mot (ex. sur AltaVista : title:“electronic commerce” title:agents) ; faute de quoi, le mot – ou l’expression – accolé à l’opérateur sera cherché dans le titre, et le mot suivant sera recherché n’importe où dans la page. Sophistication intéressante, Google offre un opérateur supplémentaire pour cette recherche précise ; allintitle: recherchera en effet tous les mots qui le suivent dans le titre des pages (ex. sur Google : allintitle:“electronic commerce” agents). Dans la mesure du possible, il faudra donc éviter la saisie de commandes spécifiques à la suite de l’opérateur allintitle:. Mais pour notre question, Google comprend parfaitement la requête allintitle:aviation accidents OR accident, qui donne les mêmes résultats que intitle:aviation intitle:accidents OR intitle:accident. Le résultat obtenu (3 040 pages) montre toutefois que la sélection a été trop brutale, et que la question ainsi posée est sans doute trop restrictive. En recherchant uniquement le mot le plus important (aviation) dans le titre, et l’autre (accidents ou accident) dans l’intégralité des pages, on obtient : • AlltheWeb : 42 771 résultats - title:aviation (accident accidents) • AltaVista : 12 406 résultats - title:aviation accident* • Google : 26 400 résultats - intitle:aviation accidents OR accident. Il est sans doute préférable de choisir cette option et de préciser encore ce que l’on souhaite. On notera toutefois que l’internaute qui ne connaît pas ces opérateurs ne peut effectuer cette recherche sur Google ni sur AltaVista. Sur Google en effet, la grille de recherche avancée permet bien de rechercher un ou plusieurs mots dans le titre, l’URL ou le texte des pages, mais il est impossible de lancer une requête avec un mot dans le titre ET un autre mot dans le texte de la page. Sur AltaVista, la grille de recherche avancée ne permet pas de limiter la requête au titre des pages. Quant à AlltheWeb, il faut ruser en choisissant deux options : - case Search for, choix Any of the words, accidents accident - et plus bas dans la grille, case Word Filters, choix Must include aviation In the title. LIMITER LA RECHERCHE SELON LE NOM DE DOMAINELa deuxième astuce que l’on peut utiliser est de limiter la recherche selon l’origine des résultats.D’une façon générale, les pages identifiées par un moteur de recherche peuvent en effet avoir plusieurs origines : sites commerciaux (sites d’entreprises...), pages personnelles, sites institutionnels... Or, cette origine peut être un gage de fiabilité. Dans notre cas, nous souhaitons identifier quelques documents de synthèse sur le sujet. La première démarche est donc de se poser la question : Y-a-t-il des sources spécifiques susceptibles d’offrir des documents de synthèse de qualité sur un tel sujet ? Plusieurs sources viennent immédiatement à l’esprit et, en particulier : - les institutions officielles, qui ont vraisemblablement réalisé de nombreux rapports sur la question ; - les universités, qui offrent souvent des publications scientifiques, documents de travail, etc. Certes, la presse spécialisée peut aussi être une source pertinente pour cette question. Mais l’identification des titres requiert une autre méthodogie, plus longue. Dans notre cas, nous cherchons à identifier rapidement quelques documents. Nous nous limiterons donc ici aux deux premiers types de sources. L’intérêt de ces deux types de sources est qu’elles disposent chacune d’un “top level domain” : .gov pour les sites gouvernementaux américains et .edu pour les universités américaines. L’astuce ici est donc de limiter la recherche aux pages dont le nom de domaine se termine par .gov ou .edu. Il faut pour cela utiliser l’opérateur site: pour AlltheWeb et Google et domain: pour AltaVista. On notera que ce dernier à deux opérateurs spécifiques : - domain: permet de limiter la requête selon le “top level domain” uniquement (fr, com, edu...), mais ne prend pas en compte d’éventuels sous-domaines (gouv.fr par exemple) ; - l’opérateur host: quant à lui permet de limiter la recherche à n’importe quelle partie du nom de domaine : fr, gouv.fr, industrie.gouv.fr, mais aussi industrie ou gouv. Quant à l’opérateur site:, utilisé par Google et AlltheWeb, il permet de limiter la requête à un “top level domain” (fr, com...), à un sous-domaine (gouv.fr), mais aussi à un site unique (www.industrie.gouv.fr). Sur les trois moteurs, la requête devra donc être : - AlltheWeb : title:aviation (accidents accident) (site:gov site:edu) : 859 résultats (ou, en mode Boolean expression : title:aviation and (accidents or accident) and (site:gov or site:edu) : 850 résultats - AltaVista (recherche avancée, mode “expression booléenne”) : title:aviation and (accidents or accident) and (domain:gov or domain:edu) : 886 résultats - Google (recherche simple) : intitle:aviation accidents OR accident site:gov OR site:edu : 2 360 résultats. Les résultats obtenus avec cette requête concernent bien le sujet, mais ne sont pas forcément des documents de synthèse. Pour identifier rapidement de tels documents, il existe une astuce : la recherche selon le type de fichier. LIMITER LA RECHERCHE SELON LE TYPE DE FICHIERParmi les tendances évolutives des moteurs de recherche, figure l’élargissement sans cesse croissant de leur couverture.Non contents d’augmenter considérablement le nombre de pages Web indexées, les moteurs se sont attaqués à d’autres types de fichiers. Google le premier a indexé les fichiers PDF, puis les fichiers Word, Excel, PowerPoint, etc. AlltheWeb a récemment suivi l’exemple et indexe désormais les fichiers PDF, Word et Flash. Quant à AltaVista, il limite son extension – pour le moment du moins – aux documents PDF. Pour certaines recherches, il peut être astucieux de limiter sa requête à des documents PDF ou Word. On trouve en effet parmi ces fichiers un pourcentage important de publications scientifiques, rapports de recherche, études, synthèses, etc. Certes, une telle limitation est bien sûr très restrictive, et laissera de côté quelques documents très pertinents présentés sous forme de pages html. Mais elle devrait permettre en revanche d’identifier rapidement des rapports et autres documents de synthèse. Pour limiter la requête selon le type de fichier, il faut utiliser l’opérateur filetype: sur Google et AlltheWeb, suivi de l’extension du fichier recherché. Sur Google, sont comprises les extensions pdf, doc (Word), xls (Excel), ppt (PowerPoint), ps (Postscript) et rtf (RTF). La requête sera donc (toujours dans la recherche simple) : intitle:aviation accidents OR accident site:gov OR site:edu filetype:pdf OR filetype:doc -> 527 résultats AlltheWeb pour sa part utilise uniquement pdf, msword (Word) et flash. La requête (en mode simple) sera : title:aviation (accidents accident) (site:gov site:edu) (filetype:pdf filetype:msword) -> 111 résultats Quant à AltaVista, il faut obligatoirement aller dans la recherche avancée avec la requête précédente et, dans le menu Type de fichier, préciser Seulement fichier pdf -> 44 résultats PRECISER LA QUESTION SELON LA DATEUne première analyse des résultats obtenus montre que ces derniers semblent tout à fait pertinents, mais quelquefois anciens.Il est donc important d’essayer de distinguer les plus récents. Pour cela, le plus simple est de partir du postulat que la grande majorité des rapports et autres documents de synthèse indiquent dans leur contenu la date de réalisation. Il suffit alors de rajouter à la requête la mention “2003 OR 2002 OR 2001” par exemple. Et l’on obtient : - Google (toujours dans la zone de recherche simple, sur la page d’accueil !) : intitle:aviation accidents OR accident site:gov OR site:edu filetype:pdf OR filetype:doc 2003 OR 2002 OR 2001 -> 255 résultats - AlltheWeb (recherche simple) : title:aviation (accidents accident) (site:gov site:edu) (filetype:pdf filetype:msword) (2003 2002 2001) -> 42 résultats - AltaVista (recherche avancée, requête booléenne, limitation aux fichiers PDF) : title:aviation and (accidents or accident) and (domain:gov or domain:edu) and (2003 or 2002 or 2001) : 27 documents. Les documents obtenus avec cette stratégie semblent bien répondre à la question. On trouve par exemple, sur la première page de résultats de Google : - un rapport de 45 pages de la NASA, de février 2003, sur le thème “Characterizing the severe turbulence environments associated with commercial aviation accidents” ; - un rapport de janvier 2003 de la Federal Aviation Administration, offrant sept pages de synthèse avec de nombreuses statistiques sur les “Causal factors of accidents and incidents attributed to human error” ; - un rapport de 20 pages, de février 2001, proposé par le NTIS sur le thème “A Human error analysis of commercial aviation accidents using the Human Factors Analysis and Classification System (HFACS)”, etc. Cet exemple de méthodologie illustre donc – du moins nous l’espérons – les richesses que l’on peut tirer des moteurs dès que l’on utilise leurs fonctions avancées. Mais on atteint ici les limites maximales de Google, dans la recherche simple. Si l’on ajoute un critère supplémentaire – par exemple OR 2000, à la fin de la requête pour élargir la sélection aux documents publiés en 2000 –, on obtient en effet le même nombre de résultats et l’on remarque une mention très discrète dans le haut de la page, sous la zone de saisie : 2000 et les mots qui le suivent ont été ignorées : les requêtes sont limitées à 10 mots. On regrette cette limitation, même si l’on peut penser que peu de netsurfers les dépassent, eu égard au fait que Google est extrêmement discret sur ses possibilités de recherche avancée. La rubrique Conseils de recherche est succincte et se contente d’inciter l’internaute à utiliser la grille de recherche avancée ; mais celle-ci ne permet pas de combiner les requêtes sur plusieurs champs. Aucune information n’est donnée sur les opérateurs et leur fonctionnement. La recherche avancée semble peu prise en considération par Google, et on le regrette. On saluera en revanche les efforts d’AlltheWeb sur ce point. Il ne semble pas limité dans le nombre de critères de recherche, et offre une rubrique Help extrêmement complète. Quant à AltaVista, après avoir été l’un des pionniers en matière de recherche avancée, le moins que l’on puisse dire est qu’elle n’est pas mise en avant sur son site. La page listant les opérateurs disponibles est bien cachée : il faut pour la trouver aller sur la grille de recherche avancée (qui est elle aussi cachée !) et cliquer sur le mot termes dans la phrase “Utilisez des termes tels que AND, OR, AND NOT, NEAR” qui figure face à la zone de saisie pour la requête booléenne... Des progrès restent encore à faire sur ce point ! Il serait bon que les moteurs en prennent conscience, car ils ont un rôle à jouer dans la sensibilisation des internautes à la recherche sur le Net ; ce sont en effet les acteurs les mieux placés pour inciter les netsurfers à enrichir la formulation de leurs requêtes, pour une meilleure efficacité. Et chacun y gagnera... * Pour saisir une requête booléenne sur AlltheWeb, il faut aller sur la grille de recherche avancée, et inscrire sa requête dans la case Boolean. Toutefois, on peut aussi paramétrer – une fois pour toutes – les configurations d’AlltheWeb (lien Customize Preferences, puis, dans le choix Search Type Display, cocher Menu et cliquer sur Save and Apply Settings) ; un menu déroulant est alors proposé dès l’écran d’accueil, et permet de choisir l’option Boolean expression (les autres choix étant All of the words, Any of the words et The exact phrase). TABLEAU COMPARATIF DES PRINCIPALES FONCTIONS DE RECHERCHE
AVANCEE SUR
|
|||||||||||||||||||||||||||||||||
| AlltheWeb |
AltaVista |
Google |
|
|---|---|---|---|
| Recherche sur le titre des pages
|
title:mot-clé | title:mot-clé | - intitle:mot-clé - allintitle:plusieurs mots-clés |
| Recherche sur l’URL |
url:mot-clé | url:mot-clé | - inurl:mot-clé, - allinurl:plusieurs mots-clés |
| Recherche
sur le nom de domaine |
site: (fr, gouv.fr, industrie.gouv.fr...) | - domain:
(top-level-domain) - host: (n’importe quel mot du nom de domaine) |
site: (fr, gouv.fr,
industrie.gouv.fr...) |
| Recherche par type de fichier
|
filetype: (pdf, msword, flash) | Recherche avancée choix : pdf et/ou html |
filetype:(pdf, doc, xls, ppt, ps,
rtf) |
| Recherche de mot(s) dans un lien
|
anchor:mot-clé |
inanchor:mot-clé,
allinanchor:plusieurs mots-clés |
|
| Recherche de pages pointant vers | link:url |
link:url | link:url |
| Recherche de pages similaires
|
ike:url | related:url |