
|
Netsources, Numéro de Janvier-Février 2002 - n°36 Guide pratique pour bien construire sa requête |
Auteur : Béatrice Foenix-Riou |
|||
|
Les divers sondages le prouvent : lorsqu’ils recherchent une
information, de trop nombreux internautes, souvent pressés par le
temps, se précipitent sur leur annuaire ou moteur favori (Google ou
Yahoo! par exemple) et saisissent un ou deux mots-clés
représentatifs de la question ; ils explorent ensuite avec soin —
mais avec plus ou moins de bonheur — la liste des résultats.
Il en résulte de nombreuses insatisfactions, le netsurfer pouvant, selon les sujets et les outils choisis, n’obtenir qu’une maigre liste de sites pertinents, ou au contraire être noyé sous un nombre impressionnant de pages sélectionnées. Pour aider nos lecteurs à optimiser leurs recherches sur le Web, nous leur proposons dans cet article — en avant-première et avec l’aimable autorisation des éditeurs — une adaptation pour Netsources du chapitre “Conseils et Méthodes pour une recherche efficace”, tiré de l’ouvrage “Guide de la Recherche sur Internet - Outils & Méthodes” (B. Foenix-Riou), qui doit paraître en avril prochain dans la Collection 128, coédité par Nathan Université et l’ADBS. 1. DEFINIR SA STRATEGIEPour ne pas être déçu par les outils de recherche, il est important de bien définir sa stratégie. Trop souvent en effet, le premier réflexe des internautes est de lancer une requête constituée d’un ou de plusieurs mots-clés reprenant grossièrement les termes de la question. Si cette stratégie a le mérite d’être rapide, elle est loin d’être efficace, même si elle fournit souvent quelques réponses pertinentes. Pour optimiser sa recherche sur le Net, une première phase de réflexion — devant une feuille de papier — est en effet nécessaire. Aussi rébarbative que soit cette pratique, réfléchir à ce que l’on recherche avant de se connecter permet indéniablement de gagner en efficacité. - Délimiter le champ de la questionPrendre le temps de catégoriser les informations que l’on souhaite obtenir permet d’attirer l’attention sur certains types de sources, qui devront être explorées avec un soin particulier. Le plus simple pour les identifier est de répondre à la question “Quels sont les types d’information que je recherche ?”. A partir des réponses retenues (statistiques, informations sur des entreprises, articles de presse, etc), on peut tenter de définir le type de sites ou de pages susceptibles de les offrir. Si l’on recherche par exemple des données chiffrées sur un marché, cette étape fait ressortir les sources qu’il faudra consulter en priorité : les sources officielles et associatives (ministères, syndicats, chambres de commerce…), souvent riches en statistiques, mais aussi la presse (généraliste ou spécialisée), dans laquelle il n’est pas rare de trouver des articles détaillés dressant un état de l’art. Les articles de presse se trouveront essentiellement sur les sites des titres de presse, mais aussi sur les grands agrégateurs (Pressed de L’Européenne de Données ; Europresse de Cedrom-SNI…), qui regroupent sur un site unique les archives de nombreux titres. Quant aux ministères, associations et organismes du domaine, susceptibles d’offrir des statistiques en accès libre, la probabilité est forte qu’ils aient chacun leur site Web. Cette première phase permet ainsi d’identifier plusieurs types d’information, et contraint dans tous les cas l’internaute à préciser sa question ; chaque piste doit être ensuite soigneusement explorée, avec les outils de recherche appropriés. - Choisir les outils de recherche à interrogerAprès avoir précisé ce que l’on souhaite obtenir, et identifié des types de sources susceptibles de répondre, il reste à choisir l’outil que l’on va utiliser ou plutôt, dans une première étape, la grande famille d’outils — annuaire ou moteur de recherche — qui sera la mieux adaptée à sa problématique. Pour cela, il faut se poser la question “Peut-il exister sur le Web des sites spécialisés sur le sujet de ma recherche ?”. Lorsque la réponse est oui, on peut débuter ses tests avec un annuaire. Dans le cas contraire, il est conseillé d’utiliser un moteur de recherche. La typologie des sources susceptibles de répondre à la question simplifie donc notablement le choix de la famille d’outils. Pour identifier les sites (sites des acteurs du domaine, sites des titres de presse…), c’est un annuaire tel que Yahoo! qu’il faut interroger. Lorsque l’on recherche des pages (pages de statistiques…), on peut tenter sa chance avec un moteur comme Google. Fréquemment cependant, la réflexion sur les types d’informations recherchés met en évidence le fait que pour un traitement complet de la question, il est nécessaire d’utiliser plusieurs familles d’outils. Dans notre exemple, une recherche avec Google pourra permettre d’identifier quelques pages de statistiques pertinentes issues de sites officiels ; les articles de presse en revanche seront rarement indexés, car ils appartiennent pour la plupart au Web invisible (ce sont le plus souvent des pages dynamiques accessibles via un moteur de recherche interne). Pour tirer parti de cette source spécifique, il faudra donc interroger un annuaire pour localiser les sites des titres de presse, puis faire une recherche sur chacun d’entre eux. - Trouver les “bons” mots-clésAprès avoir sélectionné un ou plusieurs outils de recherche, il reste encore une étape dans la préparation de la stratégie : le choix des mots-clés. La première règle à suivre est de choisir des mots-clés adaptés à l’outil que l’on interroge. Si l’on débute ses tests avec un annuaire, il faut utiliser des mots-clés généraux, qui définissent le domaine de la recherche : informatique, énergie, presse… Ces mots-clés permettent d’identifier les catégories et les sites qui couvrent les différents aspects du sujet ; selon le nombre de réponses, on peut alors relancer une recherche par mot(s) dans une catégorie spécifique, ou consulter la liste de sites indexés. Sur un moteur en revanche, il faut choisir des mots-clés “pointus”, qui précisent la question autant que faire se peut. Comme la requête est lancée sur le texte intégral des pages Web, il faut de préférence employer plusieurs mots-clés. Si l’on recherche par exemple des statistiques sur le taux d’équipement des ménages français en matériel informatique, on peut utiliser avec un moteur l’ensemble des termes +équipement +ménages +ordinateurs +France +taux. En fonction du nombre de pages obtenues, on peut ensuite ajouter des mots-clés (si le nombre de réponses est trop important) ou au contraire en supprimer. Sur un annuaire, on pourra tenter d’identifier les sites spécialisés sur les statistiques, susceptibles de couvrir l’informatique (mot-clé statistiques), ou encore les sites des titres de la presse informatique, qui peuvent offrir des articles sur le sujet (mots-clés +presse +informatique). Après cette étape de préparation, l’internaute a théoriquement défini les sources d’information les mieux à même de répondre, sélectionné les outils qu’il va interroger et choisi pour chacun un certain nombre de mots-clés adaptés. Il peut alors se connecter à l’Internet … 2. VERIFIER LA FORMULATIONUne fois les sources identifiées, les outils de recherche sélectionnés et les mots-clés choisis, on pourrait penser qu’il ne reste plus au netsurfer qu’à inscrire les termes dans la zone de saisie et à cliquer sur Recherche pour obtenir une liste de réponses pertinentes… Ce serait trop simple ! Annuaires et moteurs utilisent en effet des langages d’interrogation qui peuvent être différents, et la stratégie de recherche se doit de respecter un certain nombre de règles. - Les guillemetsIl est fréquent d’avoir à rechercher sur le Net un mot composé, une expression ou un nom propre, voire une citation dont on souhaite identifier l’auteur (voir Netsources n°34). Le premier réflexe de nombreux internautes est de saisir les termes de la requête à la suite, sans autre précision. Le second réflexe est alors souvent de pousser un soupir de découragement devant le nombre de réponses non pertinentes ! Sur la plupart des moteurs en effet, une recherche sur l’expression part de marché, saisie sans indication particulière, revient à sélectionner les pages qui contiennent les mots part et marché dans le texte — le de est généralement compris comme un mot vide et n’est pas pris en compte —, sans que les termes soient forcément côte à côte, ni d’ailleurs dans le même ordre. Les résultats contiennent donc un bruit important. Pour éviter ce bruit, il est impératif d’utiliser "les guillemets". Lorsque l’on encadre l’expression recherchée de guillemets (sans espace entre le symbole et le mot), on lance la requête non plus sur les mots mais sur l’expression telle qu’elle est écrite. Seules sont sélectionnées les pages qui contiennent tous les termes, côte à côte, dans le même ordre… On notera qu’à de rares exceptions près, les outils de recherche comprennent les guillemets dans leur syntaxe d’interrogation pour lancer la requête sur une expression. - Les opérateurs booléensPour de nombreuses recherches, il est nécessaire d’utiliser plusieurs mots-clés pour préciser sa question et réduire le nombre de réponses non pertinentes. Mais une requête lancée avec deux termes n’est pas interprétée de la même façon par tous les outils de recherche. Certains moteurs, comme Google, utilisent l’opérateur ET par défaut. Dans ce cas, si la question comprend plusieurs mots-clés (traitement "eaux usées" par exemple), le moteur ne sélectionne que les pages qui contiennent tous les termes. D’autres outils en revanche emploient un OU implicite (ce fut longtemps le cas d’AltaVista, qui vient tout juste de changer sa syntaxe d’interrogation — on s’en félicite —, en remplaçant le OU par un ET implicite). La même requête sélectionne alors les pages qui comportent les deux termes, mais aussi celles qui contiennent l’un OU l’autre des mots-clés. Une astuce permet heureusement aux internautes pressés de préciser leur question, sans passer par l’étape fastidieuse — mais pourtant utile — de la lecture de l’aide en ligne. Il suffit pour cela d’utiliser systématiquement le symbole +, qui est compris par la grande majorité des outils de recherche. Ce symbole, qui doit être placé immédiatement devant chaque mot — y compris le premier, ex.: +traitement +“eaux usées”—, sans espace entre le signe et le mot, signifie que l’on demande la présence impérative des termes dans les pages sélectionnées. Google fait exception à cette règle : sur ce moteur, le + saisi devant le mot signifie que ce dernier doit être recherché strictement tel qu’il est écrit, en tenant compte des accents et autres signes diacritiques. Une différence qui a son importance ! Sur le même principe que le +, le symbole – permet quant à lui de demander l’absence impérative d’un terme, ce qui est utile quand un mot a plusieurs sens (ex.: +Apple –fruit –recipe). Cette fois-ci, Google ne fait pas exception. - Les caractères accentuésContrairement à l’anglais, langue majoritaire sur le Web, le français est une langue riche en accents… Or, les outils de recherche n’ont pas tous la même interprétation des caractères accentués. D’une façon générale en effet, les moteurs et annuaires peuvent avoir trois types de comportement face aux accents : - certains outils, comme Nomade, Voila ou Northern Light, y sont insensibles. Une recherche sur un mot écrit avec ou sans accentuation donnera les mêmes résultats ; - d’autres, comme AltaVista ou Yahoo!, ont un comportement variable : si le mot est saisi sans accents, toutes les occurrences du mot sont recherchées (avec et sans les accents) ; en revanche, si le terme de la requête est accentué, seuls les mots accentués seront sélectionnés ; - certains outils enfin, comme l’Open Directory, All The Web, Lycos ou HotBot, recherchent uniquement les occurrences exactes du mot, tel qu’il a été écrit par l’utilisateur. Ces différentes politiques ne simplifient pas la tâche de l’internaute. S’il écrit ses mots-clés sans accentuation, il sélectionnera tous les résultats identifiés par les deux premières familles d’outils, mais il obtiendra très peu de réponses avec ceux qui recherchent l’occurrence exacte des mots. Si en revanche les mots sont écrits avec leurs accents, il obtiendra théoriquement davantage de résultats des outils de recherche, mais il n’identifiera que les pages dont les mots sont bien orthographiés ; cela, bien sûr, à la condition que les termes de la requête eux-mêmes soient correctement accentués. Pour une recherche exhaustive, il est donc prudent de comparer les résultats obtenus à partir de mots-clés saisis avec et sans accents. Les recherches sur les termes écrits avec et sans majuscules relèvent du même principe ; une politique est cependant choisie par une majorité d’outils : l’insensibilité à la casse ; les mots saisis avec ou sans majuscules donnent alors les mêmes résultats. - La troncaturePeu de netsurfers ont pleinement conscience que les mots-clés qu’ils utilisent ne sont pas interprétés de la même façon par tous les outils. Certains en effet, tels Yahoo!, Nomade ou Northern Light, vont rechercher automatiquement les formes singulier et pluriel du mot, alors que d’autres, comme Google, l’Open Directory ou AltaVista, rechercheront les occurrences exactes du mot saisi. Dans ce cas, il faut penser à comparer les résultats obtenus en écrivant le mot au singulier, puis au pluriel. Pour simplifier la requête, des outils comme AltaVista, Northern Light, Yahoo!, l’Open Directory ou Nomade permettent d’utiliser une troncature. Si l’on écrit le symbole * à la fin d’un mot, l’outil sélectionne les pages (ou les descriptions de sites) qui contiennent les différentes variantes (singulier/pluriel) du mot ; on peut aussi utiliser la troncature pour retrouver tous les mots commençant par une chaîne de caractères (trois lettres minimum). Certains outils cependant ne comprennent pas la troncature ; si Voila affiche systématiquement un résultat égal à 0 lorsqu’un mot se termine par *, Google ou All The Web pour leur part ne “lisent” pas le symbole et donnent les résultats d’une recherche stricte sur la chaîne de caractères qui le précède, ce qui est source d’erreurs (on peut croire que la troncature est comprise). 3. PRECISER LA QUESTIONRespecter ces deux premières étapes améliore indiscutablement la pertinence des résultats. Mais, eu égard à la taille toujours croissante des index des moteurs, le nombre de réponses reste quelquefois trop important. Là encore, certaines astuces peuvent être adoptées pour affiner la requête, et obtenir un nombre de réponses “gérable”... - La recherche sur le titre des pagesUne solution efficace pour affiner le nombre de réponses consiste à limiter la requête aux titres des documents. Le titre d’une page Web est censé décrire de façon précise son contenu. C’est ce titre qui constitue souvent la première ligne de chaque résultat lors d’une recherche avec un moteur. C’est également ce titre, choisi par le webmaster, qui s’inscrit lorsque l’on enregistre une page dans ses favoris. Limiter une recherche aux titres des documents revient donc à restreindre sa sélection aux pages spécialisées sur le sujet. Le nombre de résultats est alors bien moins important et chaque page identifiée a une probabilité plus forte d’être pertinente. Cette fonctionnalité est proposée par la grande majorité des moteurs. Pour l’utiliser depuis la grille de recherche simple, il suffit le plus souvent de saisir l’opérateur “title:” (ou “intitle:” pour Google), directement devant le terme de la requête, sans espace entre l’opérateur, le symbole « : » et le mot. Des moteurs comme Google, AltaVista, All The Web, Voila, Northern Light ou Lycos comprennent une telle requête. On peut bien sûr rechercher une expression sur le titre ; la requête title:"agents intelligents" par exemple identifie sur AltaVista les pages qui contiennent l’expression “agents intelligents” dans leur titre. Lorsque l’on souhaite rechercher une expression dans le titre, il est d’ailleurs impératif d’écrire les termes “entre guillemets” ; sans quoi, le moteur recherchera le premier mot dans le titre et le second n’importe où dans la page. Si l’on souhaite que deux mots ou expressions soient recherchés dans le titre, sans être forcément côte à côte, il faut accoler à chacun l’opérateur title:, sans espace entre l’opérateur et le mot, mais avec un espace entre chaque ensemble opérateur:mot. On saisira par exemple +title:“agents intelligents” +title:commerce. Google fait preuve d’une grande sophistication et propose, en complément de intitle:, un opérateur allintitle:, qui signifie que tous les termes situés après lui devront être recherchés dans le titre ; il suffira donc de saisir allintitle:“agents intelligents” commerce (on notera que cette recherche dans Google sélectionne 28 pages, contre 5 250 sans l’opérateur allintitle:). En règle générale, cette fonctionnalité est également proposée sur l’interface de recherche avancée, le plus souvent par le biais de menus déroulants. Mais les grilles de recherche avancée (notamment celle de Google) ne permettent pas toujours de combiner les critères, et de rechercher par exemple un mot dans la page et un mot dans le titre. - La recherche sur le domaine / le site / l’URLLes moteurs de recherche offrent plusieurs astuces pour limiter la requête à l’URL ou à une partie de l’URL d’une page. Ils permettent ainsi d’affiner les résultats en sélectionnant uniquement les sites d’un domaine particulier, les pages hébergées sur un site donné, ou encore les pages contenant un mot dans l’intitulé de leur URL. Quelques moteurs — comme Google ou AltaVista — disposent de deux, voire de trois opérateurs complémentaires. Le premier permet de restreindre la recherche à un site donné (www.industrie.gouv.fr par exemple) ou aux sites d’un domaine particulier (gouv.fr, edu, com, etc.). C’est l’opérateur site: sur Google et, selon la question, host: (pour le site) ou domain: (pour le domaine) sur AltaVista. Si l’on recherche par exemple des statistiques officielles sur l’énergie nucléaire, il est utile de pouvoir circonscrire la requête aux sites gouvernementaux français (gouv.fr). Sur Google, il faut pour cela rajouter aux termes de la question l’indication site:gouv.fr, sans espace entre l’opérateur site, le symbole « : » et le domaine. La formulation sera donc : statistiques “énergie nucléaire” site:gouv.fr. On notera que les opérateurs site:, host: ou domain: ne peuvent être employés seuls. Ils sont obligatoirement utilisés en complément d’une recherche par mots-clés (sur le titre ou sur la page). All The Web pour sa part offre cette possibilité dans sa grille de recherche avancée ; la zone de saisie Domain filter permet de filtrer les résultats en incluant ou en excluant les pages d’un domaine donné (com, gouv.fr ou www.industrie.gouv.fr par exemple). Un deuxième opérateur, proposé cette fois par de nombreux annuaires et moteurs, offre quant à lui la possibilité de rechercher un mot dans l’URL complète des pages, et non plus seulement dans leur nom de domaine. Cette fonctionnalité permet de retrouver plus facilement les pages d’un site dédiées à un thème spécifique, ou tout simplement les différents sites d’une entreprise, si l’on ne connaît pas leur nom de domaine (exemple sur Google : inurl:pechiney). Cette recherche sur l’URL peut être lancée indépendamment d’une requête par mots-clés sur une page. Si Google utilise l’opérateur inurl: (et allinurl:), de nombreux outils (AltaVista, Voila, HotBot, Northern Light…) lui préfèrent l’opérateur url:. All The Web propose cette fonctionnalité par le biais de menus déroulants, depuis sa grille de recherche avancée. - La recherche par type de documentsDepuis la fin de l’année 2001, Google a largement étoffé la gamme des fichiers qu’il indexe, et prend en compte désormais, en plus des pages html et des fichiers PDF, les fichiers Word, Excel, PowerPoint, RTF et Postcript (voir Netsources n°35). Ces documents peuvent être retrouvés via l’interface générale du moteur, et se distinguent des pages html par les mentions respectives [PDF], [DOC], [XLS], [PPT], [RTF], [PS] à gauche du titre. Il est possible de limiter la requête à ces documents spécifiques en ajoutant aux termes de sa recherche, l’opérateur filetype: directement suivi du code de chaque type de fichier : - filetype:pdf pour les fichiers PDF ; - filetype:doc pour les fichiers Word ; - filetype:xls pour les fichiers Excel ; - filetype:ppt pour les fichiers PowerPoint ; - filetype:rtf pour les fichiers RTF; - filetype:ps pour les fichiers PostScript. Limiter la requête à des fichiers PDF par exemple peut s’avérer judicieux, car on trouve dans ces documents un grand nombre de rapports de chercheurs ou de publications scientifiques. Cette fonctionnalité peut bien sûr être combinée avec les autres. Si l’on souhaite par exemple identifier rapidement quelques documents pertinents concernant les travaux (études, analyses...) réalisés dans les universités américaines sur le commerce électronique, on peut utiliser comme stratégie sur Google (dans la recherche simple) : intitle:ecommerce site:edu filetype:pdf. On obtient 35 documents, qui sont pour la plupart des documents de fond sur le sujet. 4. IDENTIFIER D’AUTRES RESSOURCESLorsque les divers filtres cités ne permettent pas de réduire suffisamment le nombre de réponses, il faut tenter d’identifier un autre type de ressources que les pages Web. Les moteurs offrent deux options complémentaires. - La recherche de pages de liensLa première consiste à identifier des pages de liens. Réalisées le plus souvent par des organismes à but non lucratif, des experts ou des passionnés d’un domaine, ces ressources se composent souvent de quelques pages Web offrant un très grand nombre de liens, sur des sujets qui peuvent être généraux ou au contraire extrêmement précis. Mais les signets sont rarement visibles dans les annuaires généralistes : ce sont en effet souvent des pages personnelles — mal référencées — ou des rubriques à l’intérieur d’un site, difficilement décelables sur un annuaire. Et si elles sont le plus souvent indexées par un moteur, rien ne les distingue des autres pages. Il existe heureusement pour les identifier certaines astuces, qui ne permettent en aucun cas un recensement exhaustif, mais qui s’avèrent utiles pour localiser quelques bases de départ, afin de poursuivre son investigation depuis une sélection validée. L’une de ces astuces consiste à tirer parti du fait que de nombreuses pages de liens contiennent l’un des mots suivants dans leur URL : signet(s), bookmark(s), lien(s), link(s) ou encore resource(s). On peut alors tenter de les identifier en utilisant l’un des moteurs de recherche qui possèdent comme critère de sélection la limitation de la requête à l’URL des pages. On citera notamment Google, Voila, All The Web, AltaVista, Northern Light et HotBot. Avec Google par exemple, la recherche doit se faire dès l’écran d’accueil, en ajoutant aux termes de la requête l’opérateur inurl: directement suivi du mot liens (ou link, bookmark…). Ex. : "agents intelligents" inurl:liens. L’opérateur OR (en majuscules) peut également être utilisé ici : "agents intelligents" inurl:liens OR inurl:lien OR inurl:bookmark OR … Les possibilités de recherche avancée d’AltaVista sont adaptées à ce type de requête, puisque le moteur comprend les opérateurs booléens mais aussi la troncature. On peut donc, sur la grille de recherche avancée, inscrire dans la zone Requête la stratégie "agents intelligents" AND url:(lien* OR link* OR bookmark* OR signet*…). Cette démarche sera particulièrement recommandée pour les questions qui n’obtiennent que peu de réponses dans un annuaire, et qui génèrent au contraire trop de résultats dans un moteur. - La recherche de sites similairesLa recherche de sites similaires peut être tentée avec Google et AltaVista. Sur la base d’algorithmes soigneusement cachés, ces moteurs permettent en effet d’identifier très facilement quelques sites “similaires” à une URL donnée. Si l’on connaît un site pertinent sur un sujet, on peut toujours chercher s’il en existe d’autres sur le même thème. La requête est simple ; il suffit d’utiliser l’opérateur like: sur AltaVista et related: sur Google, directement suivi de l’URL du site. On obtient une sélection d’autres sites de même type. Cette astuce est très utile, par exemple, pour identifier rapidement les concurrents d’un site donné. Les résultats ne sont pas toujours pertinents, mais quelquefois, la réponse peut s’avérer remarquable. La requête like:www.bnf.fr sur AltaVista identifie ainsi les sites British Library, BPI, Biblioteca Nacional de Espana... En conclusion, les moteurs de recherche disposent aujourd’hui d’un certain nombre de paramètres pour affiner sa question. Mais lorsque ces astuces ne suffisent pas, il ne sert à rien de s’obstiner en testant de multiples mots-clés. Il est quelquefois préférable de changer de famille d’outils et d’interroger un annuaire (généraliste, sélectif ou thématique), pour identifier les sites (et non les pages) spécialisés sur le sujet.
|
||||