Actualités
Agenda
Liens utiles
Netsource
Netsource - Sommaire en cours
Netsource - Anciens sommaires
Netsource - Recherche des archives
Revue Bases
Revue Bases - Sommaire en cours
Revue Bases - Anciens sommaires
Revue Bases - Recherche des archives
Ouvrages
Qui sommes-nous ?
Notre équipe

Netsources, Numéro de Mai-Juin 2001 - n°32


Google

des possibilités de recherche souvent inexploitées

Auteur : Béatrice Foenix-Riou

 
Avec ses temps de réponse très courts, son classement par popularité et son interface dépouillée – illustrée certains jours (Printemps, 14 juillet...) de quelques animaux farceurs –, Google a su rapidement conquérir les internautes.

On pouvait néanmoins lui reprocher le manque de puissance de ses possibilités de recherche, susceptible d’inciter même les “googlemaniaques” à interroger quelquefois des moteurs comme AltaVista, Northern Light ou All The Web pour limiter leurs requêtes au titre ou à l’URL des documents.

Pour le plus grand plaisir des netsurfers, Google a, ces derniers mois, considérablement amélioré son moteur, qui offre désormais des critères de sélection dignes des outils les plus performants.

La grille de recherche avancée, accessible depuis le lien Advanced Search, propose ainsi diverses fonctionnalités :

utilisation de l’opérateur OU, grâce au choix “Find results with any of the words” ; à l’origine, seul l’opérateur ET était utilisé implicitement par le moteur, mais l’on pouvait toutefois préciser sa question avec les symboles + et –

recherche de documents dans une langue spécifique ; la liste des langues disponibles s’est élargie de 11 à 26, et comprend aussi bien le français et l’anglais que l’estonien, le grec, l’hébreu, le hongrois ou le chinois. L’interface offre par ailleurs un nouveau service : la traduction des pages en anglais et en allemand vers le français (depuis www.google.fr) ou des pages en espagnol, allemand, français et portugais vers l’anglais (depuis ww.google.com). Devant chaque page de résultats, le lien [Traduire cette page] (ou [Translate this page] selon l’interface) permet d’obtenir une traduction automatique de la page identifiée. Les résultats sont quelquefois amusants !

limitation de la requête aux documents indexés depuis une période donnée. Offerte depuis la mi-juillet, cette option permet de rechercher les documents mis à jour au cours des trois derniers mois, des six derniers mois ou de l’année. On regrette qu’il soit impossible – pour le moment du moins – de rechercher les documents modifiés au cours de la période de son choix, comme le proposent Northern Light et AltaVista. On notera que cette fonctionnalité n’est disponible aujourd’hui que sur l’interface en anglais (www.google.com) ;

limitation de la recherche au titre ou à l’URL des pages Web. Cette fonctionnalité très intéressante, offerte par de nombreux moteurs, peut être utilisée depuis la grille de recherche avancée, ou directement depuis l’écran d’accueil, grâce aux opérateurs allintitle: ou intitle: pour la recherche sur le titre et allinurl: ou inurl: pour la recherche sur l’URL.

Plus précisément, lorsque l’on utilise l’opérateur allintitle:, Google recherche dans le titre le ou les termes de la question ; en revanche, intitle: ne recherchera dans le titre que le terme immédiatement accolé à l’opérateur (il ne doit pas y avoir d’espace entre l’opérateur et le mot).

Ainsi, allintitle:agents intelligents sélectionnera toutes pages contenant les mots agents et intelligents dans le titre, quand intitle:agents intelligents sélectionnera les pages ayant agents dans le titre et intelligents n’importe où dans la page. Les opérateurs allinurl: et inurl: fonctionnent sur les mêmes principes.

On constate que curieusement, la grille de recherche avancée permet des requêtes moins sophistiquées que la grille
simple (!), puisqu’elle offre comme seule possibilité la recherche d’un ou plusieurs mots sur le titre OU sur l’URL (dans la rubrique Occurrences, il faut choisir l’option  In the title of the page ou In the URL of the page).

Si l’on souhaite combiner les deux critères, ou rechercher les pages contenant à la fois un mot dans le texte et un terme dans l’URL, il faudra utiliser la zone de saisie de l’écran d’accueil, avec les opérateurs intitle: ou inurl:. Pour identifier par exemple les pages offrant des listes de liens sur les tramways, on pourra essayer la stratégie intitle:tramway inurl:links.

Bien évidemment, cette méthode ne permet pas d’obtenir des résultats exhaustifs, mais elle est efficace pour localiser rapidement des signets déjà réalisés sur un sujet, qui constitueront un bon point de départ pour approfondir une recherche (voir encadré).

limitation de la recherche à un site ou un domaine. Le  champ Domains de la grille de recherche avancée permet de limiter la requête aux pages d’un site ou d’un domaine particulier, ou au contraire d’exclure ces pages des résultats. Il suffit pour cela d’inscrire l’URL du site ou le domaine (.com, .gouv.fr...) que le moteur doit prendre en compte ou exclure.

La requête peut également être posée directement depuis l’écran d’accueil, en utilisant l’opérateur site:.

Pour retrouver par exemple les conditions d’admission à l’Université de Stanford, on peut utiliser comme stratégie (dès lors que l’on a identifié l’URL du site de l’université) admission site : www.stanford.edu ;

recherche d’images : depuis la fin du mois de juin, Google a rejoint le club des moteurs chercheurs d’images (auquel appartiennent déjà AltaVista, All The Web...) et permet désormais de retrouver spécifiquement des documents au format .gif ou .jpg (photos, graphiques, images...).

Cette fonctionnalité est disponible depuis la grille de recherche avancée de l’interface anglaise uniquement, ou directement depuis l’adresse images.google.com ; il faut toutefois s’assurer que l’interface sélectionnée dans les préférences est bien celle en anglais (http://images.google.com/ preferences).

Si Google offrait au départ un index de 100 millions d’images, celui-ci s’est considérablement enrichi puisqu’il recense 250 millions d’images à la fin du mois de juillet 2001. La requête se fait par mots, avec les mêmes fonctionnalités que pour la recherche de pages Web (utilisation de l’opérateur site: par exemple).

On peut par ailleurs limiter la sélection à certains formats de fichiers (.jpg ou .gif) en utilisant l’opérateur filetype: ou ext: (voir encadré). Pour offrir une réponse aussi pertinente que possible, Google analyse le texte des pages qui contiennent les images ainsi que les données propres à chaque illustration (titre...). Il rajoute à cela divers facteurs qui l’aident à déterminer le contenu des images. L’algorithme semble très efficace, car lors de nos tests, les résultats se sont avérés réellement pertinents.

Toutefois, si Google permet d’identifier aisément des pages Web enrichies de graphiques, il nous semble utile de rappeler que ces photos et autres illustrations ne sont pas exemptes de copyright !

Avec ces diverses fonctionnalités, auxquelles s’ajoutent encore l’identification des pages pointant vers une URL donnée et celle des pages similaires (voir encadré), la cote de popularité de Google risque d’atteindre des sommets vertigineux !



QUELQUES TRUCS ET ASTUCES POUR LA RECHERCHE SUR GOOGLE

Parmi les diverses fonctionnalités de Google, la recherche de pages “similaires” – baptisée à l’origine GoogleScout – compte parmi les plus originales.

Seule la version internationale d’AltaVista offre l’équivalent (fonction like:). Accessible depuis la grille de recherche avancée, directement en utilisant l’opérateur “related:”, ou encore à partir du lien “Pages similaires” (ou Similar pages) proposé à droite de chaque page identifiée dans une liste de résultats, cette fonction permet de localiser très vite des pages que Google juge “similaires” à l’URL indiquée. Ainsi, à la question “related:www.bnf.fr”, Google propose une liste de 21 réponses dont le site de la British Library, de la Biblioteca Nacional de Espana, de Libweb - Library WWW Servers, de la Bpi - Bibliothèque Publique d'Information, etc.

Bien sûr, les critères de “similarité” adoptés par Google semblent quelquefois étonnants, et les résultats ne correspondent pas toujours à la requête. De même, cette fonctionnalité ne permet pas d’identifier “tous” les sites similaires à un site donné. Mais avec un peu de chance, elle peut permettre de trouver rapidement  les concurrents d’une société, ou de localiser un portail de même type qu’un site que l’on aura apprécié.

La recherche sur l’URL peut également être utilisée de façon astucieuse.

En partant du principe que de nombreux signets ou bookmarks disponibles sur le Net contiennent le mot signet(s), bookmark(s), lien(s), link(s) ou encore resource(s) dans leur URL, on peut tenter d’identifier directement des signets sur un sujet en saisissant le terme de la recherche suivi de l’opérateur inurl:links.
Si l’on veut être exhaustif, il faudra relancer la recherche avec les différentes variantes (inurl:bookmark ; inurl:bookmarks, etc).

Là encore, cette recherche ne permet pas d’identifier tous les signets qui traitent d’un sujet ; mais elle peut permettre de localiser une liste de liens concernant sa question, sélectionnés pour leur intérêt par un passionné du domaine. Ceux-ci constitueront alors un excellent point de départ pour une investigation plus fouillée.

Non content d’offrir l’index de pages Web le plus important (celui d’All the Web arrivant en deuxième position), Google indexe, depuis le début de l’année, les fichiers au format PDF ; il permet désormais d’identifier ces documents du Web invisible, qui rassemblent notamment de nombreuses publications scientifiques et universitaires, ignorées des autres moteurs de recherche.

Ces documents sont identifiés dans la liste de résultats par la mention [PDF] devant leur titre. Google indexe leur contenu et les convertit en fichier texte, accessible depuis le lien [Version texte]. Si l’on possède le logiciel Acrobat Reader d’Adobe (téléchargeable gratuitement), il est cependant préférable de les visualiser au format PDF, qui conserve leur mise en page originale. Pour limiter sa recherche aux seuls documents PDF, on rajoutera, aux termes de sa requête, l’opérateur filetype:pdf (ou ext:pdf), sans espace entre l’opérateur, le symbole : et le mot pdf.

 

Version imprimable
BASES PUBLICATIONS
27, rue de la Vistule
75013 Paris
Tél. : 01.45.82.75.75
contact@bases-publications.com
Abonnez-vous   |   Contact   |   Mentions légales |   Crédits