Netsources, Numéro de Janvier-Février 2005 - n°54


Google toujours...

Décidément, Google est entré dans une phase de développement qui semble ne pas avoir de limites. Dans le dernier numéro de Netsources, nous avions ainsi décrit les dernières nouveautés lancées par le moteur, à savoir Google Suggest, Google Desktop Search, Google Scholar et Google Print.
Au regard de cette actualité pour le moins foisonnante, on pouvait penser que Google allait se reposer quelques temps....

Auteur : Béatrice Foenix-Riou

C’est mal connaître les responsables de ce moteur qui, outre le lancement de Google Video et le recul des limites en matières de mots de recherche, ont multiplié les annonces depuis le début de l’année ...

GOOGLE MAPS : L'AMERIQUE CARTOGRAPHIEE...


Pour les amoureux des cartes, Google a lancé le 8 février en version bêta dans ses laboratoires le nouveau service Google Maps (http://maps.google.com), qui propose des cartes routières et des calculs d’itinéraires mais qui est limité, pour le moment du moins, aux Etats-Unis et au Canada.

Avec une interface extrêmement séduisante et intuitive, ce nouvel outil permet – comme Google Local (voir Netsources n°52), qu’il utilise d’ailleurs –, de localiser des services dans une ville, que ce soient des pizzerias à San Francisco ou des hôpitaux à Montreal.
De petits curseurs sur la gauche proposent de changer  très simplement l’échelle de la carte, ou d’afficher les parties adjacentes au nord, au sud, à l’est ou à l’ouest. Mais Google Maps propose également, à l’instar de services comme Mappy ou Via Michelin, de calculer un itinéraire entre deux points.

Il affiche alors une carte très détaillée sur laquelle est tracé l’itinéraire avec, dans une colonne sur la droite, le détail des directions à suivre pour arriver à bon port. Pour couronner le tout on peut, pour chacune des indications, afficher dans une fenêtre pop-up un gros plan du tournant ou du croisement qu’il faut prendre...

On attend avec impatience une couverture européenne...

GOOGLE IMAGES ETOFFE SON INDEX


Le dernier numéro de Netsources signalait la montée en puissance, en octobre, de l’index d’images de Yahoo!, qui annonçait plus d’un milliard de documents.

Comme à son habitude, Google n’a guère attendu pour riposter. La page d’accueil de Google Images signale que désormais, la recherche se fait sur plus d’1,1 milliard d’images (sur 1 187 630 000 images exactement), alors qu’elle indiquait 880 millions depuis près d’un an.

En fait, cette augmentation rapide n’est pas étonnante, puisque la dernière “mise à jour” du compteur datait de février 2004. On était alors passé de 425 à 880 millions d’images ... juste au lendemain du lancement de Yahoo! Search Technology. Mais là encore, il s’agissait sûrement d’un hasard...

QUAND GOOGLE NE SAIT PLUS COMPTER

Dans son blog Technologies du Langage, Jean Véronis nous a livré ces derniers jours quelques chroniques passionnantes sur des bizarreries repérées sur Google et sur les interprétations qu’il en donne.

Deux points étranges ont ainsi été mis en évidence et notamment :

- des résultats aléatoires lors de l’utilisation des opérateurs OR, AND et NOT (symbole –).
A titre d’exemple, si la requête "Chirac" obtient environ 3 470 000 pages (nous avons réactualisé les chiffres), quand "Sarkozy" en obtient 661 000, la stratégie "Chirac OR Sarkozy" affiche "environ 1 500 000 pages" !

Etranges également sont les résultats suivants :
Chirac AND Sarkozy : 154 000 résultats
Chirac –Sarkozy : 1 830 000 résultats
–Chirac Sarkozy : 288 000 résultats
Total des trois requêtes : 2 272 000 réponses. Or, selon la logique booléenne, le total devrait être égal à celui de la requête "Chirac OR Sarkozy", c'est-à-dire 1 420 000 pages...

- des résultats contradictoires lors de l’utilisation de l’index international vs les index en français et en anglais
Jean Véronis s’est également étonné des réponses “aberrantes” de Google lorsque l’on compare les résultats de requêtes lancées sur l’index international (depuis google.com) et sur l’index de pages en anglais (sélection de la langue depuis la grille de recherche avancée).

Ainsi, une requête avec le mot “the” obtient  8 milliards de pages sur l’index international et 87,4 millions de pages sur l’index en anglais, ce qui laisserait supposer que 99 % des occurrences de the se situent dans des pages autres qu’en anglais ! Certes, les résultats sur un tel mot ne sont pas révélateurs (ils peuvent être considérés comme “vides” par le moteur), mais les deux chiffres laissent perplexes !

Jean Véronis a donc tenté de comprendre ce phénomène en répétant ces tests sur 50 mots en anglais, choisis cette fois parmi des mots bien moins courants que the et n’ayant pas d’homographes dans une autre langue.

Il a ensuite utilisé des méthodes statistiques (droite de régression linéaire, coefficient de détermination R2...) pour vérifier la pertinence des résultats. Il s’est avéré alors que les résultats des requêtes (en anglais) sur l’index des pages en anglais représentaient 56 % seulement des résultats des mêmes recherches sur l’ensemble du Web (les mêmes tests concluent à une proportion de 92 % sur Yahoo!, ce qui est bien plus logique).

Les tests sur 50 mots en français ont donné des résultats similaires (58 % sur Google et 97 % sur Yahoo!)

Pour expliquer ce phénomène, Jean Véronis suggère un scénario qui semble tout à fait plausible.

Comme nous l’avons déjà expliqué dans Netsources, de nombreux experts pensent aujourd’hui que Google prend en compte dans ses résultats les URLs de pages qu’il n’a pas encore indexées. On reconnaît ces dernières dans la liste des résultats, au fait que contrairement aux autres, seul le titre est indiqué. Il n’y a ni extrait pertinent, ni URL, ni indication sur la taille de la page, ni version Cache.

Sur son site Search Engine Showdown (www.searchengineshowdown.com), Greg Notess estime ainsi qu’en 2002, sur les 2 milliards de pages Web de l’index de Google, 25 % n’étaient pas indexées.

Partant de ce postulat, l’hypothèse de Jean Véronis est la suivante : lorsque l’on interroge Google avec un simple mot-clé, sans limitation de langue, le moteur interroge sa base de pages totalement indexées et extrapole les résultats, pour tenir compte du nombre de pages non encore indexées. Lorsqu’une langue est précisée, il ne fait pas d’extrapolation.

Selon ce scénario,  Google n’indexerait que 60 % du nombre total de pages qu’il annonce et le nombre de résultats indiqué serait affecté d’un facteur d’inflation de 66 %.

Ce scénario hypothétique fournit également une explication au problème de la logique booléenne illogique...
En effet, une requête sur Google avec X OR X ou avec X (AND) X donne presque systématiquement moins de résultats qu’avec le mot X seul, et ces résultats sont pratiquement les mêmes que lorsque X est cherché sur les seules pages en anglais (si X est en anglais bien sûr).

Il est donc probable que, dès lors que la requête contient des opérateurs booléens (OR, AND (implicite) ou –), Google interroge son index de pages réellement indexées sans faire d’extrapolation.

En conclusion, si l’on souhaite connaître le nombre réel de pages pertinentes indexées par Google, il peut être sage de saisir deux fois le mot (et donc d’utiliser un AND implicite). Ainsi, Chirac Chirac obtient 1 800 000 pages, quand Chirac en obtient 3 470 000 * ...

*ndlr : On notera toutefois que des tests similaires menés avec des mots "obscurs" (qui obtiennent peu de réponses sur Google), tels que "élasticimétrie" et "saccharimétrie" (à écrire obligatoirement avec les accents), obtiennent des résultats tout à fait cohérents, avec ou sans opérateurs booléens... Peut-être Google n’applique-t-il pas les mêmes règles selon le nombre de résultats, comme il le fait déjà pour ce qui concerne la prise en compte ou non des accents (voir Netsources n°49).

“Web : le mystère des pages manquantes de Google résolu”
http://aixtal.blogspot.com