|
Netsources, Numéro de Mai-Juin 2003 - n°44 Google : quand les "data centers" n'en font qu'à leur tête... |
Auteur : Béatrice Foenix-Riou |
|
Si Google est l’outil de recherche favori des internautes, ce n’est
pas sans raison.
Sa page d’accueil sobre et claire, qui nous surprend régulièrement par la présence de petits animaux farceurs ou qui s’égaye d’illustrations pour un anniversaire, a un je ne sais quoi de familier qui rend le moteur sympathique. La zone de saisie de la requête, en plein centre de l’écran, sans fioritures ni publicités autour, simplifie cette étape et laisse croire à l’utilisateur que tout est simple dans la recherche d’information. La présentation des résultats est d’une clarté remarquable. Le titre est parfaite-ment lisible, l’extrait est relativement complet – sa lecture suffit le plus souvent pour savoir si la page est pertinente ou non – et pour chaque document, on dispose notamment du très utile lien En cache, qui affiche la dernière version de la page enregistrée par Google, avec les mots de la requête en surbrillance. Le classement des résultats enfin, effectué selon la technologie PageRank, n’est pas étranger au succès de Google. Il met en évidence les sites les plus importants sur le sujet et, si les sites récents ou très spécialisés – vers lesquels pointent peu de liens – sont défavorisés par ce principe, cela ne semble pas gêner les internautes... A ces multiples qualités s’ajoutent des possibilités de recherche honnêtes : il est possible d’utiliser les opérateurs AND (par défaut), OR (écrit obligatoirement en majuscules) et AND NOT (symbole – devant le mot, sans espace entre le – et le mot), de limiter la recherche au titre, à l’URL, aux pages d’un site ou aux sites d’un domaine, ou encore à certains types de fichiers. Certes, la troncature fait cruellement défaut, mais certaines astuces permettent de s’en passer... Bref, les qualités incontestables de Google font que malgré ses défauts – non moins incontestables –, les internautes ne se lassent pas de ce moteur, qui conserve sa place dominante sur le marché... Reste que, depuis quelques semaines, certaines choses clochent au royaume de Google. QUAND LES OPERATEURS S'EMMELENTDès que l’on veut affiner sa requête sur un moteur, il est utile de restreindre le champ de la recherche aux titres des pages voire, pour certaines questions, de combiner la recherche d’un mot dans le titre et d’un autre mot dans le texte de la page (on en trouvera une illustration dans l’article “Comment utiliser au mieux les fonctions avancées des moteurs”, Netsources n°43). Pour certaines requêtes particulières, comme l’identification de pages de liens, il est d’autre part nécessaire de combiner la recherche d’un mot dans la page (ou dans le titre) et d’un autre mot dans l’URL. Les moteurs de recherche offrent généralement pour ce type de requêtes des opérateurs spécifiques ; sur AlltheWeb et AltaVista par exemple, on peut limiter la recherche au titre et/ou à l’URL des pages en écrivant respectivement title: et/ou url: juste devant le(s) mot(s) de la requête. Google quant à lui va plus loin en offrant deux opérateurs complémentaires : intitle: et allintitle: pour la recherche sur le titre ; inurl: et allinurl: pour la recherche sur l’URL. Ces deux opérateurs permettent de rechercher un mot (pour intitle: et inurl:) ou tous les mots qui suivent (allintitle: et allinurl:) dans le titre ou dans l’URL. Ces sophistications, très peu mises en avant par le moteur – seul le site en anglais explique le fonctionnement de ces opérateurs dans la rubrique d’aide (www.google.com/help/operators.html) – permettent, paradoxe amusant, de faire des recherches plus sophistiquées depuis la simple zone de saisie de l’écran d’accueil que sur la grille de recherche avancée ! Il est en effet impossible sur cette grille de combiner la recherche sur plusieurs champs (un mot dans le titre et un dans la page...). Depuis quelques semaines cependant, ces différents opérateurs semblent fonctionner bizarrement. On en jugera d’après ces quelques tests. Lorsque la recherche que l’on effectue porte sur un seul mot et que le nombre de résultats n’est pas “trop élevé”, tout semble fonctionner correctement : • une requête avec rhynchonelle identifie 50 pages, quand intitle:rhynchonelle comme allintitle:rhynchonelle en sélectionnent 3 (toutes pertinentes) ; inurl:rhynchonelle et allinurl:rhynchonelle obtiennent pour leur part 2 réponses ; • on obtient 4 220 pages avec une requête sur locarn ; intitle:locarn et allintitle:locarn identifient 342 pages ; inurl:locarn et allinurl:locarn obtiennent 91 résultats ; • 214 000 pages contiennent le mot abondance ; intitle:abondance et allintitle:abondance sélectionnent 5 220 pages ; inurl:abondance et allinurl:abondance en sélectionnent 4 780. Ces requêtes, effectuées plusieurs fois par jour pendant plusieurs jours, ont donné des résultats qui variaient de quelques dizaines de pages selon les heures et les jours, mais qui restaient “logiques”. Pour d’autres mots en revanche, le nombre de résultats peut varier du simple au double selon les heures, mais surtout, les résultats obtenus montrent quelquefois un dysfonctionnement du moteur. Ainsi, on peut obtenir 29 600 pages avec le mot chimiothérapie, 25 700 pages ou 18 200 pages avec intitle:chimiothérapie comme avec allintitle:chimiothérapie et 25 600 résultats avec inurl:chimiothérapie ou allinurl:chimiothérapie ; à d’autres heures, la recherche sur l’URL ne ramène “que” 12 000 pages, qui contiennent manifestement un nombre non négligeable de pages ne répondant pas à la question. Curieusement, de très rares fois et parfois au cours d’une recherche ou le dysfonctionnement est avéré pour certaines questions, le moteur semble avoir des sursauts de cohérence et donne des résultats logiques : 2 520 pages pour intitle:chimiothérapie et 2 080 pour inurl:chimiothérapie par exemple. Il est important de noter que, même s’il reste fluctuant et très approximatif, ce n’est pas tant le nombre de résultats affiché par Google qui est ici en cause (ce serait un moindre mal), que le bon fonctionnement du moteur ; lorsque le nombre de résultats est manifestement trop élevé, la première page affiche en fait des documents qui ne contiennent pas le mot demandé dans le titre ou dans l’URL ! La même requête effectuée depuis la grille de recherche avancée donne alors les mêmes résultats. Lorsque l’on effectue la recherche sur une expression ou sur deux mots, la situation varie selon l’opérateur utilisé. D’une façon générale, il nous semble que lorsque la requête porte sur une expression ou sur deux mots non forcément côte à côte, les opérateurs allintitle: et allinurl: fonctionnent le plus souvent. Ainsi, allintitle:“agents intelligents” donne 666 résultats, quand “agents intelligents” en donne 12 000 ; allinurl:“agents intelligents” sélectionne pour sa part 15 pages. De la même façon, allintitle:aviation accidents identifie 1 670 pages, quand aviation accidents en donne 417 000 ; allinurl:aviation accidents sélectionne pour sa part 679 pages. Aux mêmes heures, le fonctionnement des opérateurs intitle: et inurl: pour les mêmes requêtes est très aléatoire. Le plus souvent, les résultats prouvent que le moteur ne les comprend pas : intitle:“agents intelligents” peut donner 10 400 pages ou 5 090 pages mais aussi, exceptionnellement, 666 pages (soit le même résultat qu’avec allintitle:). De la même façon, les résultats obtenus avec intitle:aviation intitle:accidents peuvent varier entre 368 000 pages, 293 000 pages et, très rarement, 1 670 pages... Les résultats sont de même type avec l’opérateur inurl:. Enfin, la situation se complique encore dès que l’on veut combiner deux opérateurs. Il semble en effet que désormais, les opérateurs allintitle: et allinurl: doivent impérativement être employés seuls. Ainsi, si l’on rajoute à la requête allin-title:aviation accidents le mot enquêtes – après avoir vérifié qu’il existait bien des pages répondant à cette requête, et en écrivant ce mot devant l’équation précédente, pour qu’il soit recherché dans toute la page et pas dans le titre –, on obtient un résultat nul. Ce résultat nul est systématiquement obtenu dès que l’on combine un mot devant une requête comportant les opérateurs allintitle: et allinurl:. Quant aux opérateurs intitle: et inurl:, ils fonctionnent là aussi de façon fluctuante ; le nombre de résultats est le plus souvent beaucoup trop élevé (et la première page montre que la requête n’est pas comprise parfaitement) mais quelquefois, brus-quement – pour un temps souvent très court –, les réponses sont correctes ! Il ressort de ces quelques tests que : - les opérateurs allintitle: et allinurl: semblent fonctionner correctement dès lors que la requête porte sur deux mots ou plus ; mais cette requête ne peut être combinée à aucune autre (mot dans la page, dans l’URL...). En revanche, lorsque la requête porte sur un mot unique, le fonctionnement de ces opérateurs est aléatoire et inexplicable ; - les opérateurs intitle: et inurl: fonctionnent de façon aléatoire et inexplicable, qu’il soient utilisés seuls ou en complément d’une autre requête (mot dans la page...). QUAND LES DATA CENTERS S'EN MELENTNous avons multiplié les tests pour essayer de comprendre le “pourquoi du comment” de ces dysfonctionnements épisodiques. Nous avons bien sûr envoyé un mail aux équipes de Google ; mais la seule réponse obtenue – pour le moment du moins – est un accusé de réception nous informant que la question avait été prise en compte, et qu’elle serait sans doute traitée ultérieurement... Et puis, en désespoir de cause, nous avons pris “un temps de réflexion”, pour tenter de comprendre pourquoi et comment une même requête pouvait être interprétée correctement une fois sur dix seulement... Il nous est alors revenu en mémoire les informations lues au travers de divers articles expliquant le fontionnement de Google. L’index de trois milliards de pages de Google est en effet découpé en morceaux ; plus de 15 000 serveurs, répartis sur neuf centres de données, sont utilisés, et chaque centre dispose d’un index complet. Lorsque l’on interroge Google, le moteur redirige automatiquement la question vers l’un des centres de données, choisi comme étant le plus rapide en fonction de l’encombrement, de la localisation géographique... Mais les index des différents centres ne sont pas toujours strictement identiques, ce qui explique qu’une même question sur Google peut obtenir – le même jour et depuis un même poste – des résultats légèrement différents selon qu’elle est posée à un centre ou à un autre. Ce fonctionnement explique également le phénomène de la Google Dance, décrit dans de nombreux articles : en complé-ment des mises à jour réalisées par ses robots, qui indexent le contenu des pages, Google effectue, une fois par mois en moyenne, un nouveau calcul du PageRank de chacune des pages indexées. Rappelons que le PageRank est l’algorithme de pertinence utilisé par Google, et qu’il est basé sur “l’indice de popularité” des pages ; cet indice est calculé en fonction du nombre de liens qui pointent vers une page, mais aussi en fonction de la “qualité” de ces liens (nombre de liens entrants et sortants...). La mise à jour du PageRank de chaque page est donc un processus itératif très long, qui nécessite plusieurs jours de calcul. Une fois la mise à jour effectuée, les centres de données reçoivent la nouvelle version les uns après les autres ; pendant toute cette période, les résultats peuvent donc varier sensiblement selon le centre de données interrogé. Dans notre cas toutefois, il ne s’agit pas de “légères différences” dans le nombre de résultats, mais du bon fonctionnement ou du dysfonctionnement du moteur, lorsque l’on utilise les opérateurs avancés dans la requête (et seulement dans ce cas). Nous avons donc cherché à savoir si les centres de données pouvaient être la cause de ce dysfonctionnement Pour en savoir plus sur ces centres, nous avons lancé une requête sur Google avec la question google “centres de données” OR “data centers”. Le premier résultat obtenu – comme de nombreux autres – donne les adresses des neuf centres de données. Domaine Adresse IP www-ex.google.com - 216.239.33.100 www-sj.google.com - 216.239.35.100 www-va.google.com - 216.239.37.100 www-dc.google.com - 216.239.39.100 www-fi.google.com - 216.239.41.100 www-ab.google.com - 216.239.51.100 www-in.google.com - 216.239.53.100 www-zu.google.com - 216.239.55.100 www-cw.google.com - 216.239.57.100 Les sept premiers centres, les plus anciens, sont situés aux Etats-Unis (Californie, Virginie, Washington DC...) ; un centre a été ouvert en juin 2002 à Zurich (www-zu.google.com) et un dernier a été lancé en janvier 2003 à Palo Alto (www-cw.google.com). A chacun de ces centres est associé un serveur additionnel, avec un nom de domaine sous la forme www-xx2. google.com, et une adresse IP identique à celle du centre de données, mais se terminant par .101. Le même index est interrogé pour chaque paire de serveurs. Si les adresses IP de chaque centre redirigent automatiquement vers www.google.com (ou google.fr), il est en revanche possible d’interroger directement un centre en utilisant son nom de domaine. Deux centres font exception aujourd’hui : www-zu.google.com et www-sj.google.com. Lorsque l’on interroge directement l’un de ces centres, la question est en fait redirigée vers un des autres centres. Cela a pour conséquence qu’en relançant plusieurs fois une même requête (en cliquant simplement plusieurs fois sur Google Search), on obtient des résultats différents. Pour tester le fonctionnement des différents centres de données, nous avons posé à chacun, le même jour (les tests ont été effectués le 23 juillet 2003*), un ensemble de questions utilisant les principaux opérateurs de Google : allintitle, intitle, allinurl et inurl. On trouvera dans le tableau ci-dessous la liste des questions posées à chaque centre, et le nombre de pages identifiées pour chacune. L’analyse de ces résultats montre un fait inquiétant : seul un centre semble prendre correctement en compte les opérateurs : www-cw.google.com, soit le centre de Palo-Alto, ouvert en janvier 2003. Logiquement en effet, les résultats devraient être identiques pour des questions comme allintitle:“agents intelligents” et intitle: “agents intelligents” ; pour allintitle: aviation accidents et intitle:aviation intitle: accidents ou encore pour allinurl:aviation accidents et inurl:aviation inurl:accidents. Si de légères différences peuvent être acceptables, les résultats obtenus prouvent que la question est mal interprétée. Comme on le constate, seul le centre cw.google obtient des résultats logiques pour ces diverses séries de questions. Les résultats des autres centres semblent confirmer que les opérateurs allintitle et allinurl fonctionnent correctement lorsque la requête comporte au moins deux mots, mais montrent également que les résultats obtenus avec intitle: et inurl: ne sont pas cohérents, ce qui est pour le moins fâcheux ! Cette constatation amène plusieurs commentaires : - nous avons remarqué ces dysfonction-nements il y a près de deux mois, et avons au départ pensé à un “bug passager” du serveur. On s’étonnera et on regrettera que les problèmes perdurent ; cela dénote une absence de contrôle qualité peu compatible avec l’image du moteur ; - il est aussi possible que ces problèmes n’aient pas été détectés, du fait de la faible utilisation des fonctions avancées par les internautes. Mais là encore, Google est grandement responsable de cette faible utilisation (d’après le CTO de Google, 3 % seulement des visiteurs se servent des fonctions avancées). Il est en effet frappant de constater à quel point elles sont peu mises en avant et peu expliquées. On le regrette, car les moteurs sont les acteurs les mieux placés pour inciter les netsurfers à enrichir la formulation de leurs requêtes, pour une meilleure efficacité. Ils ont un rôle à jouer sur ce point ! - pour notre part, nous espérons que ces bugs seront rapidement identifiés et corrigés, même si cet article devient ce jour là obsolète... - enfin, à l’heure où la concurrence s’affirme – Yahoo! vient de racheter Overture, propriétaire des moteurs AlltheWeb et AltaVista, voir p.8 – le roi des moteurs a tout intérêt à mettre un peu de rigueur dans son fonctionnement... car même les dieux peuvent tomber sur la tête ! *Nous avons, bien sûr, vérifié que nous n’étions pas dans une période de “Google Dance” ; cela aurait peut-être pu expliquer les différences de résultats mais, là encore, cela n’aurait pas justifié de tels dysfonctionnements. Pour en savoir plus : • dance.efactory.de • pagerank.stanford.edu/ • www.webrankinfo.com/google/ • google.indicateur.com • immo.wildcroft.com/publication/article39.html |
|