Netsources, Numéro de Janvier-Février 2004 - n°48


Pas de répit pour Goooogle

Auteur : Béatrice Foenix-Riou

Si l’année 2003 a été excellente pour Yahoo!, son concurrent direct – Google – a connu quelques déboires.

Ainsi, ses possibilités de recherche avancées ont été déficientes pendant quelques mois (de mi-mai à mi-août environ, voir Netsources n°44), sans que cela suscite réactions ou explications…

Le système des AdWords (liens sponsorisés) proposé par le moteur a quant à lui fait l’objet de plusieurs procès, aux Etats-Unis mais aussi en France. Le tribunal de Grande Instance de Nanterre notamment a condamné Google France, en octobre 2003, pour contrefaçon de marque ; ce dernier devra verser 70 000 e de dommages et intérêts et 5 000 e au titre des frais de justice aux sociétés Luteciel et Viaticum, qui accusaient le moteur d’avoir vendu à des concurrents, dans le cadre du programme AdWords, leurs marques (déposées à l’INPI) Bourse des vols et Bourse des voyages.

Last but not least, l’index de Google a connu de fortes attaques de spamindexing à la fin de l’année, qui ont sérieusement perturbé la pertinence de ses résultats…

Comme si cela ne suffisait pas, la “Google Dance” de fin d’année – prénommée Florida, car les mises à jour de Google, comme les typhons, ont un prénom ! – a suscité la colère de centaines de sites marchands américains, qui se sont vu déclasser dans les résultats du moteur, juste avant la période de Noël.
La mise à jour – généralement mensuelle – de l’index du moteur s’est en effet accompagnée de modifications substan-tielles des algorithmes de classement et certains sites commerciaux ont vu leur position sur Google, pour un mot-clé donné, chuter de la première à la 250ème place !

Une catastrophe économique pour eux, quand on connaît le trafic engendré par Google vers les sites.
Des milliers de messages concernant Florida ont alors été postés dans des forums comme WebmasterWorld.com, illustrant bien la place que tient Google dans la vie des internautes ! Et l’on a vu apparaître puis s’amplifier une rumeur, sous-entendant que Google défavoriserait en fait, dans son classement, les sites marchands n’ayant pas souscrit de programme AdWords...

Si Google a laissé entrevoir quelques faiblesses, le moteur met néanmoins les bouchées doubles pour offrir toujours plus de services que ses concurrents... On trouvera ci-après l’annonce de quelques nouveautés que nous n’avions pas encore annoncées dans nos colonnes, déjà souvent occupées par l’actualité de Google.

TRONCATURE : IMPLICITE MAIS PAS AUTOMATIQUE !


Les possibilités de recherche offertes par Google permettent de trouver des réponses à de nombreuses questions, de façon plutôt satisfaisante. L’algorithme de classement utilisé est performant et, sauf exceptions, l’internaute obtient des réponses pertinentes dès la première page de résultats. Des réponses pertinentes. Mais certainement pas toutes les réponses pertinentes... Là est le distinguo.

Car Google lance la recherche sur l’occurrence exacte des mots et ne prend donc pas en compte ses formes voisines, à savoir notamment les formes pluriel et singulier.         Autrement dit, une recherche sur la coucoumelle (nom usuel de l’amanite vaginée) identifiera les 45 pages qui parlent de ce champignon, mais laissera de côté les 8 pages qui concernent les coucoumelles...

Et une requête avec coucoumelle* n’y changera rien ; Google affichera les mêmes 45 pages que pour le mot au singulier, sans préciser qu’il n’a pas compris le petit symbole * (que d’autres outils, comme AltaVista, Yahoo, Open Directory, traduisent parfaitement !).

Bien sûr, l’utilisation de l’opérateur OR pallie en partie ce défaut ; la requête peut ainsi préciser coucoumelle OR coucoumelles. Mais comme le nombre de mots dans la requête est limité à dix, le moteur affiche très vite – mais très discrètement, en grisé sous la zone de saisie – un message indiquant que  xxx et les mots qui suivent ont été ignorés : les requête sont limitées à dix mots.

Cette absence de troncature compte à notre avis parmi les principales lacunes de Google. Il semble néanmoins que le moteur travaille actuellement sur cette question.
L’aide en ligne disponible sur la version internationale de Google – on remarquera à ce sujet en le déplorant, que l’aide proposée sur la version française est infiniment plus succincte que celle de Google.com – annonce en effet que le moteur utilise désormais une troncature implicite mais ... pas automatique.

Quand il le juge approprié (!), Google lance en effet la recherche sur les formes voisines des mots-clés. A titre d’exemple, Google indique qu’une requête sur "pet lemur dietary needs" identifiera notamment des pages contenant "pet lemur diet needs".
Il semble en fait que Google lance désormais certaines recherches sur les variantes grammaticales des mots, mais pour certains mots seulement !
On imagine la réaction des professionnels de l’information face à une telle approximation. Sur quels mots la troncature se fait-elle ? Comment le moteur fait-il son choix ? etc.
Gary Price, éditeur du site Resource Shelf.com, a questionné Google sur le sujet et a fait part des réponses du moteur dans la liste de discussion de l’AIIP (Association of Independent Information Professionals).
Malheureusement, l’équipe de Google s’est avérée incapable de répondre à des questions comme Comment le moteur détermine-t-il les mots sur lesquels il va utiliser la troncature ? Comment détermine-t-il ensuite les mots qu’il va inclure ? D’où viennent ces mots ? La seule “réponse” apportée est que Google a décidé d’utiliser la troncature car il a remarqué qu’elle améliorait la qualité des résultats dans de nombreux cas !

Sur son site SearchEngineShowdown.com, Greg Notess annonce pour sa part que la troncature semble ne pas fonctionner lorsque les requêtes ne contiennent qu’un seul mot, ou lorsque les mots sont entre guillemets.
Précision importante toutefois : il est possible d’interdire à Google d’utiliser automatiquement la troncature en ajoutant le symbole + devant chacun des mots-clés (sans espace entre le mot et le symbole). Sur Google en effet, le symbole + a pour fonction d’exiger la recherche sur l’occurrence exacte des mots (avec ou sans accents par exemple).

On notera enfin que GoogleGuy – le salarié de Google qui s’exprime sous ce pseudonyme dans des forums de discussion comme WebmasterWorld.com – a quant à lui précisé que, pour le moment du moins, la troncature n’était utilisée que pour des mots en anglais. Mais il est prévu d’étendre cette fonctionnalité à des langues comme l’allemand, le français...
On espère que d’ici là, les approximations du système auront disparu...

4 MILLIARDS DE PAGES ET BIEN D'AUTRES CHOSES ENCORE


Le 18 février dernier, Yahoo! annoncait officiellement le lancement de son moteur Yahoo! Search Technologies. Les jours précédents cependant, des internautes avisés avaient signalé dans des forums de discussion que les résultats “moteurs” de Yahoo! semblaient ne plus être systématiquement fournis par Google...

Pressentant vraisemblablement l’annonce et voulant couper une partie de son effet, Google a largement communiqué, le 17 février, sur son nouvel index ! Ce dernier permet désormais d’effectuer des recherches sur plus de six milliards de documents !
- l’index Web comprend désormais plus de 4,28 milliards de pages, contre 3,2 dans la précédente version. Cela étant, Google oublie de préciser qu’il n’indexe pas le texte intégral de toutes les pages. Pour certaines en effet, seule l’URL est prise en compte ; on remarque celles-ci dans les pages de résultats, car il manque alors le titre et l’extrait pertinent ;
 - l’onglet Images propose aujourd’hui de lancer une requête sur un fichier de 880 millions d’images, soit le double de son fichier précédent ! Une belle performance...
- les Groupes de discussion rassemblent les archives des messages postés depuis plus de vingt ans, ce qui représente 845 millions de messages...
- Google Print est un service en phase test, lancé en décembre 2003, qui permet aux internautes d’accéder – via Google bien sûr – à une large gamme de données tirées d’ouvrages : quatrième de couverture, chapitres complets, revues, informations bibliographiques...
Ces documents apparaissent lors de recherche  par mots-clés sur le Web et se distinguent des pages Web par la mention [BOOK - BETA]. Les informations sur les ouvrages sont assorties, dans le haut de l’écran, de liens vers les trois sites marchand  Amazon, Barnes & Noble.com et Books-A-Million et, dans le bas de l’écran, de liens sponsorisés...

ALERTES E-MAIL POUR GOOGLE ACTUALITES


Nous avions annoncé dans le numéro 45 le lancement du service Google News Alerts, qui permet aux utilisateurs de l’interface internationale de Google d’enregister leur stratégie de recherche sur les actualités (module News, donnant accès à des articles issus de 4 500 sources anglophones), puis d’être prévenu par mail dès que nouveaux articles pertinents sont indexés.

Presque simultanément, le moteur lançait une version en français du module News,  accessible depuis l’onglet Actualités de l’interface Google.fr. 
Ce module permettait d’interroger par mots le texte intégral d’articles et de dépêches issus de 500 sources d’actualités francophones. Contrairement à son équivalent en anglais, le module ne disposait cependant ni de grille de recherche avancée, ni de service d’alerte par mail.

Très bonne nouvelle pour les internautes : le service d’alerte mail sur les actualités francophones a été lancé en version beta en février 2004.
Pour le paramétrer, il faut cliquer sur le lien Alerte Actualités, proposé sur la droite de l’écran d’accueil du module Actualités.
On affiche alors une grille spécifique dans laquelle il faut indiquer sa requête, la fréquence à laquelle on souhaite recevoir les alertes (une fois par jour ou selon l’actualité) et son adresse e-mail. On reçoit ensuite un message de vérification dans sa boîte-aux-lettres, qu’il suffit de renvoyer pour lancer la veille.
Et l’on recevra alors l’annonce des nouveaux articles pertinents, avec pour chacun le titre, la source, le début de l’article et un lien vers son texte intégral sur le site de l’éditeur.

Les possibilités de recherche sont les mêmes que sur le module Actualités. On peut donc combiner les mots avec l’opérateur OR, utiliser les opérateurs intitle:, inurl: (par exemple, intitle:google OR intitle:yahoo...), etc.
Une fois lancées, les alertes ne peuvent être modifiées. Mais il est en revanche très simple de les supprimer et d’en créer d’autres. Bref, une avancée décisive pour les veilleurs !

GOOGLEMANIA


Pour conclure, les Googlemaniaques se régaleront à la lecture du dossier de 15 pages – Issue  12.03- march 2004 – intitulé “The Complete Guide to Googlemania!”, publié en ligne sur le site de Wired Magazine
www.wired.com/wired/archive/12.03/google_pr.html