Actualités
Agenda
Liens utiles
Netsource
Netsource - Sommaire en cours
Netsource - Anciens sommaires
Netsource - Recherche des archives
Revue Bases
Revue Bases - Sommaire en cours
Revue Bases - Anciens sommaires
Revue Bases - Recherche des archives
Ouvrages
Qui sommes-nous ?
Notre équipe
Accueil > Netsources > Anciens sommaires > ... ni de trêve estivale pour les outils de recherche

Netsources, Numéro de Juillet - Août 2003 - n°45


... ni de trêve estivale pour les outils de recherche

Auteur : Béatrice Foenix-Riou

 
Les internautes studieux qui délaissent plages, campagnes et montagnes pendant les mois d’été et restent connectés sans faillir l’auront sans nul doute remarqué : les outils de recherche semblent profiter de la période estivale pour tester de nouvelles fonctionnalités, modifier leurs interfaces ou conclure de nouveaux accords. Ils bénéficient ainsi de délais supplémentaires pour rôder les nouveautés et offrir dès la rentrée un outil rajeuni et enrichi...

Après les actualités de Google (pp.10-12), voici les nouveautés des autres moteurs  que nous avons remarquées...

BREVE ECHAPPEE D'ALLTHEWEB EN TETE DU PELOTON



Les colonnes de Netsources se font régulièrement l’écho de la “guerre des index” que se livrent les moteurs de recherche. Cette course à l’index le plus grand est incontestablement dominée par Google et AlltheWeb, qui n’en finissent plus de se livrer bataille pour être “le moteur le plus important du Web”.

En guise de résumé des épisodes précédents, on rappellera quelques dates marquantes, qui illustrent bien l’évolution du Web et des index des moteurs...
- janvier 2000 : début de la course... AlltheWeb passe en tête avec ... 300 millions de pages Web !
- juin 2000 : Google prend une légère avance, avec 500 millions de pages,
- juin / décembre 2001 : Google domine incontestablement ses concurrents, en annonçant un index de un, puis de 1,5 milliard de pages Web ;
- juin 2002 : AlltheWeb gagne une étape de justesse, avec 2,1 milliards de pages, contre 2,08 pour Google ! ;
- août/novembre 2002 : il se fait dépasser – d’une tête – par Google en août 2002 (2,5 milliards de pages) ; le chiffre de trois milliards de pages sera atteint par Google en novembre 2002.

Il faut ensuite attendre août 2003 pour que le classement se modifie : le 21 août, AlltheWeb annonce sur sa page d’accueil qu’il indexe “3,151,743,117 web pages”, quand Google n’a, semble-t-il, pas augmenté la taille de son index depuis novembre 2002, et indique toujours “3 083 324 652 pages Web recensées”...

Comme cela était prévisible, l’échappée d’AlltheWeb en tête du peloton est fulgurante mais très brève. Le 26 août, Google reprend sa place de leader avec 3 307 998 701 pages recensées !

Cette concurrence forcenée entre les deux géants a un avantage certain : les internautes disposent aujourd’hui de deux moteurs de taille équivalente, qui cherchent sans cesse à améliorer leur couverture du Web visible...

ALLTHEWEB S'ATTAQUE AUX DOCUMENTS MICROSOFT


Google (toujours lui !) a été l’un des premiers moteurs a élargir sa couverture du Web, en indexant non seulement les pages html mais aussi, dès janvier 2001, les fichiers PDF puis, en novembre de la même année, les fichiers de la gamme Microsoft (Word, Excel, PowerPoint...). Cette indexation avait d’ailleurs provoqué en son temps un “branle-bas de combat” chez certains webmasters négligeants, qui s’étaient aperçus un peu tard que des documents confidentiels se retrouvaient en libre accès sur le Web (voir Netsources n°35)...

Comme l’on pouvait s’y attendre, les autres moteurs ont suivi l’exemple.

AlltheWeb et AltaVista notamment indexent ainsi les fichiers PDF et permettent de les retrouver spécifiquement en rajoutant aux mots de la requête l’opérateur filetype:pdf (comme sur Google)*.

AlltheWeb, qui indexait également les documents Word (syntaxe filetype:msword, contre filetype:doc sur Google), a annoncé il y a peu qu’il prenait désormais en compte les fichiers Excel et PowerPoint.

La syntaxe de recherche pour ces fichiers spécifiques est filetype:excel pour les fichiers Excel (quand, sur Google, il faut écrire filetype:xls) et filetype:powerpoint pour les fichiers PowerPoint (filetype:ppt sur Google). 

On notera également que contrairement à Google, AlltheWeb permet d’utiliser ces opérateurs seuls (sans mot-clé associé) ; on peut ainsi connaître aisément le nombre de fichiers indexés de chaque type.

Ce nombre est aujourd’hui de :
• 3 721 696 pour les fichiers PDF ;
• 671 583 pour les documents Word ;
• 150 932 pour les documents PowerPoint ;
• 143 877 pour les fichiers Excel.

De simples comparaisons quantitatives entre Google et AlltheWeb montrent toutefois que, pour le moment du moins, le nombre de fichiers indexés par Allthe Web pour chaque catégorie est bien inférieur à ce que propose Google (avec un rapport pouvant atteindre un à dix pour de nombreuses questions).

D’après le site Search Engine Showdown en revanche (www.searchengineshowdown. com), AlltheWeb indexe la totalité des documents PDF, quand Google se limite à 120 Ko pour chacun.

INTERFACE EPUREE POUR YAHOO RECHERCHE FRANCE


Nous présentions dans le numéro 43 de Netsources l’interface de recherche Yahoo! Search, lancée en avril par l’annuaire américain pour “préparer l’après Google”.
Largement inspirée par le “modèle Google”, cette interface existe désormais pour la version française de Yahoo!

Accessible directement depuis l’adresse fr.search.yahoo.com, ou depuis une page de résultats de Yahoo! France (en cliquant sur le logo), Yahoo! Recherche rompt brutalement avec le look surchargé du portail et offre une interface sobre et dépouillée, dédiée à la recherche et sans aucune publicité ; bref, une interface comme on les aime !

Les différents modules de Yahoo! Recherche sont affichés sur la gauche de l’écran, et permettent de lancer une requête sur plusieurs bases d’informations.
- Tout le Web :
la Visite guidée de Yahoo! Recherche explique que “Tout le Web : ce sont les résultats les plus pertinents issus du Web tout entier.” Une information pour le moins elliptique qui ne donne aucune précision sur l’origine des données.

En fait, les quelques tests effectués montrent que les résultats sont toujours fournis par Google, et s’affichent dans le même ordre ; on notera toutefois que deux requêtes lancées parallèlement sur fr.search.yahoo.com et Google.fr donnent systématiquement un nombre de résultats légèrement inférieur sur Yahoo!.

La requête étant posée à Google, on peut utiliser sur ce module toute la syntaxe de Google, et notamment les opérateurs intitle:, inurl:, etc.
Attention cependant : la recherche est ici lancée par défaut sur le Web en français...

Pour le moment du moins, Yahoo! n’utilise donc pas les possibilités de ses récentes acquisitions AltaVista et AlltheWeb, ni celles du moteur Inktomi racheté en décembre. Cela étant, l’un des responsables de Yahoo! Australie annonçait récemment dans un interview que des tests étaient actuellement en cours pour comparer, selon les versions nationales de Yahoo!, la pertinence de Google et d’Inktomi, et que ce dernier pourrait purement et simplement remplacer Google pour certaines versions s’il s’avérait plus intéressant. Une affaire à suivre...
- Guide Web :
la page d’accueil du module affiche uniquement la liste des rubriques et sous-rubriques de l’annuaire Yahoo! France, celles-là mêmes qui sont cantonnées au quart inférieur gauche de la page d’accueil du portail.

Quel que soit le module interrogé (Web ou Guide), la page de résultats est construite de façon similaire et propose, successivement :
• une barre, pour relancer la requête sur les différents modules (Tout le Web, Guide Web, Actualités et Images) ;
• les éventuels services Yahoo! en relation avec la requête ;
• les trois premières rubriques de l’annuaire répondant à la question ;
• les six premiers liens payants fournis par Espotting France, quatre s’affichant en haut de la page, et deux en bas des résultats. Là encore, les partenariats devraient se modifier, puisque Yahoo! vient de racheter Overture, concurrent direct d’Espotting...
• les 20 premiers résultats identifiés par Google (pour Tout le Web) ou dans l’annuaire.

Pour chaque résultat issu du Web, Yahoo! indique son titre, un extrait pertinent contenant les mots de la requête en gras et l’URL. Les éventuelles autres pages pertinentes d’un site sont accessibles via le lien Plus de résultats sur ce site.

Si le site est indexé dans l’annuaire Yahoo!, la rubrique est également indiquée et permet d’afficher les autres sites de la catégorie. En revanche, le lien En cache si utile de Google n’est pas proposé – on le regrette – alors qu’il l’est dans la version américaine de Yahoo! Search.
Pour chaque site de l’annuaire, Yahoo! précise son titre, une brève description, l’URL et la catégorie.
- Actualités :
la requête est lancée sur l’ensemble des actualités offertes par le site fr.news.yahoo.com, réalisé essentiellement à partir de l’indexation de fils d’agences de presse (AFP, AP, Reuters) et de quelques sources spécialisées dans les domaines financiers, informatiques, de la santé... Sur le site Yahoo! Actualités cependant, les dépêches sont classées par rubriques.

La durée d’archivage des articles varie selon la source d’information (une vingtaine au total), et peut varier de 7 jours à plusieurs mois.
- Images :
la recherche est lancée sur le module Images de ... Google, et les résultats sont strictement identiques.

Au total, rien de bien nouveau dans cette interface qui, curieusement, se place en concurrente directe de Google, tout en offrant pour une bonne part les résultats de Google !

On notera que l’on rencontre quelques problèmes si l’on interroge Yahoo! Recherche depuis un Macintosh : les accents sont particulièrement mal gérés par le moteur, tant sur le plan de l’affi-chage – ils sont remplacés par des signes cabalistiques – que sur celui de la recherche, puisque les résultats sont faussés si le mot est saisi avec accents (sur le Guide Web : 168 sites identifiés pour cosmetique, contre 8 pour cosmétique).

Une erreur de jeunesse sans aucun doute !


 

Version imprimable
BASES PUBLICATIONS
27, rue de la Vistule
75013 Paris
Tél. : 01.45.82.75.75
contact@bases-publications.com
Abonnez-vous   |   Contact   |   Mentions légales |   Crédits