Netsources, Numéro de Mai-Juin 2002 - n°38


Actualité chargée pour AlltheWeb

Auteur : Béatrice Foenix-Riou

Les derniers mois ont été très chargés pour AlltheWeb (www.alltheweb.com), qui a connu des enrichissements notables et qui s’affirme plus que jamais comme le grand (le seul ?) concurrent de Google. On trouvera ci-après le détail des principales nouveautés.
   
- Taille de l’index : AlltheWeb devance Google... Il y a un peu moins de deux ans (en octobre 2000), AlltheWeb avait triomphalement annoncé que son index contenait 575 millions de pages Web, et qu’il devançait ainsi Google. Quelques semaines plus tard, Google reprenait la tête du peloton, pour ne plus la quitter jusqu’à cet été 2002. En juin 2002 en effet, AlltheWeb a fièrement communiqué à la presse la taille de son nouvel index : 2,1 milliards de pages Web (plus précisément 2 112 188 990 pages),  contre 2,08 milliards pour Google (2 073 418 204 exactement d’après sa page d’accueil) ; la lutte est donc serrée, avec seulement 38 millions de pages de différence entre les deux moteurs... Pour asseoir son avance, AlltheWeb annonce un index de 3 milliards de pages pour la fin de l’année...
   
La course à l’index le plus important est toutefois loin d’être terminée car un nouveau venu a fait son apparition en juillet 2002 et, d’après ses dires, dépasserait les deux concurrents.
   
Encore en phase de betatest, OpenFind (www.openfind.com) annonce en effet un index de 3,5 milliards de pages !
   
Les quelques tests que nous avons pu faire ne permettent pas de vérifier ces assertions même si, pour certaines questions (coucoumelle, diaphanoscopie...), le nombre de pages identifiées est légèrement plus important avec OpenFind qu’avec les deux autres. On notera que les quelques tests ont été faits sur des mots “obscurs”, pour lesquels il était possible de vérifier le nombre de réponses ; le nombre de pages identifiées indiqué par les moteurs est en effet quelquefois un chiffre approximatif.
   
- Prise en compte des fichiers PDF
Les documents au format PDF réservent souvent de bonnes surprises, car c’est un format fréquemment choisi pour la publication (sur le Net) des rapports d’entreprises, des rapports de chercheurs (laboratoires, universités...), ou encore des articles voire des publications scientifiques.
   
Jusqu’ici, seul Google les indexait et permettait de lancer une requête par mots sur leur contenu.
   
AlltheWeb a annoncé en mai dernier qu’il les prenait également en compte.
   
Pour limiter la requête aux documents PDF, il suffit, dans la grille de recherche avancée, de cliquer sur le choix “Search for PDF documents only” ; on peut aussi rajouter, dans la zone de saisie simple, l’opérateur url.all:pdf au(x) terme(s) de la requête (sur Google, c’est l’opérateur filetype:pdf qui doit être utilisé).
   
Détail qui a son importance, d’après Greg Notess (www.searchengineshowdown.com), AlltheWeb indexe le texte intégral des documents PDF, quand Google se limite aux premiers 120 Ko.
   
- Nouveau look de printemps
Toujours au mois de mai, AlltheWeb a “relooké” son interface. Les modifications sont mineures, mais mettent mieux en évidence les différents modules du moteur.
   
Une barre d’outils affiche ainsi plusieurs onglets, situés au-dessus de la zone de saisie pour la requête.
   
Celle-ci correspond à la recherche simple.
   
Sous cette zone de saisie, l’option — discrète — “Advanced Search” permet d’afficher une grille de recherche avancée, avec des spécificités pour chaque module.
   
Les différents onglets sont :
    
- Web Pages : la recherche est lancée sur l’index de 2,1 milliards de pages du moteur (pages html et PDF).
Parmi les options de la recherche avancée, on citera, en complément des classiques recherches sur le titre et l’URL, la limitation selon le domaine (.fr, .gouv.fr, industrie.gouv.fr...), la recherche sur le nom du site (opérateur host: sur AltaVista), sur l’intitulé des liens (opérateur anchor: sur AltaVista), ou encore sur la date de mise à jour des pages (un mois, trois mois, six mois...).
   
- News : c’est l’un des points forts d’AlltheWeb ; lancé en novembre 2001, ce module permet de faire des recherches sur les sources d’actualité. Tout au long de la journée, un robot spécifique parcourt plus de 3 000 sources d’actualité sur le Net, et met son index à jour continuellement. D’après AlltheWeb, plus de 800 articles sont indexés chaque minute.
Les 3 000 sources surveillées comprennent aussi bien des quotidiens — essentiellement économiques — de tous les pays, que des agences de presse, des sources financières et des sites plus spécialisés.
   
Les articles sont conservés une semaine.
   
Parmi les options de la recherche avancée, on notera la limitation selon le domaine (lemonde.fr...) ou la date d’indexation des pages (deux heures, six heures, douze heures...).
- D’autres onglets permettent enfin de rechercher des fichiers dans un format spécifique : images (fichiers JPEG, GIF ou BMP), vidéos, fichiers MP3 ou FTP.

- Nouvelle page de résultats
A l’occasion de son “relookage”, la page de résultats d’AlltheWeb a été modifiée et des fonctionnalités ont été ajoutées pour aider l’utilisateur à affiner sa stratégie :

• Fast Topics : présentés dans un encadré sur la droite, ces “Fast Topics” classent en fait les résultats dans des catégories, un peu à la manière d’AOL ou de Vivisimo.
Ces catégories correspondent quelquefois à celles de l’Open Directory, mais peuvent aussi être générées automatiquement selon les résultats ;
• Narrow Search : un deuxième encadré liste, le cas échéant, les mots les plus souvent associés aux termes de la requête ;
• d’autres encadrés présentent quelquefois les premiers résultats identifiés dans les autres modules de recherche (News...).
   
- AlltheWeb Alchemist
AlltheWeb a lancé en juillet l’outil Alchemist, qui permet de configurer l’interface du moteur en utilisant les “Cascading Style Sheet” (CSS).
Les pages de résultats peuvent ainsi être totalement personnalisées, et tenir compte des goûts (et des couleurs) de l’internaute...
   
Avec ces différentes améliorations, la société norvégienne Fast Search & Transfer, qui développe AlltheWeb, espère bien dévelop-per son implantation en France. Un correspondant a d’ailleurs été nommé en mai dernier pour prospecter les entreprises et mettre en place un réseau de distribution.
   
Plus que jamais, AlltheWeb s’affirme donc comme un concurrent sérieux de Google.
   
Preuve en est que Tiscali Recherche, qui édite l’annuaire Nomade, vient de conclure un accord avec Fast et affiche désormais les résultats d’AlltheWeb lorsque la recherche dans l’annuaire est infructueuse (le partenariat était jusqu’ici avec Google).
   
Et ce n’est pas tout. Yahoo!, qui a un accord du même type avec Google, donnera en septembre prochain sa décision finale pour la suite du partenariat. Fast ou Google, le choix de Yahoo! pourrait changer bien des choses dans le monde des outils de recherche.