
|
Netsources, Numéro de Janvier-Février 2003 - n°42 AlltheWeb, un challenger qui n'entend pas se laisser distancer |
Auteur : Béatrice Foenix-Riou |
|
AlltheWeb et Google se livrent depuis plusieurs mois déjà une
concurrence acharnée, tant sur la taille de leur index (voir
Netsources n°38 et 39), que sur l’élargissement de leurs
couvertures respectives : prise en compte des fichiers PDF pour
AlltheWeb (Netsources n°38), ajout d’un module de recherche sur les
actualités pour Google (Netsources n°40)...
Cette concurrence est tout bénéfice pour l’internaute, qui voit ses moteurs préférés faire leur possible pour peaufiner sans cesse leur produit. UNE CHARTE GRAPHIQUE PLUS GAIEDernière innovation en date, AlltheWeb a surpris tout le monde en modifiant radicalement sa page d’accueil, passant d’un graphisme plutôt sobre et triste à un look nettement plus gai et coloré. Il a dans le même temps changé son accroche, qui est aujourd’hui “find it all” (après avoir été “all the web, all the time”).Comme par le passé, cette interface est personnalisable via des feuilles de style (CSS) qui peuvent être téléchargées. NOUVELLE PAGE DE RESULTATSLa page de résultats a également été modifiée, et gagne en clarté. Lors d’une requête, on obtient désormais, successivement :- trois liens “sponsorisés” (positionnement payant) fournis par Overture. Lors de nos tests cependant, nous avons remarqué quelques “bizarreries” : sur un mot comme “référencement” par exemple, aucun lien sponsorisé n’est offert si le mot est écrit avec accents, alors qu’il y a trois liens sponsorisés - vers des sites français - si le mot est sans accents ; par ailleurs, les résultats ne correspondent pas exactement à ceux que l’on trouve sur Overture.com ni sur Overture.fr (les deux offrant pourtant des liens sponsorisés pour le mot accentué) ; - le cas échéant, des liens sont proposés vers les deux dernières dépêches d’actualité contenant les termes de la requête, avec leur titre, la source et la date d’indexation ; - suivent les pages issues de l’index d’AlltheWeb, avec pour chacune le titre, un extrait, suivi quelquefois par une description (correspondant généralement à la balise meta Description), l’URL et la taille ; - dans le bas de la page, on trouve les concepts associés (similar queries), ainsi que le nombre de réponses à la question – avec un lien – dans les fichiers multimédias (images, vidéos)... Enfin, les bandeaux publicitaires ont disparu, et c’est tant mieux ! URL INVESTIGATORAlltheWeb offre une nouvelle fonctionnalité fort utile, jamais proposée (jusqu’ici) par un moteur.Si l’on lance une requête non plus sur des mots mais sur une URL, on obtient – dès lors que l’URL en question est bien indexée par AlltheWeb : le titre de la page et sa description, l’URL, mais aussi (et surtout) le nombre de liens qui pointent vers l’URL, le nombre de pages qui contiennent l’URL (c’est en fait sensiblement équivalent à une recherche avec l’opérateur anchor: sur AltaVista), le nombre de pages du domaine indexées par AlltheWeb, les informations Whois sur le déposant du nom de domaine et, enfin, un lien vers les données de Web Archive (web.archive.org) sur cette URL (Web Archive propose, rappelons-le, une copie d’une partie du Web depuis 1996, et permet ainsi de retrouver les anciennes versions d’une page ! Un site très utile). Suivent également les sous-domaines indexés par AlltheWeb - outils.abondance. com pour une recherche sur www.abondance.com par exemple), les “Topics” (catégories identifiées depuis l’Open Directory) et enfin quelques informations comme la langue de la page, la date de dernière mise à jour et la taille du document ! Bref, une façon très simple d’en savoir plus sur un site et sur son éditeur. UNE SYNTAXE D'INTERROGATION PERFORMANTECes améliorations notables viennent compléter l’enrichissement récent des possibilités de recherche du moteur.Ce dernier présente aujourd’hui une syntaxe d’interrogation qui permet des requêtes relativement complexes. On trouvera ci-après la description des fonctionnalités que nous avons jugées les plus intéressantes : - Les opérateurs booléens AND, OR et ANDNOT peuvent désormais être utilisés depuis la grille de recherche avancée, en choisissant l’option “boolean query” ; initiative heureuse, il est possible de configurer l’interface pour que ce choix soit proposé depuis la zone de requête simple de la page d’accueil (lien Customize Preference puis Advanced Settings et enfin Search Type Display : cliquer sur On). En complément, l’opérateur RANK permet de trier les résultats en affichant d’abord ceux qui contiennent le mot demandé ; cet opérateur est de même nature que la fonction “Trier par” offerte sur la grille de recherche avancée d’AltaVista. On notera toutefois que si l’opérateur AND est utilisé par défaut par AlltheWeb lors d’une recherche par mots, il n’en est pas de même lorsque l’on choisit l’option “boolean expression”. Il est alors indispensable de saisir un opérateur (and, or, andnot) entre chaque élément de la requête. Il est par ailleurs possible d’utiliser les symboles + et – depuis l’écran d’accueil d’AlltheWeb, ainsi que les parenthèses qui, bizarrement, remplacent l’opérateur OR ; AlltheWeb effectuant ses recherches de façon stricte, ces parenthèses pourront utilement être employées pour rechercher les formes singulier/pluriel d’un mot. - Un certain nombre d’opérateurs sont disponibles, pour limiter la requête à certains champs du document ou à certains types de fichiers. D’une façon générale, il ne doit pas y avoir d’espace entre l’opérateur, le symbole “ : ” et le terme de la requête. On notera, parmi les principaux opérateurs : • url: (ex.: url:industrie) : recherche un mot dans l’url ; • title: (title:“agents intelligents”) : recherche dans le titre des pages ; • language: (language:fr), limite selon la langue des résultats ; • site: (site:industrie.gouv.fr ou site:gouv.fr) : recherche sur un site ou sur les sites d’un domaine particulier. Contrairement à Google, qui possède ce même opérateur, celui-ci peut être employé seul sur AlltheWeb, alors qu’il ne peut être utilisé qu’en complément d’un mot-clé sur Google ; sur AltaVista, ou l’opérateur fonctionne également en complément d’un mot, il faut utiliser domain: pour une recherche sur le “top level domain” (.fr, .com, .edu...) et host: si l’on restreint à un sous-domaine (host:gouv.fr), à un site (host:industrie.gouv.fr) ou à une partie du domaine (host:industrie). D’autre part, sur AlltheWeb (uniquement), deux types d’outils sont disponibles pour cet opérateur : • l’accent circonflexe, utilisé à gauche du nom de domaine, indique que la recherche doit se faire strictement sur le domaine tel qu’il est écrit ; Ainsi, site:^domain.com identifiera uniquement les pages qui ont comme nom de domaine domain.com ; les pages du domaine www.domain.com ne seront pas retenues (elles le seront par défaut autrement) ; • le symbole * quant à lui, utilisé à droite du nom de domaine, lance une recherche sur ce dernier comme “sous-domaine”. Ainsi, site:www.domain.com* identifiera les pages ayant comme nom de domaine www.domain.com, mais aussi celles de www.domain.com.sg (ce qui ne serait pas le cas autrement). Les deux outils peuvent être utilisées conjointement : site:^domain.com* identifiera les pages ayant comme nom de domaine domain.com.au, mais pas www.domain.com. UNE COUVERTURE ETENDUENous avions annoncé dans le numéro 38 de Netsources que, suivant en cela l’exemple de Google, AlltheWeb indexait désormais les fichiers PDF.En complément, il prend en compte depuis peu les documents Word, et les fichiers flash ; il est d’ailleurs sur ce dernier point plus complet que Google. Pour rechercher spécifiquement ce type de fichiers, on peut utiliser la grille de recherche avancée et choisir, dans la rubrique “Results Restrictions” – qui offre d’ailleurs d’autres possibilités intéressantes –, l’un des choix du menu déroulant “File format” (Adobe PDF, Macromedia flash ou Microsoft Word). On peut aussi utiliser l’opérateur filtetype: (comme Google), en précisant filetype:pdf, filetype:msword ou encore filetype:flash. ALLTHEWEB DEVIENT INSENSIBLE AUX ACCENTSAutre modification, et non des moindres, AlltheWeb semble être devenu insensible aux accents, alors que pendant longtemps, ce moteur effectuait sa recherche sur les occurrences exactes des mots saisis. Le moteur ne donne toutefois aucune information sur sa prise en compte ou non des accents.Bref, dans la course aux moteurs, AlltheWeb ne s’avoue pas vaincu, et il a bien raison ! Il reste à espérer que son tout nouveau propriétaire ne va pas modifier sa politique, ni son contenu. La société norvégienne Fast vient en effet de vendre son unité Web Search à ... Overture, le spécialiste du positionnement payant. On lira à ce sujet (pp.10-11) une très intéressante interview de Christophe Parcot, Directeur Général d’Overture France, par Olivier Andrieu. |
|