Actualités
Agenda
Liens utiles
Netsource
Netsource - Sommaire en cours
Netsource - Anciens sommaires
Netsource - Recherche des archives
Revue Bases
Revue Bases - Sommaire en cours
Revue Bases - Anciens sommaires
Revue Bases - Recherche des archives
Ouvrages
Qui sommes-nous ?
Notre équipe
Accueil > Netsources > Anciens sommaires > Outils de recherche, bilan de l'année 2001

Netsources, Numéro de Novembre-Décembre 2001 - n°35


Outils de recherche, bilan de l'année 2001

Auteur : Béatrice Foenix-Riou

 
Nous avions, dans le numéro 28 de Netsources (septembre/octobre 2001), dressé un tableau en pointillé de l’actualité des outils de recherche, et tenté de dégager les grandes tendances de l’évolution des annuaires et des moteurs.
   
A peine plus d’un an plus tard, il nous a semblé intéressant de faire le point sur la situation : les axes de développement des outils de recherche sont-ils les mêmes qu’il y a un an, quelles sont les évolutions importantes, quels ont été les événements marquants de l’année…
   
Malgré une actualité souvent brûlante, marquée par la disparition de plusieurs outils (Excite France, Ecila, Lokace, Go.com, Snap...) et l’apparition de quelques moteurs aux concepts originaux (Kartoo, Wisenut, Teoma...), il y a eu somme toute relativement peu de bouleversements dans le monde des outils de recherche au cours de l’année 2001, mais plutôt un renforcement des grandes tendances qui se dégageaient déjà à la fin de l’année 2000.
   

LA COURSE A “L’INDEX LE PLUS GRAND” CONTINUE

   
En octobre 2000, la société norvégienne Fast (éditeur du moteur All The Web) annonçait fièrement un nouvel index de 575 millions de pages Web en texte intégral. Elle devançait ainsi — pour quelques semaines seulement —, le moteur Google, qui déclarait lancer ses recherches sur un index de plus de 500 millions de pages en texte intégral, auxquelles s’ajoutaient toutefois 500 millions d’URLs pointant vers ces pages.
   
En ce début d’année 2002, All The Web a augmenté de 25 % la taille de son index (630 millions de pages Web), et Google l’a doublé ! Il annonce plus de 2 milliards de pages, la moitié environ en texte intégral, et les URLs pour l’autre moitié.
   
Si cet accroissement est notable, l’augmentation du volume de leurs index reste un développement logique pour les moteurs de recherche, qui se doivent de suivre la croissance de l’offre sur le Web.
   
Mais deux faits remarquables pourraient bien modifier le comportement des internautes.
   
- Indexation d’autres fichiers que les pages html
   
En janvier 2001, Google a créé la surprise en proclamant qu’il indexait désormais, en plus des classiques fichiers html, les fichiers au format PDF, jusque-là invisibles pour les moteurs de recherche.
   
Ces documents, que l’on peut visualiser avec le logiciel Acrobat Reader d’Adobe (téléchargeable gratuitement), constituent un gisement d’information exceptionnel car souvent de grande qualité. On y trouve notamment des articles issus de publications scientifiques et universitaires, des rapports de chercheurs, des rapports annuels d’entreprises, etc.
   
Google indexe aujourd’hui plus de 22 millions de documents PDF, identifiés dans la liste de résultats par la mention [PDF] à gauche de leur titre. Le moteur indexe leur contenu et les convertit en fichier texte, accessible depuis le lien [Version texte].
   
Si l’on possède le logiciel Acrobat Reader, il est cependant préférable de les visualiser au format PDF, qui conserve la mise en page originale du document et ses illustrations.
   
Pour limiter sa recherche aux seuls documents PDF, il suffit d’ajouter, aux termes de sa requête, l’opérateur “filetype:pdf”, sans espace entre l’opérateur, le symbole “:” et le mot pdf.
   
Continuant sur sa lancée, Google a été encore plus loin en donnant accès, en novembre 2001, à des documents que l’on voit rarement sur le Web.
   
Il a en effet annoncé que son robot était capable d’indexer les différents documents de la gamme Microsoft, à savoir les fichiers Word, Excel et PowerPoint, mais aussi les fichiers RTF et PostScript !
   
Tout comme les fichiers PDF, ces documents sont cherchables via l’interface générale du moteur, et se distinguent des pages html par les mentions respectives [DOC], [XLS], [PPT], [RTF] et [PS] à gauche du titre.
   
Comme pour les documents PDF, on peut limiter la requête à ces fichiers spécifiques en utilisant, avec ses mots-clés, l’opérateur “filetype:” (Ex. : filetype:doc, filetype:xls, filetype:ppt).
   
Cette indexation n’a pas été sans provoquer un “branle-bas de combat” chez certains webmasters négligeants, qui se sont aperçus que des fichiers qu’ils pensaient être confidentiels se retrouvaient sur le Net, et pouvaient être visualisés par des millions d’internautes !
   
La presse canadienne a la première “levé le lièvre”, en découvrant que des requêtes sur des termes relatifs aux événements du 11 septembre identifiaient des fichiers Word “top-secret” sur des serveurs de l’armée américaine !
   
De la même façon, on a vu apparaître sur le Net des fichiers Excel comportant des numéros de carte bancaire, les fichiers clients de certaines entreprises, des documents internes libellés “confidentiels”, etc. Bref, le mois de novembre a été celui du grand ménage sur les serveurs !
   
- Indexation des documents récents
   
La taille des index des moteurs constitue généralement l’un des principaux critères d’évaluation de leur performance. Mais ce n’est pas le seul, loin s’en faut. Le délai de rafraîchissement de ces index est tout aussi important. Rien n’est plus agaçant pour un internaute que d’avoir de nombreux liens morts (error 404) dans sa liste de résultats !
   
Au cours de l’année 2001, les moteurs de recherche ont donc tenté d’améliorer leurs technologies d’indexation des pages Web.
Les solutions de référencement payant que proposent des moteurs comme All The Web, Inktomi et AltaVista (voir ci-après) jouent d’ailleurs dans ce sens, puisque les robots indexent alors les pages des sites clients tous les deux jours ou toutes les semaines.
   
Mais certains moteurs n’en restent pas là.
   
All The Web (www.alltheweb.com) a ainsi annoncé en novembre qu’il ajoutait à son index de 630 millions de pages Web un module de recherche sur l’actualité.
   
Grâce à la technologie Fast Real-time, un robot spécifique parcourt tout au long de la journée plus de 3 000 sources d’actualité sur le Web, et met son index à jour continuellement. D’après All The Web, plus de 800 articles sont indexés chaque minute, et l’ensemble des pages du catalogue est rafraîchi en 9 à 11 jours. Les 3 000 sources surveillées par le moteur comprennent aussi bien des quotidiens — essentiellement économiques — de tous les pays, ites financiers et des sites plus spécialisés.
   
La recherche se fait depuis l’écran d’accueil du moteur, après avoir cliqué sur l’onglet News. Une grille de recherche avancée permet de préciser que la requête doit se faire sur tous les mots, un des mots ou la phrase exacte, de choisir la langue des pages à sélectionner, le ou les types de sources, ou encore de rechercher uniquement (ou d’exclure) les pages appartenant à un domaine spécifique (.com, .fr, mais aussi lemonde.fr, etc).
   
Google pour sa part teste également l’indexation quotidienne des pages de sa base, notamment celles issues des sites d’actualité. C’est pourquoi, dans la liste des résultats, on trouve pour certains la mention “Mis à jour!” (ou “Fresh!”), suivie de la date du jour ou de la veille.
   
Il a par ailleurs lancé, juste avant Noël, une page “News and Resources” (www.google.com/news/newsheadlines.html) qui affiche des actualités du jour issues d’une centaine de sources en anglais (quotidiens, agences de presse...), classées dans six rubriques : World, US, Business, Entertainment, Technology, Sports. La mise à jour se fait toutes les heures. Pour le moment, seules les actualités du jour sont disponibles.
   
Ces développements sont tout à fait positifs pour l’utilisateur, et constituent une amélioration incontestable de la qualité des outils de recherche. Tous ne poursuivent malheureusement pas leurs efforts dans ce sens ; AltaVista s’est ainsi distingué cette année par le manque de fraîcheur de son index, qui est resté de longs mois sans mise à jour, car les responsables voulaient remplacer les différents index nationaux par un index unique, issu de la fusion des différentes bases de données...
   

REFERENCEMENT PAYANT : LE PRINCIPE SE GENERALISE

   
Il y a plus d’un an, les annuaires internationaux Looksmart et Yahoo ont innové en matière de référencement en lançant les premières offres de soumissionnement payant. Présentées comme des services aux éditeurs, ces offres garantissaient une évaluation du site par l’équipe éditoriale dans des délais très brefs — entre 48 heures et une semaine — et une notification de la décision finale (intégration ou non dans l’annuaire) par e-mail, aux termes du délai. L’offre était facultative, et le prix inférieur à 200 US$.
   
Comme l’on pouvait s’y attendre, l’exemple a été largement suivi par les autres annuaires. En ces premiers jours de l’année 2002, il nous a donc semblé utile de faire un rapide point sur l’offre, qui s’est étoffée depuis le panorama réalisé par Olivier Andrieu (Netsources n°33).
   
- Soumissionnement payant : attention aux dérives
   
Si les offres initiales de Yahoo.com et de Looksmart.com étaient facultatives et relativement bon marché, elles ont rapidement augmenté (299 US$ aujourd’hui) et sont devenues “moins facultatives”… Elles sont désormais obligatoires sur Yahoo pour les sites à vocation commerciale (sites d’entreprises…) ; quant à Looksmart, les seuls sites à pouvoir être référencés gratuitement sont ceux des organismes américains à but non lucratif,  mais leur évaluation se fait alors sans aucune garantie de délai.
   
Devant cette manne potentielle, les annuaires francophones ont suivi l’exemple. Looksmart France — utilisé notamment par AltaVista France, Club-Internet et Microsoft Network — a, le premier, adopté le principe du soumissionnement payant, avec des conditions identiques à celles de la version internationale, pour un prix de 159 €.
   
Nomade France, le portail Voila de France Telecom et Yahoo! France ont attendu la fin de l’année 2001 pour proposer des offres similaires : en cas d’acceptation, le site est intégré dans l’annuaire en une semaine environ, pour un prix variant entre 99 e (Nomade) et 250 € (Yahoo!).
   
Un détail fait cependant toute la différence avec les offres précédentes : le soumissionnement reste totalement facultatif quelle que soit la catégorie choisie, c’est-à-dire pour les sites d’entreprises également.
   
Aujourd’hui, les grands annuaires généralistes ont donc pour la plupart une offre de soumissionnement payant, à l’exception notable de l’Open Directory (www.dmoz.org), dont le modèle économique est totalement différent, puisque les rédacteurs sont bénévoles.
   
Que peut-on penser de cette politique, qui a une influence certaine sur le contenu des grands annuaires ?
   
D’une façon générale, et tant que le soumissionnement payant reste facultatif, ce type d’offre peut être considéré comme logique : les annuaires se doivent de trouver un moyen d’augmenter leur chiffre d’affaires, quand le nombre de sites à indexer augmente sans cesse et que le volume de publicité diminue. L’offre constitue par ailleurs un réel service aux éditeurs.
Nomade, Voila et Yahoo! France assurent que le soumissionnement gratuit restera possible.
   
Toutefois, les annuaires garantissant une évaluation rapide aux sites qui payent, et n’étoffant pas pour autant leur équipe de rédacteurs, on peut penser que les délais d’intégration des autres sites vont se rallonger fortement d’ici peu...
   
Quand l’offre devient obligatoire pour les sites commerciaux (annuaires anglophones et Looksmart France), elle reste malgré tout acceptable, même si elle implique inévitablement des conditions d’insertion plus drastiques et des délais d’intégration plus longs pour les sites évalués gratuitement, c’est-à-dire notamment pour les sites associatifs et personnels.
   
Mais le danger d’une telle offre est le risque de dérive ; Yahoo.com en fournit une parfaite illustration. Cet annuaire vient en effet de rajouter à son offre de soumissionnement payant une clause qui risque de dérouter plus d’un éditeur de site.
   
Sur le bulletin de soumission, il est indiqué que les sites inscrits après le 28 décembre 2001 devront acquitter chaque année un paiement de 299 US$ s’ils souhaitent rester dans la base, faute de quoi ils seront purement et simplement supprimés (jusqu’alors, le prix de 299 US$ concernait l’évaluation du site, après quoi, en cas d’acceptation, ce dernier était indexé définitivement, sauf modification de son contenu).
   
Pour le moment, cette clause s’applique aux sites d’entreprises qui ne sont pas encore inscrits dans l’annuaire ; les deux millions de sites déjà recensés ne sont pas concernés, ni les nouveaux sites non commerciaux. Mais d’ores et déjà, cela signifie que la partie “annuaire d’entreprises” de Yahoo! risque de se transformer en “annuaire commercial”, ne répertoriant que les sites d’entreprises disposant d’un budget promotionnel — ce qui est le cas, par exemple, de certains annuaires comme Kompass — ; il n’est pas certain en effet que les petites entreprises soient prêtes à payer tous les ans un droit de présence dans l’annuaire.
   
On peut également craindre, selon la réaction des sites commerciaux, que cette politique se généralise, et soit appliquée à tous les sites commerciaux, voire à tous les sites de Yahoo.com.
   
L’annuaire conçu pour recenser les ressources du Web se transformerait alors en annuaire publicitaire ! Difficile à croire !
   
- Le référencement payant sur les moteurs
   
Trois des acteurs majeurs (AltaVista, All The Web et Inktomi) ont mis en place un système de référencement payant, basé sur un concept identique : le service permet à l’éditeur d’être assuré que le robot du moteur de recherche va indexer un certain nombre de pages de son site, et qu’il les rafraîchira selon une périodicité déterminée.
   
Pour le moteur, c’est là un moyen efficace de lutter contre le spamdexing (fraude des balises meta...), puisque chaque page indexée est clairement identifiée. A titre d’exemple, AltaVista propose le service PartnerSite ; il permet d’inclure jusqu’à 500 URLs dans l’index du moteur, avec un rafraîchissement des pages sur un rythme hebdomadaire. Le prix de ce service, pour une durée de six mois, est de 39 $ pour la première URL, 24 $ pour chaque page de 2 à 10, 19 $ pour chaque page de 11 à 100, et 12 $ pour chaque URL de 101 à 500 ; pour un site de 500 pages, le service est donc facturé 6 750 $ pour six mois !
   
Inktomi pour sa part offre le service Paid Inclusion ; le prix, qui a considérablement augmenté en novembre 2001, est — pour un an — de 39 $ la première URL et 25 $ chaque URL suivante soit, pour un site de 500 pages, la modique somme de 12 514 $ par an ! Le moteur garantit cependant un rafraîchissement des pages tous les deux jours.
   
Pour l’utilisateur, l’offre est plutôt un point positif, puisqu’elle a pour conséquence des efforts de rafraîchissement de l’index.
   
Mais là encore, il est important d’être attentif aux possibles dérives. Le risque en effet est que le classement des résultats tienne compte de l’offre de référencementet que les pages des sites “clients” soient systématiquement classées avant les pages indexées automatiquement par le robot...
   
- Des positionnements publicitaires quelquefois trompeurs
   
Les offres décrites jusqu’ici concernent l’intégration des sites ou des pages dans les bases des outils de recherche, mais n’influent pas — théoriquement du moins — sur leur classement dans la liste des résultats. D’autres offres ont donc pris le relais.
   
Pour les annuaires, on trouve des offres d’emplacements publicitaires dans la liste des résultats, que la recherche se fasse par rubriques et sous-rubriques, ou par mots-clés.
   
L’an passé, Yahoo.com a ainsi lancé discrètement le service Sponsored Sites, qui permet à un éditeur de faire apparaître son site, lors d’une consultation par rubriques, en haut de la page de résultats ; les sites (cinq maximum) sont toutefois présentés dans une zone spécifique baptisée Sponsored. Looksmart.com quant à lui offre le service LookListings ; l’éditeur a la possibilité d’insérer des pages produits dans les pages de résultats, lors d’une recherche par mots-clés.
   
Les outils francophones ont suivi l’exemple il y a peu. Nomade et Voila ont ainsi lancé en octobre 2001 une offre d’emplacement publicitaire, qui permet l’affichage de certains sites en haut de la page de résultats, selon les mots-clés choisis par l’utilisateur.
   
Les descriptions de ces sites ressemblent à celles de l’annuaire, mais elles contiennent la mention Sponsoring sur Nomade et Sponsor sur Voila ; elles sont par ailleurs légèrement séparées des résultats de l’annuaire. Yahoo! France pour sa part
annonce le lancement d’une offre similaire aux Sponsored Sites de Yahoo.com pour le début  de l’année 2002…
   
Les moteurs de recherche ont bien sûr tenté d’offrir un service équivalent.
   
Google propose ainsi une offre publicitaire composée de deux services.
   
Le premier, baptisé Premium Sponsorship, permet à un éditeur de faire figurer, en haut de la page de résultats, pour un mot-clé donné, un bandeau publicitaire donnant la description de son site avec un lien hypertexte. Cette description ressemble fort aux résultats fournis par Google, et ne s’en distingue que par un très léger encadré pastel et par la mention Sponsor figurant tout à fait à droite du lien.
   
La deuxième offre est celle des Ad Words ; elle prend la forme de petits encadrés (trois maximum) contenant un titre, une courte description et l’URL, positionnés sur la droite de la page.
   
Enfin, parallèlement à ces emplacements publicitaires, il existe un système de positionnement payant, fondé en majeure partie sur la base des données fournies par Overture (anciennement GoTo).
   
Ce moteur fonctionne de façon très spécifique : sur sa liste de résultats, les sites ne sont pas classés par pertinence, mais selon un système de mise aux enchères de mots-clés (voir Netsources n°33).
   
Les enchères atteignent quelquefois des sommes importantes (0,3 $ par exemple pour chaque clic), car il est vital pour les éditeurs de figurer parmi les premiers résultats ; ceux-ci sont en effet repris par de nombreux outils de recherche (AltaVista.com, HotBot, Yahoo.com, etc), ce qui multiplie leur visibilité.
   
Dans le monde européen, et sur un modèle similaire, le moteur Espotting.fr a fait son apparition à la fin de l’année 2001 ; il fournit des liens à des outils comme HotBot France, AltaVista France et Lycos France.
   
Inconcevables il y a peu de temps, les emplacements publicitaires et les positionnements payants sont devenus pratiques courantes chez les outils de recherche.
   
Pour l’internaute, l’important est de prendre conscience que les premiers résultats affichés ne sont pas forcément les plus pertinents, et que certaines descriptions doivent être considérées comme un bandeau publicitaire et non comme la réponse à la question.     Le tout est de le savoir ; pour le moment du moins, la frontière entre ces offres et les résultats existe.
   

VERS UN DEVELOPPEMENT DES SERVICES PAYANTS ?

   
Ce début d’année a été marqué par une nouvelle qui attristera plus d’un netsurfer : Northern Light, cet outil particulier qui classe ses résultats dans des dossiers thématiques, ne donnera plus un accès libre à son moteur à partir du 16 janvier.
   
La société a en effet décidé de redéfinir sa  stratégie pour se focaliser plus encore sur l’intégration de solutions de recherche et de contenus, pour les entreprises clientes.
   
Northern Light a toujours refusé de suivre le modèle économique des autres moteurs (référencement et positionnement payant, bandeaux publicitaires...), et se singularisait par sa cible, uniquement professionnelle. Cette décision devrait lui permettre de diminuer les coûts de maintenance du moteur de recherche sur le Web, qui restera accessible aux abonnés.
   
Le site en revanche permettra toujours d’interroger, sans abonnement, la Special Collection, qui contient aujourd’hui plus de 70 millions de documents issus de 7 100 sources ; comme par le passé, la visualisation des références restera gratuite et l’affichage du texte intégral sera payant.
   
De même, les différents dossiers (Special Edition) proposés par le moteur resteront en accès libre (Computer Viruses ; Computers & Privacy ; Enterprise Information Portals...), tout comme le module de recherche sur l’actualité. Ce module donne accès aux articles et dépêches, mis à jour en permanence, de 56 sources d’actualité, avec une antériorité de 15 jours.
   
Si Northern Light est le premier des grands moteurs à prendre une telle décision, d’autres y réfléchisssent.
   
Google a ainsi annoncé il y a peu que le principe d’un accès payant à des versions thématiques du moteur était à l’étude.
D’après la société, une réelle demande existe en effet — émanant d’entreprises, d’universités — pour des versions verticales de Google, spécialisées par exemple dans la recherche de périodiques, d’informations médicales ou technologiques...
   
Après avoir tout misé sur la prise de parts de marchés, les outils de recherche doivent aujourd’hui impérativement, sous peine de disparaître, atteindre l’équilibre financier, en trouvant d’autres sources de revenus que la publicité en ligne.
   
Le référencement payant en est une. L’autre pourrait bien être le développement de services en ligne — payants — à haute valeur ajoutée.

 

Version imprimable
BASES PUBLICATIONS
27, rue de la Vistule
75013 Paris
Tél. : 01.45.82.75.75
contact@bases-publications.com
Abonnez-vous   |   Contact   |   Mentions légales |   Crédits