Actualités
Agenda
Liens utiles
Netsource
Netsource - Sommaire en cours
Netsource - Anciens sommaires
Netsource - Recherche des archives
Revue Bases
Revue Bases - Sommaire en cours
Revue Bases - Anciens sommaires
Revue Bases - Recherche des archives
Ouvrages
Qui sommes-nous ?
Notre équipe
Accueil > Netsources > Anciens sommaires > Actualité des outils de recherche

Netsources, Numéro de Mars-Avril 2002 - n°37


Actualité des outils de recherche

Auteur : Béatrice Foenix-Riou

 

DERNIERS CHIFFRES SUR LA TAILLE DES MOTEURS DE RECHERCHE


Comme il le fait plusieurs fois dans l'année, Greg Notess, l'un des gourous anglophones de l'Internet, a publié sur son site Search Engine Showdown (www.searchengineshowdown.com) les résultats de ses tests visant à calculer la taille de l'index des principaux moteurs de recherche.
   
Certes, les moyens de Greg Notess n'ont pas l'ampleur de ceux de Steve Lawrence et C. Lee Giles, du NEC Research Institute, auteurs de la fameuse étude sur la taille du Web visible (Searching the World Wide Web, voir Netsources n°21, juillet/août 1999) ; mais ces résultats fournissent néanmoins une base de comparaison objective entre les différents moteurs, ce qui est appréciable.
   
Pour son analyse, Greg Notess a comparé  les réponses des dix principaux moteurs à 25 requêtes simples (un mot).
   
Les résultats n'étonneront personne : Google a identifié au total un nombre de pages nettement plus important que ses concurrents (8 371 pour les 25 questions, contre 5 009 pour le moteur arrivant en second). Il a par ailleurs donné le plus grand nombre de réponses pour 23 des 25 questions.
   
La seconde place du classement est occupée par le récent et discret Wisenut, qui devance All The Web (5 009 réponses contre 4 388). Suivent Northern Light (3 610 rÈponses), AltaVista (3 432), HotBot (2 869), MSN Search (2 523), Teoma (1 839), iWon (778) et DirectHit (259).
   
A partir des résultats de ces tests, et des pourcentages de réponses obtenus par chaque moteur, Greg Notess a estimé la taille réelle des index de chaque outil.
   
Il a pour cela utilisé comme base de départ la taille des index de Northern Light et d'All The Web, qui peut être connue en temps réel de façon simple.
   
Pour Northern Light par exemple que l'on peut toujours interroger, vraisemblablement pour peu de temps encore, à l'adresse www.nlresearch.com , il suffit d'entrer la requÍte search OR NOT search (ou tout autre requÍte, comme to be OR NOT to be...). En réponse à cette formule magique, le moteur indique le nombre exact de pages indexées qui contiennent OU qui ne contiennent pas le terme indiqué... ce qui revient à sélectionner toutes les pages de l'index.
   
Le nombre de pages était de 357 794 384 le 5 mars (date des tests de Greg Notess) et de 356 090 765 pages le 4 avril (date de nos tests) ce qui, soit dit en passant, montre que la taille des index ne suit pas toujours une courbe croissante !
All The Web pour sa part indexait 579 614 700 pages le 5 mars.
   
En multipliant ces chiffres réels par les pourcentages de réponses obtenues lors des tests, Greg Notess a dressé un tableau estimatif de la taille des index des moteurs, qu'il a mis en relation avec la taille annoncÈe par les producteurs (en millions de pages).

                  Greg Notess    Moteur

Google                968      1 500
WiseNut              579      1 500
All The Web        580         507   
N.Light                 417        358   
AltaVista              397        500
HotBot                 332        500
MSN Search       292         500

S'il est incontestable que les tests effectués sont trop peu nombreux pour donner la taille exacte de l'index des moteurs, et que celle-ci peut forcément varier dans un sens ou dans un autre, ces chiffres ont le mérite d'établir un classement des outils sur une mÍme base, et de mettre en évidence que les déclarations des éditeurs sont souvent loin de la réalité.
Il est important d'en avoir conscience...
   

GOOGLE ET LA SCIENTOLOGIE


Le moteur de recherche Google a eu de nouveau des démêlés avec l'Eglise de Scientologie.

En avril 2001 déjà, il s'était vu rappeler à l'ordre par la Mission interministérielle de lutte contre la drogue et la toxicomanie (MILDT), car une requÍte sur un mot comme drogue affichait, en plus des classiques listes de pages, des encarts publicitaires (les fameux AdWords) sur ... l'Eglise de Scientologie !

Alertée par des internautes, la MILDT avait sommé Google de retirer ces publicités, ce que le moteur avait fait immédiatement.

Le mois dernier, c'est l'éditeur du site Xenu.net hostile à la secte qui a reçu un message de Google, lui indiquant que des pages de son site allaient être retirées de son index ; le motif indiqué était que l'Eglise de scientologie menaçait le moteur de poursuites judiciaires, s'il continuait de pointer sur des pages reproduisant illégalement des documents dont la secte détenait les droits (d'après le Digital Millenium Copyright Act).

Dans un premier temps, le moteur a donc été de son index les pages de Xenu.net incriminées. L'affaire ayant été largement commentée et critiquée par la presse et par l'Electronic Frontier Foundation, qui défend la liberté d'expression sur l'Internet, il a fait machine arrière et à restauré les liens.

Plus récemment, il a décidé de clarifier la situation, et dans le mÍme temps de se couvrir juridiquement. Il a donc rendu public le courrier de l'Eglise de Scientologie, avec la liste des pages de Xenu.net incriminées.
   
Une copie de la lettre a été envoyée au comité de défense des droits en ligne Chilling Effects, qui l'a mise sur son site, en masquant simplement les noms de l'expéditeur et du destinataire.
   
La lettre est accompagnée de questions-réponses détaillées sur les droits et devoirs des fournisseurs de service, leurs responsabilités quant au Digital Millenium Copyright Act, etc. Une page reprend la liste des URLs du site Xenu.net incriminées par l'Eglise de scientologie ; l'internaute peut alors copier ces URLs dans son navigateur pour les visualiser immédiatement, sur le site Xenu.net.
   
Par ailleurs, si l'on lance une recherche sur Google avec la requÍte scientology site:xenu.net, on obtient 1 260 résultats ; en bas des pages de résultats, un message peut cependant indiquer Suite àl'application de la loi américaine sur le copyright intitulée Digital Millennium Copyright Act (DMCA), nous avons éliminé 1 (le nombre varie selon les pages) résultat(s) de cette page. Si vous le souhaitez, vous pouvez prendre connaissance de la réclamation DMCA ayant entraîné l'élimination de ces résultats.
   
Un lien amène alors sur le site de Chilling Effects.
   
Une façon judicieuse de préserver la chèvre et le chou !

LOOKSMART RACHETE WISENUT

   
Lancé en septembre 2001 par Yeogirl Yun créateur du comparateur de prix MySimon , le moteur de recherche Wisenut est considéré par Greg Notess comme le moteur le plus important (en nombre de pages indexées) derrière Google ; son écran d'accueil indique ainsi que la requête est lancée sur 1,5 milliard de pages Web.
   
Avec un écran d'accueil très dépouillé (à la mode Google), Wisenut offre relativement peu de possibilités de recherche, mais a comme avantage de classer les réponses dans des dossiers thématiques (bien moins précis toutefois que ceux de Northern Light). Ce moteur très discret, qui ne nous a jamais réellement conquis, a été racheté en mars 2002 par l'annuaire Looksmart.
   
Ce dernier pourrait intégrer la technologie de recherche de Wisenut dans le courant de l'année. Looksmart deviendrait alors le premier outil de recherche possédant en propre un répertoire de sites Web et un moteur de recherche (les résultats fournis sont actuellement ceux de Inktomi pour la version internationale et de Google pour la version française).


 

Version imprimable
BASES PUBLICATIONS
27, rue de la Vistule
75013 Paris
Tél. : 01.45.82.75.75
contact@bases-publications.com
Abonnez-vous   |   Contact   |   Mentions légales |   Crédits