Actualités
Agenda
Liens utiles
Netsource
Netsource - Sommaire en cours
Netsource - Anciens sommaires
Netsource - Recherche des archives
Revue Bases
Revue Bases - Sommaire en cours
Revue Bases - Anciens sommaires
Revue Bases - Recherche des archives
Ouvrages
Qui sommes-nous ?
Notre équipe
Accueil > Netsources > Anciens sommaires > La page Web et sa taille

Netsources, Numéro de Mars-Avril 2003 - n°43


La page Web et sa taille

Auteur : Madeleine Wolff-Terroine

 
Nos tribunes regorgent d’articles sur le nombre de pages engrangées par les différents moteurs de recherche : qui va gagner, AlltheWeb ou Google ? Et Openfind, le péril jaune ?

Pourtant, un point fort important semble peu intéresser les commentateurs : la taille des pages indexées par les robots des moteurs. C’est ce que nous apprend Marc Duval dans une très intéressante chronique.
On y voit en effet que les moteurs ont des comportements fort différents ; ils ne prennent pas tous en compte le même volume de caractères : “Google et Gigablast indexent jusqu’à 101 K, Alta Vista 130 K, OpenFind 610 K, AlltheWeb 976 K, Voila 1582 K” pour ne donner que quelques exemples.

On mesure rapidement les conséquences de cette situation.
Lorsque les documents sont longs (rapports, réglementation, jurisprudences…), la troncature du fichier peut facilement permettre la non-indexation du terme significatif : et l’on obtient une réponse négative à une recherche alors que le document est bon.

D’autre part, comme le fait remarquer Marc Duval, cette troncature influe sur la structure des fichiers Web. Personne n’ignore la situation actuellement dominante de Google. Or ce dernier, nous l’avons vu, indexe jusqu’à 101 K : il y a donc, chez les Webmasters, une tendance à sectionner les documents ; on a ainsi des pages de plus faible taille, mais plus nombreuses. Etonnez-vous ensuite que partout l’on travaille à réaliser des algorithmes plus performants pour la compression des données !

Donc, la taille de la page indexée est un élément essentiel pour “qu’une page soit trouvée avec un automate de recherche”. AlltheWeb (peut-être parce qu’il indexe jusqu’à 976 K) semble le seul à tenir compte de ce facteur. Dans sa recherche avancée, il propose une option de recherche, filesize, qui permet de limiter sa requête selon la taille du fichier. En fonction du problème traité, on peut donc jouer sur la meilleure probabilité de résultats ou sur le temps d’affichage.

Nous nous étions demandés quel était l’intérêt de cette option de recherche : c’est maintenant très clair. Mais que vont faire les concurrents, Google en particulier ?
www.dsi-info.ca/chroniques/chroniques-recherche-web.html


 

Version imprimable
BASES PUBLICATIONS
27, rue de la Vistule
75013 Paris
Tél. : 01.45.82.75.75
contact@bases-publications.com
Abonnez-vous   |   Contact   |   Mentions légales |   Crédits