Netsources, Numéro de Mars-Avril 2003 - n°43


La page Web et sa taille

Auteur : Madeleine Wolff-Terroine

Nos tribunes regorgent d’articles sur le nombre de pages engrangées par les différents moteurs de recherche : qui va gagner, AlltheWeb ou Google ? Et Openfind, le péril jaune ?

Pourtant, un point fort important semble peu intéresser les commentateurs : la taille des pages indexées par les robots des moteurs. C’est ce que nous apprend Marc Duval dans une très intéressante chronique.
On y voit en effet que les moteurs ont des comportements fort différents ; ils ne prennent pas tous en compte le même volume de caractères : “Google et Gigablast indexent jusqu’à 101 K, Alta Vista 130 K, OpenFind 610 K, AlltheWeb 976 K, Voila 1582 K” pour ne donner que quelques exemples.

On mesure rapidement les conséquences de cette situation.
Lorsque les documents sont longs (rapports, réglementation, jurisprudences…), la troncature du fichier peut facilement permettre la non-indexation du terme significatif : et l’on obtient une réponse négative à une recherche alors que le document est bon.

D’autre part, comme le fait remarquer Marc Duval, cette troncature influe sur la structure des fichiers Web. Personne n’ignore la situation actuellement dominante de Google. Or ce dernier, nous l’avons vu, indexe jusqu’à 101 K : il y a donc, chez les Webmasters, une tendance à sectionner les documents ; on a ainsi des pages de plus faible taille, mais plus nombreuses. Etonnez-vous ensuite que partout l’on travaille à réaliser des algorithmes plus performants pour la compression des données !

Donc, la taille de la page indexée est un élément essentiel pour “qu’une page soit trouvée avec un automate de recherche”. AlltheWeb (peut-être parce qu’il indexe jusqu’à 976 K) semble le seul à tenir compte de ce facteur. Dans sa recherche avancée, il propose une option de recherche, filesize, qui permet de limiter sa requête selon la taille du fichier. En fonction du problème traité, on peut donc jouer sur la meilleure probabilité de résultats ou sur le temps d’affichage.

Nous nous étions demandés quel était l’intérêt de cette option de recherche : c’est maintenant très clair. Mais que vont faire les concurrents, Google en particulier ?
www.dsi-info.ca/chroniques/chroniques-recherche-web.html