
|
Netsources, Numéro de Mars-Avril 2004 - n°49 Yahoo! Search TechnologyVoyage au centre d'un moteur |
Auteur : Béatrice Foenix-Riou |
||||||||||||||||||
|
Le 18 février dernier, Yahoo! a créé l’événement en annonçant que
les visiteurs de son portail Yahoo! Search (search.yahoo.com)
obtiendraient désormais, lors d’une recherche par mots, des
résultats issus de son propre index, retrouvés grâce à son propre
algorithme de recherche, Yahoo! Search Technology (voir
Netsources n°48).
Il annonçait par là-même la fin prochaine de son partenariat avec Google – depuis juillet 2000 en effet, l’annuaire Yahoo! fournissait à ses utilisateurs, lors d’une requête par mots, des résultats issus de l’index de Google – et saluait la naissance d’un nouvel outil de recherche, Yahoo! devenant un moteur à part entière. Cette évolution était prévisible, puisque Yahoo! avait racheté le moteur Inktomi en décembre 2002, puis le spécialiste du lien sponsorisé Overture en juillet 2003 ; il était devenu du même coup propriétaire des moteurs AltaVista et AlltheWeb, rachetés par Overture en février 2003... Avec les technologies de trois moteurs – et non des moindres – dans ses tiroirs, il aurait été étonnant que Yahoo! persévère dans sa collaboration avec un autre moteur – fut-il Google – pour la fourniture de ses résultats... Ce qui devait arriver est donc arrivé, et le moteur Yahoo! Search Technology (YST pour les intimes) a fait son apparition. Disposant de sa propre plate-forme et de son propre index, il est présenté comme un subtil mélange entre les trois technologies, ses concepteurs ayant bien sûr retenu “ce qu’il y avait de meilleur” dans chacune... INDEX D’YST : UN POUR TOUS, TOUS POUR UN...Comme l’on pouvait s’y attendre, les diverses versions nationales de Yahoo! ont peu à peu basculé – courant mars 2004 – sur la nouvelle plate-forme, tant en Europe (France, Royaume-Uni, Allemagne...), qu’en Asie (Asie, Inde, Singapour...), en Océanie (Australie...) et en Amérique du Sud (Brésil, Argentine...).Parallèlement, les moteurs AlltheWeb puis AltaVista ont à leur tour abandonné leur index, pour utiliser celui de Yahoo! Search Technology. Cette décision est certes logique – le maintien de trois solutions technologiques est forcément plus coûteux que l’utilisation partagée d’une seule –, mais elle constitue une perte irremplaçable pour les internautes. Comme nous l’avons vu plusieurs fois dans ces colonnes, chaque moteur a en effet une couverture du Web qui lui est propre, chacun ayant un nombre de pages uniques bien plus important qu’on ne serait tenté de le croire (voir à ce sujet l’article pp.6-7). Sur ce point, l’index d’AlltheWeb était un excellent complément à celui de Google, lorsque Google fournissait peu de résultats à une requête. Nous avions ainsi constaté, dans l’article “Investigation sur des sociétés en Chine” (Netsources n°48), que certaines informations capitales sur la société objet de l’enquête n’étaient indexées que par AlltheWeb. Las, sur cette question précise par exemple, le nouvel index de Yahoo! n’identifie pas ces précieuses pages – pourtant toujours sur le Web – qui restent introuvables désormais via Google, Yahoo!, AlltheWeb ou AltaVista... Nous avons voulu comparer à la fois les trois moteurs de la famille Yahoo! et leur principal concurrent, Google*. Des quelques tests que nous avons effectués, il ressort que : <>- les versions internationales d’AltaVista, d’AlltheWeb et de Yahoo! utilisent toutes trois la plateforme Yahoo! Search Technology ; pourtant, les réponses des trois moteurs à une même requête présentent des différences importantes,</> tant sur le nombre de résultats que sur leur classement, et ce pour des mots-clés en français ou en anglais. D’une façon générale, AltaVista et AlltheWeb fournissent un nombre de réponses très proche (avec des différences néanmoins dans le classement des pages), mais ce nombre est systématiquement très inférieur à celui que l’on obtient sur Yahoo! Search (souvent entre trois et dix fois moins élevé !) ;<>- les mêmes requêtes posées à Yahoo! Search (search.yahoo.com) et à Yahoo! Recherche (fr.search.yahoo.com) ont obtenu presque toujours un nombre de résultats légèrement inférieur sur l’interface française,</> et ce pour des mots-clés en français ou en anglais. Peut-être est-ce dû à la jeunesse du moteur, ou peut-être y-a-t-il des délais de mise à jour entre les “data centers” interrogés ? <>- les réponses obtenues sur Yahoo! Search et sur Google sont quant à elles “comparables”,en ce sens que selon les questions, c’est l’un ou l’autre des moteurs qui a identifié le plus grand nombre de pages et ce aussi bien pour des questions générant un nombre de résultats élevé que pour des “mots obscurs”, pour lesquels il y a peu de réponses.</> <> A titre d’exemples, Google a remporté la manche sur Yahoo! pour les mots coucoumelle (46 pages sur Google contre 31 sur Yahoo!), “discus leopard” (64 contre 43), Locarn (3 570 contre 2 190), “référencement payant” (15 500 contre 13 100) ou “développement durable” (1 130 000 contre 978 000). Yahoo! quant à lui a obtenu plus de résultats pour les mots rhynchonelles (146 contre 34), “polymères conducteurs” (1 070 contre 997), “agents intelligents” (71 100 contre 19 900), “commerce équitable” (96 700 contre 73 600) et desert kalahari (110 000 contre 78 000).</> Il nous a semblé cependant – mais le nombre de tests n’était pas assez significatif pour l’affirmer – que Yahoo! remportait plus souvent la palme quand le nombre de réponses était important, alors que Google obtenait souvent plus de réponses sur les mots “obscurs”... Cela étant, sauf pour les mots obscurs où il est aisé de vérifier, le nombre de réponses indiqué par chaque moteur est clairement approximatif – et nul ne connaît la “fourchette d’approximation” utilisée – ; il peut d’autre part varier de façon notable d’un jour à l’autre... On notera que les mêmes requêtes posées sur les versions française et internationale de Google ont donné à chaque fois le même nombre de pages. Si ces tests sont trop peu nombreux pour permettre d’établir une règle quelconque, ils montrent cependant que Yahoo! Search est aujourd’hui un moteur avec lequel il faut compter et qui peut sans rougir être comparé à Google. En revanche, ils présagent un futur difficile pour AlltheWeb et AltaVista. Le nombre de réponses obtenues sur ces moteurs était en effet systématiquement plus faible que sur Yahoo! Search, ce qui réduit fortement l’intérêt qu’il peut y avoir à les interroger. D’autant que lors de son basculement sur la nouvelle plate-forme, AltaVista a perdu certaines des fonctionnalités qui faisaient de ce moteur l’un des plus sophistiqués du Web. Ainsi, il ne reconnaît plus la troncature et l’opérateur NEAR ne semble plus fonctionner correctement... Bref, sauf à utiliser les modules spécifiques de ces deux moteurs (seuls demeurent les fichiers MP3/audio et vidéos – le module fichiers FTP d’AlltheWeb ayant disparu avec l’ancienne version...), on voit mal ce qui pourra convaincre les internautes d’interroger AltaVista et AlltheWeb. C’est une triste fin ! YAHOO! SEARCH & GOOGLE : COMME UN AIR DE FAMILLELa ressemblance entre Yahoo! Search et Google ne se limite pas à la taille de leur index. La présentation des résultats, comme les possibilités de recherche, ont elles aussi un air de famille ...On sent ainsi clairement que Yahoo! a soigneusement étudié son ex-partenaire avant de lancer sa propre solution. Sa page de résultats d’abord ressemble à celle de Google comme une sœur. Yahoo! s’est fortement inspiré des choix de son concurrent, tant en ce qui concerne la forme (police de caractères, corps et couleurs des lettres, mise en page...) que le fond ; pour chaque page, on trouve ainsi le titre, un extrait pertinent – ou la description du site si celui-ci est répertorié dans l’annuaire de Yahoo! –, l’URL et enfin, le cas échéant, le lien Plus de résultats sur ce site et le très utile lien En cache, jusqu’ici apanage de Google. Au “jeu des sept erreurs”, on remarque malgré tout quelques différences entre les deux pages de résultats : - par défaut, Yahoo! affiche vingt résultats par page, quand Google en présente dix ; dans les deux cas, ce nombre est paramétrable via le lien Préférences, à droite de la zone de saisie ; - Yahoo! a choisi de présenter uniquement une page d’un même site et de regrouper les autres sous le lien Plus de résultats sur ce site. Google quant à lui affiche les deux premières pages (la deuxième apparaît en décalé sur la droite), et regroupe les autres sous le lien [Autres résultats, domaine www.....]. Lors des quelques tests que nous avons faits, il était fréquent de trouver, pour un site donné, plus de pages indexées sur Yahoo! que sur Google ; - sur Yahoo!, lorsque des rubriques du Guide Web contiennent les mots de la requête, ces rubriques s’affichent en haut de la page de résultats. On peut cliquer sur les rubriques et obtenir la liste des sites pertinents. De la même façon, lorsque l’une des pages identifiées correspond à la page d’accueil d’un site de l’annuaire, la rubrique dans laquelle est indexé le site figure sous sa description. Google proposait auparavant ces mêmes informations, issues de l’annuaire Open Directory ; mais depuis le lancement de sa nouvelle interface fin mars, les données issues de Dmoz ont disparu de la page de résultats Web ; l’annuaire Directory a même été supprimé de la barre des onglets sur la version internationale, pour laisser la place à Froogle (un catalogue de produits vendus en ligne)... C’est bien dommage, car le lien avec l’annuaire permet d’affiner facilement et de façon pertinente une question un peu trop générale... - à la droite de chaque page identifiée par Yahoo!, figure un petit pictogramme qui permet d’ouvrir la page en question dans une autre fenêtre. Cette fonctionnalité intéressante – elle évite les incessants allers-retours entre la liste de résultats et les différentes pages – est également offerte, mais plus discrètement, par Google ; il faut en effet cliquer sur le lien Préférences, et cocher l’option “Montrer les résultats de recherche dans une nouvelle fenêtre de navigateur” ; - lorsque la requête est très large, Yahoo! propose souvent, sous la zone de saisie, deux expressions connexes permettant d’affiner la question. Pour le mot veille, il suggère par exemple ecran veille, veille économique et, si l’on clique sur Suite, il ajoute mise en veille, veille d’écran, techniques de veille. Certes, ces “related searches” sont loin d’être aussi précises que celles fournies notamment par les technologies d’Exalead (AOL France) et d’AltaVista Prisma. Mais en l’état, elles peuvent aider à orienter la requête... et qui sait, l’intégration, au sein d’YST, de la technologie AltaVista Prisma, n’est peut-être qu’une question de temps... Google pour sa part ne propose pas, pour le moment du moins, d’expressions connexes. Néanmoins, des rumeurs circulent sur le Net et laissent penser qu’il travaille sur la question... - En terme de liens sponsorisés, Yahoo! affiche les quatre premiers liens payants d’Overture en haut de l’écran – sous la rubrique Liens sponsorisés – et les deux suivants en bas de la page. Google quant à lui affiche huit AdWords maximum dans une colonne sur la droite de l’écran et propose également deux liens commerciaux en haut de la liste des résultats, dans un encadré pastel. DES FONCTIONNALITES DE RECHERCHE PRESQUE IDENTIQUESLes fonctionnalités de recherche sur les deux moteurs sont très proches, Yahoo! ayant sans doute souhaité ressembler autant que faire se peu à son rival, pour attirer les internautes sans perturber leurs habitudes.Ainsi, la recherche sur les champs titre et URL se font, comme sur Google, avec les opérateurs intitle: et inurl:, quand la grande majorité des moteurs utilisent title: et url:. On trouvera, à la fin de cet article, un tableau reprenant les principales fonctions de recherche sur les deux outils. Sa lecture montre que les grandes fonctionnalités sont les mêmes, à quelques détails près : - l’opérateur filetype: suivi de l’extension du fichier ne peut-être utilisé, pour le moment, que sur la version internationale de Yahoo! ; sur la version française, il faut se contenter de la grille de recherche avancée – mais ce n’est vraisemblablement qu’une question de temps... - la recherche de “back links” (pages pointant vers une page donnée) se fait sur Yahoo! avec l’opérateur link: immédiatement suivi de http://www.... Si l’on inscrit uniquement l’URL, sans la faire précéder de http:// (ce qui est la syntaxe de Google), on obtient un résultat très inférieur (voire un résultat nul) ; - la prise en compte des caractères accentués est différente sur les deux moteurs. Sur Yahoo!, la syntaxe est claire : lorsque les mots sont écrits sans accents, Yahoo! recherche toutes les occurrences du mot (avec et sans accents). En revanche, une recherche sur un mot accentué se fera de façon stricte. C’est la syntaxe utilisée notamment par AltaVista ; Sur Google en revanche, les règles sont plus floues. Théoriquement, Google ne tient pas compte des accents et autres signes diacritiques (cédilles, tilde espagnol...). C’est du moins ce qu’il indique clairement dans son aide en ligne. Pratiquement, les choses ne sont pas si simples... Nous avions ainsi souligné, dans le numéro 36 de Netsources (janvier/ février 2002), que la prise en compte ou non des accents par Google semblait varier selon que le mot était généraliste ou obscur. Ainsi, une recherche avec le terme “éléphant” ou “elephant” donne “sensiblement” le même nombre de réponses : respectivement 2,92 millions de pages pour le mot accentué contre 2,88 sans les accents ; ces différences – certes illogiques – peuvent être attribuées à l’approximation du calcul (on notera que les chiffres diffèrent légèrement selon la version de Google interrogée). En tout état de cause, les résultats semblent confirmer la non prise en compte des accents par Google. Mais – et c’est là toute l’ambiguïté du problème – les choses se compliquent dès lors que la requête porte sur un mot “obscur” et accentué, pour lequel il y a peu de réponses, et donc justement pour lequel il est important d’obtenir toutes les réponses... Ainsi une requête sur “elasticimetrie” obtient 7 pages sur Google (version française ou internationale) et ... 77 pages si le mot est écrit avec ses accents ! Une requête sur +élasticimétrie (le symbole + impose la recherche sur l’occurrence exacte du mot, ou sur les mots vides) obtient 70 réponses ; ceci laisse supposer que, pour les mots obscurs uniquement, Google adopte le principe exactement contraire à Yahoo! et AltaVista, à savoir : • si le mot est accentué, toutes les occurrences du mot sont recherchées ; • si le mot est écrit sans accents, seules les occurrences exactes du mot sont identifiées ! Un choix fâcheux, quand de nombreux professionnels de l’information saisissent le plus souvent les mots sans leurs accents – et quand l’aide indique que le moteur est insensible aux accents !... UN MODULE IMAGES DECEVANT, MAIS DES NEWS TRES RICHESLa rupture de Yahoo! avec Google a été complète et a concerné non seulement les résultats issus du Web, mais aussi la recherche d’images.Yahoo! utilise désormais son propre fichier d’images, et fournit dans le même temps des photos isssues des actualités. Malheureusement, les quelques tests que nous avons faits montrent que ce fichier est, pour le moment du moins, bien moins important que celui de Google – qui venait juste de doubler le sien, pour atteindre 880 millions d‘images ! Quant au module News, il est comparable à celui de Google, voire même plus important. Le module News de Yahoo.com a en effet été totalement revu et enrichi en mars 2004, et indexe quotidiennement plus de 7 000 sources d’actualités, dans 35 langues. Sur Google, il faut interroger Google.com pour interroger les titres en anglais (4500 sources anglophones) et Google.fr pour les titres en français (500 sources francophones). Bizarrement, le module Actualités de Yahoo.fr ne semble pas être – pour le moment du moins – un sous-ensemble du module News de Yahoo.com. Les actualités françaises sont en effet composées pour une part importante de dépêches d’agences de presse (AFP, Reuters...) et par les articles de quelques sites spécialisés (informatique, finance...) alors que le module News indexe plus spécialement la presse nationale et régionale du monde entier. Pour une recherche sur l’actualité française, il est donc préférable aujourd’hui d’interroger la version internationale (search.yahoo.com/news), en ayant soin de préciser, dans la grille de recherche avancée, que les articles en français doivent être sélectionnés (par défaut, seuls les articles en anglais sont retenus). On le voit, Yahoo! Search Technology est un outil “aussi puissant” que Google ; son index est d’une taille similaire, ses possibilités de recherche sont pratiquement identiques, il possède tout ce que l’on aime chez Google (les temps de réponse très courts, la pertinence des résultats, la fonction Cache, les documents PDF, Word, Excel...), bref, YST à la couleur de Google... mais les internautes semblent trouver qu’il n’en a pas le goût ! Les derniers baromètres sur l’utilisation des outils de recherche montrent en effet qu’à la surprise générale, la part de Google a encore progressé (bientôt 70 % en France !), quand celle de Yahoo! a très légèrement diminué... Certes, ces résultats sont décevants pour Yahoo! Mais pour convaincre les internautes de changer leurs réflexes, proposer “aussi bien” ne suffit pas. Surtout de la part d’un ex-annuaire qui traîne derrière lui une image de portail surchargé et commercial, plus que d’outil de recherche performant ! Il faudrait à notre avis, en premier lieu, faire la part belle à cette nouvelle interface dépouillée (son URL actuelle est difficile à retenir, et connue seulement des initiés !), dire adieu au portail surchargé, et proposer “encore mieux” que Google... Et là, sûrement, Yahoo! Search Technology pourrait prendre son ampleur... *Ces tests avaient pour seul objectif de se faire une idée générale sur la taille des différents index. Pour une comparaison plus précise – en terme quantitatif et qualitatif – des index de Yahoo! et de Google, on lira avec profit le n°47 (mars 2004) de la lettre Recherche & Référencement d’Olivier Andrieu.
|
|||||||||||||||||||