
|
Bases, Numéro de Mars 2004 - n°203 Des moteurs de recherche pour surveiller l'actualité |
Auteur : Béatrice Foenix-Riou |
|||||||||||||||||||||||||||||||||||||||||||
|
Les derniers mois ont été riches en bouleversements dans le monde
des outils de recherche sur le Web.
Que l’on en juge par ces quelques rappels : - en février 2003, la société améri-caine Overture, “inventeur” du système largement répandu aujourd’hui des “liens sponsorisés”, a racheté le moteur norvégien AlltheWeb – le challenger sérieux mais discret de Google – puis, quelques jours après, le moteur AltaVista, l’un des vétérans de l’Internet ; - en juillet de la même année, cette société Overture a été achetée par ... Yahoo!, le célèbre annuaire lancé en 1994 par deux étudiants de l’université de Stanford, qui n’imaginaient certainement pas se retrouver quelques années plus tard à la tête d’une société cotée, implantée dans une vingtaine de pays... - fort des trésors cachés dans ses tiroirs – suite à ce rachat, Yahoo! possèdait donc les technologies d’Altavista, d’AlltheWeb mais aussi celles d’Inktomi, acheté directement en décembre 2002 –, Yahoo! a lancé le 18 février 2004 son propre moteur de recherche, utilisant sa propre technologie – Yahoo! Search Technology –. Selon ses concepteurs, cette plate-forme reprend “ce qu’il y avait de meilleur” dans les trois solutions... L’index de ce moteur, d’un volume comparable à celui de Google, a dans un premier temps été utilisé pour fournir les résultats lors d’une recherche par mots sur la version internationale de Yahoo!, puis sur les diverses versions nationales ; en mars dernier, comme l’on pouvait s’y attendre, les moteurs AltaVista et AlltheWeb ont à leur tour été basculés sur cette plate-forme. L’offre en matière de moteur de recherche a donc sérieusement été amputée, puisque AltaVista, AlltheWeb et Yahoo! Search fournissent aujourd’hui, en réponse à une requête par mots, des résultats pratiquement identiques. De la même façon, les modules News de ces trois moteurs (voir Bases n°187) ont, semble-t-il, fusionné. Mais les tests effectués montrent toutefois que chaque outil conserve des spécificités qu’il est bon de connaître. Rappelons que ces modules News – qu’il s’agisse de celui de Google ou des trois moteurs – sont réalisés par des robots spécifiques, qui parcourent tout au long de la journées plusieurs milliers de sources d’actualité sur le Web et mettent à jour leur index continuellement. Ces modules sont donc une source d’information complémentaire des grandes bases classiques, mais avec un positionnement totalement différent : - les possibilités de recherche sur les modules News sont à l’avenant de ce que l’on voit sur le Web : la requête doit être simple, voire simpliste – quelques mots reliés par AND ou OR avec, dans le meilleur des cas, une limitation au titre des articles. On est très loin ici des possibilités d’interrogations sophistiquées offertes par les agrégateurs de presse ; - contrairement aux grands serveurs – qui indexeront normalement tous les articles d’un titre depuis une date précise –, il n’est pas question ici d’exhaustivité ; les robots passent à certains moments de la journée et indexent les articles disponibles alors. Il ne faut donc pas s’attendre à retrouver tous les articles parus dans un numéro, ni tous les numéros d’un titre... - l’antériorité des articles sur les moteurs est minime : une ou deux semaines, voire un mois dans le meilleur des cas. Par ailleurs, le nombre de liens morts n’est pas négligeable. De nombreux sites de presse offrent en effet les articles du jour en accès libre – ils sont alors indexés par les moteurs – mais les basculent ensuite dans une rubrique réservée aux abonnés. Or, si le moteur a bien indexé le texte intégral de l’article, il n’affiche que son titre et un extrait. Un clic sur le titre connecte l’internaute au site de l’éditeur ; si l’article est passé en zone “réservée”, on obtient un message d’erreur... La recherche d’actualités sur les moteurs n’est donc pas une solution satisfaisante si la requête est complexe, si l’on recherche des articles parus il y a plus d’un mois, ou si retrouver “tous” les articles publiés sur un sujet est une condition sine qua non. En revanche, les moteurs apporteront une aide incomparable aux internautes qui veulent trouver rapidement quelques articles gratuits et très récents sur un sujet – les articles peuvent être en ligne quelques heures après leur publication sur le site de l’éditeur –, ou qui souhaitent surveiller la parution d’articles sur un thème donné... Il nous a donc semblé utile de faire un rapide tour d’horizon des services offerts en ce sens par les principaux moteurs de recherche, à savoir Google et la “famille Yahoo!” : Yahoo! Search, AltaVista et AlltheWeb. LES NEWS CHEZ ALTAVISTA, ALLTHEWEB, YAHOO! ET GOOGLE : DES AIRS DE FAUX JUMEAUX...Dans le cadre de cet article, nous avons effectué un certain nombre de tests sur les modules de News de Google et des trois moteurs de Yahoo!, afin de mieux mettre en évidence leurs caractéristiques.Ces tests montrent que si les modules News des différents moteurs ont indiscutablement un air de ressemblance, chacun garde néanmoins certaines spécificités. Ainsi, l’antériorité varie selon les moteurs.• AlltheWeb ne conserve les articles qu’une semaine – ce qui était déjà le cas avant la fusion –.Sa grille de recherche avancée permet de limiter la sélection selon la date d’indexation des articles : deux, six, douze ou vingt-quatre heures, deux jours ou une semaine ; • sur la version internationale de Yahoo! (search.yahoo.com), les articles sont conservés un mois. La grille de recherche avancée permet, là aussi, de limiter la sélection aux articles indexés depuis une heure, un jour, une semaine, deux semaines, un mois, ou entre deux dates précises ; • AltvaVista propose, sous sa zone de saisie, un menu déroulant permettant de choisir des options similaires à celles de Yahoo!. Le choix par défaut est une semaine. On regrettera ici la disparition, au cours de la fusion, des “archives” d’AltaVista. C’était en effet le seul moteur de recherche qui conservait les articles sur une longue période (plus d’un an)... • Google enfin conserve les articles un mois. Sur la version internationale du moteur, il est possible de préciser l’antério-rité des articles recherchés par une manœuvre pour le moins peu intuitive. La grille de recherche avancée lancée au cours de l’été 2003 a en effet été soigneusement cachée, mais reste disponible depuis la page About Google News. En lisant la FAQ (Frequently Asked Questions), on voit ainsi qu’en réponse à la question “How do I find everything the Prosimian Times wrote about Gentle Lemurs in the last month?”, Google écrit “Try the advanced search page to refine your search.” Le lien fonctionne toujours – pour le moment du moins –, et affiche une grille permet-tant notamment de limiter la sélection aux articles publiés depuis une heure, un jour, une semaine ou un mois, ou entre deux dates précises. On précisera que cette grille n’est accessible que depuis la version internationale de Google. La couverture linguistique varie selon les moteurs.• AlltheWeb est incontestablement celui qui a la meilleure couverture linguistique.Il indexe des sources d’actua-lité du monde entier, dans toutes les langues. Sa grille de recherche avancée permet de limiter la sélection selon la langue des documents (toutes les langues, ou une langue, à choisir dans une liste de 49). On notera à ce sujet que par défaut, AlltheWeb se limite aux documents en anglais. Si l’on veut être exhaustif, il est donc impératif de penser à cocher l’option “Any language” ou, mieux encore, à l’enregistrer dans les préférences ; • La version internationale de Yahoo! quant à elle n’affiche par défaut que les articles en anglais. Sa grille de recherche avancée offre néanmoins un choix de 35 langues, et l’on peut cocher autant de langues qu’on le souhaite. • la version internationale d’AltaVista se limite unique-ment aux articles issus de sources anglophones ; le moteur conseille d’utiliser l’opérateur domain: pour limiter la sélection aux titres de presse anglais, néo-zélandais, australiens... mais cette astuce n’est pas totalement satisfaisante. Sinon, la presse allemande est disponible sur l’interface www.altavista.de. • Quant à Google, les sources sont fonction de l’interface interrogée. Google.com donne accès exclusivement à des articles en anglais, Google.fr indexe les sources francophones, etc. Yahoo! vs Google : concurrence serrée pour le nombre de sources indexées.Les deux “géants” mènent une course sévère pour mériter le titre du moteur indexant le plus grand nombre de sources d’actualité.• Ainsi, Google nous apprend sur les pages d’accueil de ses différentes interfaces News qu’il surveille plus de 4 500 sources d’actualité anglophones, 500 sources francophones, 700 sources en allemand, 250 en italien et 700 en espagnol, soit un total de 6 650 sources. • La version internationale de Yahoo! News quant à elle a été totalement revue et enrichie en mars 2004. La nouvelle interface (search.yahoo.com/news) annonce que Yahoo! indexe quotidiennement plus de 7 000 sources d’actualité, dans 35 langues. Bizarrement cependant, il semble que le module Actualités de Yahoo.fr ne soit pas réellement un sous-ensemble du module News de Yahoo.com. Ainsi, le module français est réalisé pour une part importante par les dépêches de l’AFP, de Reuters et d’Associated Press et par les articles de quelques sites spécialisés, notamment dans les domaines financiers (Investir, Boursier.com...), de l’informatique (01.net, SVM, ZDNet...) ou de la santé (Caducee.net...). On retrouve en revanche, dans la version internationale, de nombreux titres de presse régionale ou nationale non présents sur la version française (Libération, L’Yonne Républicaine, La Dépêche du Midi, Dernières Nouvelles d’Alsace...). Pour une recherche sur l’actualité française, il est donc préférable d’interroger la version internationale de Yahoo! plutôt que la version française, en ayant soin de préciser, dans la grille de recherche avancée, que les articles doivent être en français... Les possibilités de recherche sont plus ou moins sophistiquées.Sur ce plan également, les possibilités des différents moteurs varient.• D’une façon générale, on peut dire que Google détient malheureusement le titre de moteur le plus “simpliste”. Le développement des fonc-tions avancées ne compte pas parmi les priorités du moteur et on le regrette. D’ailleurs, seule la version américaine possède, soigneusement cachée, une grille de recherche avancée. • Parmi les moteurs de la “famille” Yahoo!, c’est le “moteur d’origine” qui offre les possibilités les plus complètes. Ainsi, Yahoo! est le seul à permettre l’usage de la troncature (sur les actualités uniquement) ; c’est également le plus complet pour sélectionner les articles selon leur langue ; certes, le nombre de langues est moins important que sur AlltheWeb (35 au lieu de 49), mais il est possible ici de rechercher spécifiquement des articles dans plusieurs langues, alors qu’AlltheWeb n’offre que les options “une langue” ou “toutes les langues”. • Pour leur part, les possibilités légendaires de recherche avancée d’Altavista déçoivent. Il semble qu’au cours de son basculement sur la plateforme Yahoo! Search Technology, le moteur ait perdu quelques fonctionnalités. Ainsi, la troncature ne fonctionne plus, ni sur le Web, si sur les actualités... Quel dommage..
Quelques informations complémentairesD’une façon générale, lors d’une recherche par mot sur leur module News, les moteurs indiquent le titre de l’article, sa source, un extrait pertinent et fournissent un lien vers le texte intégral, sur le site de l’éditeur.En complément de ces données, certains moteurs offrent des informations supplémentaires. • Pour chaque article identifié, AltaVista propose ainsi un lien More info, qui donne un résumé, la source, la date et l’heure de publication, la taille et l’URL de la page. Un lien Translate permet de traduire l’article grâce à l’outil Babel Fish. • Google quant à lui présente l’originalité de regrouper automatiquement les articles et photos traitant d’un même sujet, ce qui permet de comparer instantanément le traitement d’une actualité selon les organismes et les sources. • Yahoo! Search enfin précise, sous le lien Also try, les termes et expressions connexes – ce qui peut être utile pour affiner une question –, et ajoute aux résultats les images et vidéos des sources d’actualité répondant à la requête. Yahoo! et Google offrent un service d’alerteJusqu’ici, Google possédait sur ses concurrents – en ce qui concerne les modules News – un avantage certain : il était le seul à offrir un service d’alerte par e-mail, depuis août 2003 pour la version internationale et depuis février 2004 pour la version française.Concurrence oblige, la nouvelle version de Yahoo! News offre un service similaire. Ces deux services permettent d’enregistrer une stratégie de recherche sur le module News, pour être prévenu par e-mail dès que de nouveaux articles répondant à la question sont indexés. Les emails indiquent le titre de l’article, la source, un extrait pertinent et fournissent un lien vers le texte intégral. Un e-mail est envoyé pour chaque nouvel article sur Yahoo!, alors que Google propose utilement de rassembler dans un e-mail quotidien les nouveaux articles. On le voit, dans leur course à l’audience, les moteurs enrichissent sans cesse leur offre. La nouvelle version de Yahoo! News a été notablement enrichie, pour être “au moins aussi bien” que celle de Google. Néanmoins, si ces versions se ressemblent, il est important de garder à l’esprit que chacune a ses spécificités, notamment en ce qui concerne les sources indexées. Plus que jamais, la recherche sur plusieurs moteurs est importante. Et pour une recherche complète, les agrégateurs ne devront pas être oubliés.
|
||||||||||||||||||||||||||||||||||||||||||||