Actualités
Agenda
Liens utiles
Netsource
Netsource - Sommaire en cours
Netsource - Anciens sommaires
Netsource - Recherche des archives
Revue Bases
Revue Bases - Sommaire en cours
Revue Bases - Anciens sommaires
Revue Bases - Recherche des archives
Ouvrages
Qui sommes-nous ?
Notre équipe
Accueil > Bases > Anciens sommaires > Actualités sur le Net

Bases, Numéro de Octobre 2002 - n°187


Actualités sur le Net

Concurrence sévère entre les moteurs

Auteur : Béatrice Foenix-Riou

 
Les moteurs de recherche se livrent sur le Net une concurrence sévère. Il suffit pour s’en convaincre de suivre un tant soit peu la “guerre des index” à laquelle participent les ténors du domaine, et en particulier Google et AlltheWeb (dans cette guerre justement, Google vient de franchir une étape en dépassant le premier la barre des trois milliards de pages indexées !).
   
Cette concurrence a comme première conséquence le souci constant des moteurs d’accroître la taille de leur index, d’améliorer son rafraîchissement, mais aussi d’offrir une couverture la plus large possible des domaines couverts, pour le plus grand plaisir des utilisateurs.
   
Google France permet ainsi de lancer une requête par mots sur les pages Web bien sûr, mais aussi sur les forums de discussion (onglet Groupes, situé au-dessus de la zone de saisie), les images (onglet Images) et l’annuaire de l’Open Directory (onglet Répertoire).
   
AlltheWeb pour sa part surmonte sa barre de saisie des onglets  Web, News, Pictures, Videos, MP3 Files et FTP Files, permettant de rechercher autant de documents spécifiques.

Pour les professionnels de l’information, le discret onglet News possède sur ce moteur un intérêt tout particulier.
   
Il permet en effet de lancer une requête par mots sur une base d’actualités récentes. Cette dernière, qui existe depuis près d’un an (voir Bases n°176), est réalisée grâce à un robot spécifique, qui parcourt tout au long de la journée plus de 3 000 sources d’actualité sur le Web, et met son index à jour continuellement. D’après AlltheWeb, plus de 800 articles sont indexés chaque minute. Les 3 000 sources surveillées comprennent aussi bien des quotidiens de tous les pays que des sources financières, des agences de presse et des sites plus spécialisés. Les articles sont conservés une semaine dans la base.
   
Avec cette recherche sur l’actualité récente, AlltheWeb possédait un avantage certain sur Google. Concurrence oblige, Google vient de lancer l’équivalent sur son interface en anglais.
   
Le module Google News (accessible directement depuis l’adresse news.google.com, ou à partir de l’onglet News proposé sur www.google.com), permet de lancer une recherche sur des articles issus de plus de 4 000 sources du monde entier (mais en uniquement anglais) indexées en continu.
   
L’antériorité est ici d’un mois.
   
La page d’accueil affiche des liens vers les principales actualités, classées dans les catégories World, U.S., Business, Sci/Tech, Sports, Entertainment et Health. Les articles sont choisis de façon totalement automatique, sans aucune intervention humaine. Sophistication intéressante, les documents concernant un même sujet sont regroupés, ce qui permet de comparer instantanément le traitement d’une  actualité  selon les organismes et les sources.
   
En cliquant sur l’un des domaines, on affiche une page “auto générée toute les quatre minutes”, qui propose une liste d’une vingtaine d’articles avec pour chacun leur titre (et un lien vers le texte intégral), la source, la date d’indexation (il y a deux heures, il y a huit heures...), les deux premières lignes, et un lien vers les autres sources traitant du même sujet.
   
Il est également possible de lancer une requête par mots sur l’ensemble des articles indexés, avec des possibilités proches de celles de la recherche sur le Web : l’opérateur AND est utilisé par défaut, mais Google News comprend l’opérateur OR (écrit en majuscules).
   
Rien n’est précisé quant aux possibilités de recherche, mais il semble que l’opérateur intitle: (recherche sur le titre) fonctionne, contrairement à l’opérateur site: (recherche sur un nom de domaine). On peut toutefois utiliser inurl: (recherche sur l’URL), combiné le cas échéant avec la recherche d’un mot dans le titre ou dans le texte.
   
Cela permet d’identifier des articles sur un sujet issus d’une source particulière (Ex.: intitle:vivendi inurl:forbes).
   
La page de résultats affiche la liste des articles sélectionnés, classés par pertinence ; un lien en haut à droite de l’écran permet d’obtenir un classement chronologique.
   
Si ces possibilités sont “honnêtes”, elles demeurent moins sophistiquées que celles offertes par la grille de recherche avancée sur les news d’AlltheWeb.
   
Cette dernière permet en effet de limiter la requête selon :

- la langue des documents : Google News n’indexe que des articles en anglais, quand AlltheWeb indexe des articles dans 49 langues ;
- le type de sources : international, business, finance, technologie...
- le domaine : en incluant uniquement ou en excluant les sites d’un domaine (.fr, lemonde.fr...) ;
- la date d’indexation : pages indexées depuis 2 heures, 6 heures, 12 heures... jusqu’à une semaine.
   
Mais comme personne n’est parfait (surtout pas les moteurs), AlltheWeb ne permet pas de limiter la requête aux titres ou aux urls des articles...
   
Nous avons voulu comparer les résultats de Google News et d’AlltheWeb pour des requêtes sur des sujets d’actualité.
   
Les quelques tests que nous avons pu faire montrent que lorsque la recherche est limitée aux documents indexés depuis 24 heures (limitation aisée sur AlltheWeb ; pour Google : classement chronologique et comptage des documents...), le nombre de résultats est généralement plus important sur AlltheWeb, surtout lorsque le sujet ne concerne pas spécifiquement les Etats-Unis ou le Royaume-Uni.
   
Une recherche sur “Yvan Bourgnon” donne ainsi 2 résultats indexés le 13 novembre sur Google News (US Sailing et Yachting World) et 17 sur AlltheWeb (AFP, Reuters, Le Monde...) ; RWE (société allemande) génère pour sa part 8 articles sur Google News et 25 sur AlltheWeb. Quant aux articles indexés le 13 novembre concernant  Cable & Wireless, on en compte 52 sur Google News (issus de sources comme Reuters, CNN, Forbes..., mais aussi de Middlesborough Evening Gazette (UK), Electric News.net, Ananova (UK)...) et 64 sur AlltheWeb (el Periodico, Scotsman Business, CBS Market Watch, Basler Zeitung Online...).
   
Les 3 000 sources d’AlltheWeb semblent donc générer plus de documents que les 4 000 sources de Google, mais ce dernier possède néanmoins un atout indéniable : l’antériorité de la base. Les articles sont conservés un mois, quand ils ne sont gardés qu’une semaine sur AlltheWeb...
   
Il est intéressant de noter que cette recherche sur les news semble être une des voies actuelles de développement des moteurs de recherche.
   
AltaVista vient ainsi de lancer la nouvelle interface de son moteur, totalement relooké et axé sur la recherche.
   
L’interface en anglais (accessible depuis le lien “AltaVista in English” de la version française) offre, tout comme Google, un onglet News supplémentaire.
   
La page d’accueil de ce module ressemble d’ailleurs étonnament à celle de Google News, et propose également une sélection des titres d’actualité classés par catégories (Top Stories, Business, Finance...).
   
Différents menus déroulants permettent de restreindre une recherche par mots en la limitant selon le domaine, la zone géographique (continent ou pays, dans une liste), la source (14 titres dont BBC, CNN, CNN Europe, Forbes...), et la date d’indexation (30 jours maximum). Comme sur Google, les opérateurs title: et url: peuvent être utilisés.
   
Les résultats semblent très proches de ceux de Google News, mais AltaVista propose quelques options supplémentaires pour chaque article, telles que Get similar articles et Translate.
   
Il peut aussi être utile de “garder un œil” sur le site DeepIndex News, réalisé par la société française Deep Index.com (éditeur de l’outil de recherche – guère convainquant – du même nom).
   
Ce site, actuellement en version beta, prétend en effet effectuer des recherches sur plus de 150 titres de la presse francophone, dont La Tribune, Le Monde, Le Figaro, Libération, Le Parisien, L'Humanité, Les Echos, L'équipe...
   
La page d’accueil annonce “Près de 200.000 articles indexés dont certains sont réactualisés toutes les heures”.
   
Lors de nos tests cependant, les résultats ont été inégaux ; certains liens proposés menaient en fait à la page d’accueil du site (qui ne comportait pas d’articles sur le sujet), quand d’autres affichaient un message “erreur 404”... Mais le site est encore en beta test et devrait - on l’espère - être amélioré...
   
Enfin, il serait injuste de ne pas citer Northern Light, l’un des premiers moteurs à avoir offert un module de recherche sur l’actualité. Les sources dépouillées sont certes moins nombreuses (62 titres), mais les possibilités de recherche comptent parmi les plus sophistiquées de cette catégorie d’outils, et surtout, un système d’alerte est proposé gratuitement.
   
Bref, une évolution qui ne devrait pas laisser les internautes indifférents...
   
INFORMATIONS :

- AlltheWeb : www.alltheweb.com, puis onglet News
- AltaVista : www.altavista.com/news/
- DeepIndex News : www.news.deepindex.com
- Google News : news.google.com
- Northern Light : www.nlresearch.com, rubrique Current News


 

Version imprimable
BASES PUBLICATIONS
27, rue de la Vistule
75013 Paris
Tél. : 01.45.82.75.75
contact@bases-publications.com
Abonnez-vous   |   Contact   |   Mentions légales |   Crédits