Bases, Numéro de Octobre 2001 - n°176


Actualités sur le Net

Enrichissement notable de l'offre

Auteur : Béatrice Foenix-Riou

Rechercher des informations “fraîches” voire “chaudes” sur le Web relève souvent du parcours du combattant.
   
Certes, de nombreux quotidiens, tant nationaux qu’internationaux ou régionaux, offrent sur leur site un accès libre aux articles du journal du jour.
   
Les agences de presse pour leur part (Reuters, AFP, Bloomberg, Associated Press...) réactualisent plusieurs fois par jour leurs fils de dépêches, qui peuvent être en ligne sur leur site quelques heures seulement après leur publication.
   
Mais pour surveiller la couverture médiatique d’un événement, il faut se connecter fréquemment à chacun des sites, ce qui est long et fastidieux. Car les moteurs de recherche ne permettaient pas — jusqu’ici — d’identifier des dépêches ou des articles récents (pour ne pas dire “du jour”).
   
Lorsque l’on lance une requête sur un moteur tel que Google, celle-ci se fait en effet sur son index de pages Web.
   
Cet index est constitué de tous les mots contenus dans toutes les pages que le robot du moteur a identifiées au cours de son tour du Web.
   
Ce robot, ou crawler, part d’un certain nombre d’URLs prédéfinies et, à partir de là, va cliquer sur tous les liens qu’il rencontre, puis va rapatrier dans son index le texte intégral de toutes ces pages. Après quoi, il repart de sa base pour la mettre à jour.
   
Son tour du Web lui prend en moyenne quatre semaines, mais ce délai peut varier entre une et six semaines selon les outils.
   
La recherche sur un moteur étant effectuée sur son index, elle se fait donc sur la copie des pages telles qu’elles étaient le jour où le robot les a indexées, et non sur les pages telles qu’elles sont le jour de l’interrogation.
   
Comme cette copie peut dater de quatre semaines, l’identification d’une actualité est bien hasardeuse !
   
Pour compenser cette faiblesse, de nombreux outils ont conclu des partenariats avec des agences de presse ou des quotidiens.
   
L’annuaire Nomade par exemple (www.nomade.fr) propose en continu une sélection des dépêches de Reuters, classées par rubriques (France et Monde, Economie, Multimédia, Insolite, Sport...).
   
AltaVista pour sa part a conclu un partenariat avec Moreover (voir description du service ci-après) pour sa version internationale (www.altavista.com), et fournit une sélection d’articles et de dépêches issus de plus de
3 000 sources.
   
Yahoo! enfin offre un service dédié à l’actualité (fr.news.yahoo.com), qui regroupe, par rubriques (monde, économie...), les dernières dépêches d’agences  (Reuters, Associated Press, AFP)  actualisées toutes les heures, mais aussi des articles du jour de quotidiens (Les Echos...).
   
Ces services constituent certes une source d’information intéressante pour suivre l’actualité, mais ils ne délivrent qu’une sélection de dépêches, choisies selon des critères qui ne sont pas précisés.
   
Bonne nouvelle pour le veilleur, de nouveaux services ont fait  leur apparition sur le Web et enrichissent de façon notable l’offre.
   

ALL THE WEB : UN MOTEUR DE RECHERCHE SUR L’ACTUALITE

   
La plus récente des offres — et sans doute la plus intéressante — a été lancée en novembre 2001 par All The Web et a fait grand bruit dans le monde des internautes.
   
Le moteur All The Web, l’un des principaux concurrents de Google, a en effet annoncé qu’il ajoutait à son index de 630 millions de pages Web (le deuxième en volume derrière celui de Google) un module de recherche sur l’actualité.
   
Grâce à la technologie Fast Real-time — Fast est la société norvégienne qui développe le moteur —, un robot spécifique parcourt tout au long de la journée plus de 3 000 sources d’actualité sur le Web, et met son index à jour continuellement. D’après All The Web, plus de 800 articles sont indexés chaque minute, et l’ensemble du catalogue est rafraîchi en 9 à 11 jours.
   
Les 3 000 sources surveillées par le moteur comprennent aussi bien des quotidiens — essentiellement économiques — de tous les pays (The New York Times, Guardian Unlimited, Les Echos, Nürnberger Nachrichten, Gazeta de Sud, Dagsavisen, De Standaard, Prague Business Journal...), que des agences de presse (Reuters...), des sources financières (CBS Market Watch...), et des sites plus spécialisés (PC World, Linux Today, NewsWine.com...).
   
L’écran d’accueil d’All The Web s’est donc enrichi d’un onglet supplémentaire, permettant de lancer une requête sur les News (il y avait déjà les onglets Web, mais aussi Pictures, Videos, MP3 files et FTP files).
   
La grille de recherche, basique, est constituée d’une zone de saisie pour les mots-clés et d’un menu déroulant pour restreindre la sélection aux documents dans une langue particulière (dans un choix de 46 langues, du basque au croate, en passant par le vietnamien et le gaélique).
   
En cliquant sur le lien Advanced search, on affiche une grille plus sophistiquée permettant de préciser que la requête doit se faire sur tous les mots, un des mots ou la phrase exacte, de choisir la langue des pages à sélectionner, ainsi que le ou les types de sources (international, business, sports, finances, actualités locales, technologie, météo...).
   
On peut aussi affiner la question en recherchant uniquement — ou au contraire en excluant — les pages  appartenant à un domaine spécifique (.com, .gov, .fr, mais aussi lemonde.fr...).
On peut enfin limiter les résultats selon la date d’indexation des documents (depuis deux heures, depuis quatre heures... jusqu’à depuis une semaine).
   
Après avoir lancé la recherche, on obtient une page de résultats donnant pour chaque document son titre, une brève description, la source, la taille (en Kb), ainsi que le jour et l’heure d’indexation (et il est fréquent d’avoir comme renseignement : indexé il y a 10 minutes...).
   
Un clic sur le titre affiche le texte intégral de l’article ou de la dépêche ; un clic sur la source renvoie vers la page d’accueil du site qui a fourni l’information.
   
Lors des différents tests que nous avons pu faire sur ces outils de recherche spécifiques, All The Web s’est souvent singularisé par la grande fraîcheur de ses informations et sa couverture relativement meilleure des sources non-anglophones.
   
Nous avons ainsi obtenu fréquemment des articles du jour de quotidiens comme Le Monde ou Les Echos.
   
En revanche, on trouve souvent dans les résultats des doublons qui proviennent de la même source, indexée à différentes heures de la journée par le robot. Il semblerait que les articles identiques ne soient pas forcément identifiés comme tels par le moteur et que les différents enregistrements d’un même article s’ajoutent au lieu de se remplacer.
   
Mais peut-être n’est-ce là qu’un péché de jeunesse.
Cette recherche sur les news est très récente, et l’on peut comprendre qu’une période de “rôdage” soit nécessaire pour identifier et éliminer certaines imperfections.
   

DAYPOP (WWW.DAYPOP.COM) : DES SOURCES D’ACTUALITES ET DES WEBLOGS

   
Lancé discrètement il y a quelques mois, DayPop est un outil de recherche sur les news très original. En complément des classiques sites d’actualités (quotidiens, agences de presse...), il surveille également des sources très spécifiques : les “Weblogs”.
   
Qu’est-ce qu’un Weblog ?
   
Si l’on en croit le Grand Dictionnaire Terminologique (www.granddictionnaire.com), l’appellation “weblog” – syno-nyme de “blogue” – est utilisée pour désigner “une page Web évolutive et non conformiste présentant des informations de toutes sortes, généralement sous forme de courts messages mis à jour régulièrement, et dont le contenu et la forme, très libres, restent à l'entière discrétion des auteurs.”
   
Il est également précisé que “Le ton sarcastique et très personnel des commentaires présentés dans un blogue est caractéristique du type de site qui l’héberge. On trouve souvent dans un blogue des liens qui renvoient le visiteur vers d'autres sites.”
   
En fait, un Weblog est un site Web d’origine personnelle ou non-commerciale, qui se situe entre le quotidien informel et  le groupe de discussion.
   
Il contient des actualités rédigées par son éditeur ou tirées d’autres sites Web, concernant un sujet spécifique ; les Weblogs se caractérisent par des mises à jour très fréquentes, par les différents points de vue  que s’échangent généralement les visiteurs, et par les nombreux liens offerts.
   
A ce titre, les Weblogs constituent une source d’information digne d’intérêt, mais souventnégligée par les outils de recherche.
   
DayPop comble cette lacune puisque son robot indexe quotidiennement plus de 6 000 Weblogs et sources d’actualité.
   
L’écran d’accueil de DayPop ressemble fort à celui de Google et frappe par sa simplicité : un logo (petit et sobre) à gauche de la zone de saisie, et quelques liens vers une grille de recherche avancée, la présentation du site, etc.
   
Dès l’écran d’accueil toutefois, il est possible de limiter le champ de la requête aux dépêches, aux articles (headlines), aux Weblogs ou à toutes les sources.
   
L’écran de recherche avancée est plus complet et permet de restreindre la sélection aux pages dans une langue donnée (dans un choix de 10 langues), d’un pays particulier (dans un choix de 35), ou encore aux pages indexées depuis trois heures, douze heures... jusqu’à quatre semaines d’antériorité.
   
La liste des résultats de DayPop a également un air de famille avec celle de Google...
Les résultats, classés par date, affichent pour chacun le titre, un extrait contenant les termes de la requête surlignés, l’URL, la taille, la date d’indexation et ... une copie cachée de la page avec les mots-clés en surbrillance (sauf pour les “headlines”).
   
Pour les résultats issus de Weblogs, un lien “Citations” permet d’autre part d’afficher les pages qui pointent vers les documents identifiés.
   
Avec sa couverture très spécifique, DayPop vient compléter des sources comme AllTheWeb ou Moreover.
    Certes, les documents issus des Weblogs diffèrent sensiblement de ce que l’on peut trouver dans des sources de presse, mais ils peuvent apporter un éclairage intéressant lors de certaines recherches, notam-ment celles qui concernent les sociétés.
   

MOREOVER (WWW.MOREOVER.COM) : PLUS DE 3000 SOURCES D’ACTUALITE

   
Lancé en 1998 par un journaliste du Financial Times, le site Moreover a mis quelques temps à se faire connaître, mais est aujourd’hui un des sites de référence du domaine.
   
Ce portail dédié à l’actualité indexe les articles et les dépêches de plus de 3 000 sources anglophones du monde entier, comprenant aussi bien les sites des principales agences de presse, les quotidiens, les publications industrielles, que les rapports de recherche, les communiqués de presse ou les groupes de discussion...
   
Là encore, la mise à jour se fait en continu, et de nouveaux articles sont ajoutés tout au long de la journée (toutes les 15 minutes environ).
   
A partir de l’écran d’accueil de Moreover, il faut cliquer sur le discret register pour accéder — après un enregistrement gratuit — à la version la plus complète de la base.
   
On obtient alors un écran très sobre avec deux couleurs dominantes (le noir et l’orange), affichant, dans sa partie centrale, les dernières informations dans le domaine financier, avec pour chacune  son titre, la source (Bloomberg, Corporate Financing Week, Telecom Investor...), la date et l’heure d’indexation. En cliquant sur le titre, on affiche dans une nouvelle fenêtre le texte intégral de l’article ou de la dépêche, sur le site de l’éditeur.
   
En complément de cette consultation chronologique, le site permet une recherche par mots sur l’ensemble de la base.
   
La requête peut se faire en utilisant les opérateurs AND, OR, NOT, et les guillemets. Sinon, on peut retrouver les dernières informations classées dans des rubriques (Companies, Entertainment, General, Internet...) et des sous-rubriques relativement précises (plus de 330 catégories au total).
   
En fait, le site de Moreover.com est une vitrine des produits de la société. Celle-ci offre en effet des solutions de push destinées à alimenter un intranet ou un portail (Connected Intelligence (CI) Solutions), pour un prix de départ de 30 000 $ par an.
   
Malheureusement, la société semble estimer que ces années de lancement ont suffi à la faire connaître, et le site de recherche de news qu’était Moreover tend à devenir un simple site vitrine... Jusqu’ici en effet, une fois enregistré, le netsurfer pouvait interroger gratuitement la totalité des archives de Moreover, et n’était pas limité dans l’affichage des résultats.
   
Depuis la mi-décembre, l’offre est bien moins intéressante.
   
Fort de son succès et après avoir sensibilisé les internautes à son service, Moreover ne donne plus accès, une fois enregistré, qu’aux vingt-cinq derniers documents, que ce soit lors de la recherche par mots-clés ou par arborescence.
   
Pour les non-inscrits, la sélection est encore plus drastique : seuls les cinq derniers articles sont affichés.
   
En revanche, et pour enrichir son fichier prospects, Moreover leur propose, depuis la liste des résultats classés par catégories, de s’inscrire pour recevoir par e-mail les dernières actualités, sur une base quotidienne ou hebdomadaire.
   

ROCKETNEWS : 5 JOURS D’ACTUALITE

   
Lancé par la société Rocketinfo en octobre 2001, le site Rocketnews permet de lancer une recherche par mots-clés sur les actualités des cinq derniers jours, parues dans des quotidiens du monde entier, sur des sites d’agences de presse, des magazines spécialisés...
   
Les possibilités de recherche sont basiques (opérateur AND, OR, NOT dans la recherche avancée), mais RocketNews se fait pardonner par la qualité des informations fournies.
Pour chaque article, il ne se contente pas en effet d’afficher les premières lignes ou un extrait, mais fournit un réel résumé du contenu.
   
Enfin, sophistication intéressante, il propose un service de push avec l’affichage sur son ordinateur d’une petite fenêtre, dans laquelle s’inscrivent en temps réel les titres des nouveaux articles répondant à la question...
   
On le voit, la surveillance de l’actualité sur un sujet n’est (toujours) pas tâche aisée, mais ces services peuvent néanmoins apporter une aide précieuse aux internautes.
   

OUTILS DE RECHERCHE SUR L’ACTUALITE

   
    Couverture, antériorité   Possibilités de recherche
 

ALL THE WEB

(www.alltheweb.com)

• 3 000 sources d’actualités (quotidiens, agences de presse,
sites spécialisés...) dans le monde    entier 
• antériorité : une semaine
Opérateurs AND (tous les mots), OR (un des mots)
ou phrase exacte. Filtre selon la langue des pages (46),
le type de sources (business, finance...), le domaine (.fr, lemonde.fr...), l’heure ou la date d’indexation
(2 heures...) 
 

DAYPOP

(www.daypop.com)

• 6 000 weblogs et sources d’actualités (dépêches, headlines...) dans le monde entier
• antériorité : quatre semaines
Opérateur AND implicite. Filtre selon la langue des pages (10), le pays (35), l’heure ou la date d’indexation
(3 heures, 12 heures...)
 

MOREOVER

 (www.moreover.com)

• 3 000 sources d’actualités anglophones (quotidiens, sources spécialisées et industrielles...). Affichage des 25 documents les plus récents. Opérateurs AND, OR, NOT. Recherche par mots ou par arborescence (330 catégories)
 

ROCKETNEWS

 (www.rocketnews.com)

Sources d’actualités du monde entier
5 jours d’antériorité
La recherche avancée permet de préciser s’il faut utiliser tous les mots (AND), un des mots (OR) ou aucun des mots (NOT).