Bases, Numéro de Novembre 2002 - n°188


Newsroom sur Dialog

Une attaque frontale de Factiva et LexisNexis

Auteur : François Libmann

La société Dialog a depuis longtemps une offre de titres de presse tout à fait conséquente sur ses trois plate-formes Dialog, DataStar et Profound.
   
Sur Dialog et DataStar, elle est répartie dans différents types de fichiers. Certains reprennent le texte intégral d'un titre (New York Times, South China Morning Post, Le Monde…) ou de plusieurs titres (Canadian Newspapers…), avec quelques éléments d'indexation.
   
D’autres offrent le texte intégral (de plus en plus souvent) ou un résumé en anglais de plusieurs centaines et souvent plusieurs milliers de titres (Promt, Business & Industry…). Dans ce deuxième cas, et pour la plupart des documents, l'indexation peut être très sophistiquée. Mais le fait que des milliers de titres soient répartis sur plusieurs dizaines de banques de données ne rend pas les choses très faciles, pour qui veut effectuer rapidement et simplement une recherche sur l’ensemble des titres de presse disponibles sur le serveur.
   
Cela, même si des outils spécifiques comme Dialindex et Onesearch permettent d'effectuer sur le serveur Dialog des recherches multifichiers (dans la limite de 60 pour Onesearch).
   
À côté de cela, ou plutôt en face comme des concurrents, Factiva (depuis son lancement récent), et LexisNexis (depuis bien plus longtemps, dans sa bibliothèque News), offrent la possibilité “naturelle” d'effectuer la recherche dans plusieurs milliers de sources à la fois.
   
Profound, avec son option Newsline, allait déjà dans cette direction, mais Dialog a décidé de donner un grand coup d'accélérateur pour contrer LexisNexis et Factiva, en développant fortement Newsline, rebaptisé Newsroom, et en le proposant sur ses trois plate-formes.
   
Il nous a paru intéressant d'évaluer Newsroom, d'une part en tant que tel et d'autre part comparé à ses concurrents directs.
   
Aux dernières nouvelles, Newsroom comporte plus de 7 300 sources, tandis que Factiva en propose environ 8 000 (dont certaines inactives), et LexisNexis près de 12 800, dans la bibliothèque NEWS. Mais dans ce dernier cas, si l'on examine la liste des publications, on observe qu’il n’est pas rare qu'une même publication arrivant par des canaux différents soit comptée plusieurs fois.
   
Le chiffre total est donc à minorer, ce qui conduit au même ordre de grandeur en nombre de sources pour les trois produits.
   
Newsroom est donc une très volumineuse banque de données, bien que son antériorité ne remonte qu'au début 2000 sur Dialog et DataStar, où elle compte plus de 36 millions de documents.
   
Sur Dialog, elle est découpée actuellement en quatre fichiers :

- n° 995 pour l'année 2000 ;
- n° 994 pour l'année 2001 ;
- n° 933 pour la période janvier-août de l'année 2002 ;
- n° 990 pour les données les plus récentes (3 à 4 mois).
   
Il est néanmoins possible d'interroger l'ensemble avec le code NEWSROOM.
  
Sur DataStar, le découpage est différent :

- NEWS ou NE02 pour les informations publiées en 2002 ;
- NE01 pour les informations publiées en 2001 ;
- NE00 pour celles publiées en 2000.
   
Sur Profound, Newsroom remplace Newsline et la recherche se fait sur cinq années.
   
Par ailleurs, un accès spécifique a été créé à l'adresse www.dialognewsroom.com, où l'on ne trouve que Newsroom avec des contrats forfaitaires d’utilisation illimitée, le montant du forfait étant fonction du nombre d'utilisateurs. L'interface est celle de Profound.
   

DES SOURCES DE DIVERSES NATURES

   
On pourrait certes considérer que la mise à disposition de Newsroom vise à supprimer l’inconvénient majeur qu’il y avait auparavant à effectuer ses recherches dans plusieurs banques de données, en particulier de presse, sur Dialog et DataStar. Mais on peut aussi penser que choisir explicitement les banques de données dans lesquelles on lance une requête augmente la pertinence des réponses.
   
A titre d’exemple, si l’on cherche des articles concernant la vie des entreprises, des produits et des marchés, on préfèrera des bases telles que Promt et Business & Industry, qui sont de nature très voisine.
   
On ne cherchera pas en général dans les quotidiens américains ou anglais, dans lesquels on trouvera nombre de faits divers et de notices nécrologiques parfaitement hors sujet.
   
A l’inverse, ces quotidiens locaux ou régionaux seront une source bien adaptée pour se renseigner sur une entreprise américaine ou anglaise de taille moyenne.
   
Lors d’une recherche sur Dialog ou DataStar, le choix de son “bouquet” de bases et la définition de la stratégie est donc fonction de la question et doit tenir compte des caractéristiques de chaque base.
   
On pouvait bien sûr considérer que la limite du Onesearch à 60 bases était insupportable et que la succession des ..REPEAT sur DataStar l’était aussi.
   
Mais passer à une banque de données unique qui est un véritable patchwork de sources très diverses n’est pas nécessairement la solution idéale, surtout quand l’indexation laisse à désirer (voir ci-dessous) et que les aides à la recherche ne sont pas disponibles. Les sources de Newsroom sont en constante évolution, d’autant que la base a été lancée il y a quelques mois seulement. On y trouve de nombreux fils d’agences – en particulier de l’Agence France Presse, l’Associated Press, UPI –, une grande quantité de quotidiens américains, anglais et australiens, mais aussi des publications à caractère plus scientifique et technique (revues médicales...) ou très business. Le risque est donc grand d’obtenir un bruit considérable, et peu de moyens sont proposés pour l’éviter, alors qu’il y aurait des possibilités.
   
En caricaturant à peine, chercher dans Newsroom est équivalent à chercher dans un ensemble de bases comprenant Business & Industry, les quotidiens d’un Etat américain, AfricaNews et Rapra... ce que l’on ne fait jamais dans la pratique !
   
Cela étant, le côté positif est effectivement d’avoir un accès facile à autant de sources rassemblées. Cela satisfera aussi ceux – de plus en plus nombreux – qui ne souhaitent pas se compliquer la vie en sélectionnant finement les banques de donnée, et qui préfèrent interroger directement une base volumineuse, en acceptant d’obtenir un bruit non négligeable.
   

UN MULTILINGUISME TIMIDE

   

Avec Newsroom, Dialog propose des informations en plusieurs langues dans une même banque de données de presse, ce qui n'est pas très fréquent.

L'anglais reste toutefois très largement dominant, avec 94,5 % des documents. En fait, le pourcentage des documents en anglais est supérieur à 94,5 %, car le champ langue se rapporte en principe à la langue du document original et non à la langue du document présent dans la base.Cependant, cette règle comporte des exceptions puisque, si toutes les informations en provenance de L'Agefi ont des résumés en anglais, 90 % d'entre elles sont indexées avec anglais dans le champ langue. Quant au Moci, les 317 références avec résumé en anglais sont indexées avec anglais dans le champ langue, et non français comme cela devrait être le cas.

On observe que les articles publiés dans d’autres langues que l’anglais sont dans certains cas sous leur forme originale dans leur langue, et dans les autres sous forme de résumé en anglais.
Hors de l'anglais, les langues présentes sont — avec une couverture comprise entre 1 et 2 % pour chacune et dans l'ordre – l'espagnol, le français et l'allemand puis, plus marginalement et toujours dans l'ordre, l'italien, le néerlandais, le danois, le finnois, le portugais et le suédois, cette dernière langue étant celle de ... 373 documents.
   
On trouve une curiosité avec 360 documents en … quechua qui, vérification faite, s'avèrent être les articles publiés en 2001 dans le Natural Gas Monthly et qui sont dans un anglais qui paraît tout à fait académique et fort peu influencé par les indiens du Pérou et de la Bolivie qui pratiquent le quechua.
   
La difficulté de ce système d'indexation est qu'il ne permet pas de sélectionner précisément les documents dont le texte, tel qu'il apparaît dans la base, est en français ou en anglais. Si on limite les résultats aux langues anglais ou français, on aura quand même des documents en d'autres langues, par exemple plusieurs dizaines de milliers en espagnol ou en allemand.
   
A l'inverse, si on enlève les documents indexés avec une langue autre que le français et l'anglais, on éliminera des articles dont le texte présent dans la base est en anglais, mais qui sont indexés avec une autre langue qui est celle du document original.
   
Nous avons regardé de plus près ce qui était disponible en matière de presse française.
Sur les 535 000 documents environ, près de 80 % sont des dépêches du fil international de l'AFP en français.
   
Puis viennent les articles du quotidien Libération depuis le 11 avril 2001, qui sont repris en totalité et qui représentent près de 12  % du total.
   
On trouve également :

- les communiqués de presse de Companynews  depuis le 4 mai 2000 (3,3 %) et ceux de Newspress depuis le 21 octobre 2001, ces derniers émanant d'organismes publics ;
- une sélection d'articles du quotidien français La Tribune depuis le 21 juin 2001 ;
- les articles (3 300 actuellement) de la série des dix mensuels Vigie, tels que Vigie Matériaux Avancés, publiés par l'ADIT depuis le 1er mars 2002 (voir encadré ci-dessous) ;
- les dépêches du service suisse francophone de AFXNews (filiale à 100 % de l'AFP), en collaboration avec l'agence suisse ATS ; ces dépêches sont orientées vers l'économie (2,6%) ;
- signalons aussi les articles du quotidien suisse Le Temps, mais seulement du 16 septembre 2002 au 18 octobre 2002 (!).
  
Pour conclure sur la présence des sources françaises en français sur Newsroom, on constatera qu'elle est encore très embryonnaire, et particulièrement pauvre en quotidiens nationaux, même si l’offre est, d’après Dialog, amenée à s’étoffer prochainement. Elle est, en tout état de cause, nettement inférieure à la trentaine de sources que l'on trouve sur LexisNexis et à la quarantaine présentes sur Factiva.
   
Elle est également plus faible que  l’offre de Cedrom-SNI (plus de 30 sources sur Europresse) et de L’Européenne de Données, qui en propose actuellement plus de 80 sur Pressed et annonce avoir 300 sources comme objectif à assez court terme (la différence importante entre Pressed et Europresse est due à la présence de nombreux titres de presse spécialisée sur Pressed).
   

NEWSROOM ET LES AUTRES BANQUES DE DONNEES DE DIALOG

   
Le discours des représentants de Dialog est de dire, ou de laisser entendre, que Newsroom reprend l’ensemble des informations presse présentes sur les trois serveurs, auquel sont ajoutées de nouvelles sources.
   
Cela ne semble être que partiellement vrai d'après nos tests.
   
Le quotidien Le Monde par exemple, disponible sur DataStar en texte intégral, n'est pas (pas encore ?) repris dans Newsroom ; on ne trouve que des résumés en anglais de certains articles. La Tribune pour sa part, disponible lui aussi en texte intégral sur DataStar (BUNE), est repris – en français cette fois – de façon très partielle, avec seulement 17 % des articles environ dans Newsroom.
   
Une vérification sur différentes questions-test confirme que Newsroom est loin d'offrir tout le contenu presse de Dialog.
   
Dans plusieurs cas en effet – en particulier les banques de données Promt (n°16), Dialog Global Reporter (n°20) et Business & Industry (n°9) –, seule une partie des documents sont repris dans Newsroom.
   
À titre d’exemple, aucun des 28 000 documents de la publication américaine University Wire présents dans Dialog Global Reporter n’est indexé dans Newsroom (ni d’ailleurs dans aucune autre base de Dialog).
   
Cela a pour conséquence évidente que si l’on veut faire une recherche la plus exhaustive possible, il faut interroger, en plus de Newsroom, les classiques banques de données Promt, Business & Industry, Global Reporter et, éventuellement, Globalbase, Trade & Industry et quelques autres ciblées si nécessaire.
   
Mais il faudra alors penser à éliminer les doublons.
   
Si l’on effectue sur Dialog une recherche sur Newsroom et d'autres fichiers, un Remove Duplicate enlèvera une partie des doublons, mais une partie seulement car l'algorithme n'est pas infaillible.
   
On notera avec satisfaction que cette opération enlèvera aussi des doublons à l'intérieur de Newsroom, ce qui n'est pas inutile. Il n'est pas rare en effet de trouver trois ou quatre fois le même article paru dans plusieurs publications. C'est particulièrement vrai pour la presse australienne.
   
Quelques tests ont montré que l'élimination des doublons à l'intérieur de Newsroom enlevait en moyenne 7 % des documents, ce qui n'est pas négligeable.
   
Il est donc recommandé d'effectuer systématiquement cette opération avant de visualiser les résultats, même si l'on effectue une recherche limitée à Newsroom.
   

UNE INDEXATION LOIN D’ETRE PARFAITE

   
Il faut dire, pour commencer, que l'utilisation des index n'est nullement facilitée, dans la mesure où il semble qu’aucun document reprenant l'ensemble des termes des différentes indexations ne soit disponible pour les utilisateurs*.
   
On a vu plus haut les problèmes relatifs à l'indexation de la langue des documents.
   
Pour l'index Journal Subject (JS) dans Dialog ou Journal Category (JC) dans DataStar, c'est pire.
   
Nous avons ainsi trouvé un document issu de la publication Computer & Electrical Engineering, que l'on peut considérer comme étant assez – voire très – spécialisé, indexé avec ... les 34 codes existant pour l'index JS ; et ce n'est pas le seul, puisque plus de 100 000 documents de Newsroom sont indexés avec ces 34 codes !
   
Il est fréquent par ailleurs que les résultats obtenus ne correspondent pas à la recherche effectuée. Par exemple, un document issu de Alert Political indexé avec Goverment and Politics est obtenu alors que la recherche était effectuée avec Bulding and Construction.
   
Quant à l'index EN (Event Name) ou SC (Subject Categories) sur DataStar, il est extrêmement fastidieux d'en obtenir la liste complète en utilisant l'opérateur Expand sur Dialog. En effet, entre deux termes "réels", c'est-à-dire ayant plusieurs dizaines ou centaines de milliers d'occurrences, on trouve jusqu’à plusieurs dizaines de termes ayant quelques occurrences, souvent une d'ailleurs, qui peuvent être des noms de sociétés ou des noms de pays.
   
Quant aux termes qui ont un grand nombre d'occurrences, la définition de certains événements nous laisse assez perplexe : Environment, European Union, Corporate Funding, Legal…
   
On dispose également d’un champ baptisé Industry Names sur Dialog, avec le code ... PN (!) et Keywords sur DataStar (KW ou DE). Las, la taille importante de cet index est de nature à décourager celui qui souhaiterait l’éditer en ligne.
   
Il ne reste plus que la solution consistant à examiner l’indexation de documents pertinents en s’aidant, éventuellement, de la commande RANK, dont c’est d’ailleurs une application classique.
Si un grand nombre de codes  de cet index sont clairs et ne posent pas de problèmes, on reste toutefois dubitatifs devant le code Target Markets et on s’étonnera de trouver 16 documents indexés avec Switzerland dans ce champ.
   
En ce qui concerne les codes géographiques, deux sont disponibles : le premier, Geographic Names (GN) ou Country and Region (CN) sur DataStar, concerne la zone géographique dont il est question dans l’article et le second, Journal Region (RG), la zone géographique dont est issue la publication. Dans SataStar, cette information est incluse dans le champ IP (Information Provider).
   
On trouve enfin aussi un champ CO pour le nom des sociétés.
   
Les impressions générales que l’on peut retirer d’une série de tests et d’utilisation en vraie grandeur de Newsroom sont résumées dans le tableau p.5
   
Bref, rechercher dans Newsroom donne un peu l’impression de rechercher sur le Web, avec tout ce que cela comporte d’imprécisions ; les faiblesses de Newsroom incitent en effet l’utilisateur à se satisfaire des résultats intéressants obtenus, en général avec beaucoup de bruit, sans trop se demander s’il aurait pu obtenir mieux et plus.
   

DES VARIANTES SELON LES PLATE-FORMES

   
L’expérience montre qu’une même base de données est rarement identique d’un serveur à l’autre.
   
Newsroom n’échappe pas à la règle si l’on compare les résultats d’une même recherche sur les trois plate-formes de Dialog. On nous pardonnera d’entrer un peu dans les détails, mais c’est un excellent moyen d’illustrer une série de problèmes rencontrés.
   
Nous utiliserons une recherche-test effectuée le 16 décembre avec la stratégie (elevator or elevators) adjacent à (market or markets), en restreignant aux documents publiés en 2002 .
   
On obtient quatorze documents sur Dialog et seize sur Data-Star. Douze sont communs aux deux serveurs. En ce qui concerne les quatre documents de Data-Star non-présents sur Dialog :

- le premier n’aurait pas du sortir car les termes market et elevator n’y sont pas adjacents ;
- le deuxième n’est pas sorti sur Dialog car l’expression dans DataStar est “elevator that market”, et le traitement des mots vides n’est pas identique dans Dialog et DataStar ;
- le troisième, issu du Korea Times, édition du 11 avril 2002, aurait du être dans Newsroom sur Dialog, qui contient pourtant près de 13 500 articles de cette publication ;
- quant au quatrième article, dont la source est qualifiée de façon assez énigmatique de Newsbrief, il n’est pas dans Dialog.
   
On soulignera aussi que DataStar n’affiche pas les documents dans un ordre antechronologique parfait, ce qui est assez ennuyeux.
   
A l’inverse, pour les deux documents de Dialog qui ne sont pas sortis sur DataStar :

- dans le premier, ne figurent tout simplement pas les termes de recherche ! Cela n’est malheureusement pas rare dans cette base. Il s’agit sans doute de décalages d’index non détectés ou non corrigés ; on notera qu’il n’est pas rare d’obtenir dans Newsroom des résultats aberrants, ce qui est rarissime dans les autres bases des serveurs de Dialog ;
- quant au deuxième, issu du numéro de février 2002 de Building Design, on observe que ce numéro n’a pas été chargé sur DataStar, ce qui illustre une nouvelle fois le regrettable manque de rigueur trop souvent propre aux bases presse.
   
Sur Profound, on trouve aussi quatorze documents, à propos desquels il n’y a pas de commentaires à faire, sinon que le logiciel a refusé que nous saisissions cette stratégie précise.
   
Nous avons effectué, pour comparaison, la même recherche sur le serveur LexisNexis ; 21 documents ont été identifiés.
   
Leur analyse permet de faire les observations suivantes :
- la même dépêche d’Associated Press est sélectionnée deux fois : dans des bases très importantes comme Lexis Nexis, Factiva et Newsroom, il y a malheureusement trop de doublons. La dépêche en question provient par ailleurs du fil “State and Regional”, qui semble privilégier les informations locales ; ce fil n’est pas présent dans Newsroom.
   
D’autres sources de LexisNexis ne sont d’ailleurs nulle part dans Dialog (ni dans Newsroom, ni dans un autre fichier). Sur l’échantillon des 21 documents identifiés, c’est le cas pour des sources comme Bloomberg News, AP State and Regional, Argus Leader, un journal publié à Sioux Fall, dans le Sud Dakota...
- certains articles se trouvent dans une autre base de Dialog mais pas dans Newsroom, car la publication dont ils sont extraits ne figure pas en totalité, ou à d’autres dates seulement dans Newsroom ; c’est le cas de Puget Sound Business Journal, de Feedstruff, du Korea Time et de Hugin ;
- certains éléments souvent implicites au niveau de l’interrogation peuvent différer d’un serveur à l’autre. Par exemple, “that” est un mot vide dans LexisNexis mais pas dans Dialog, et l’est dans certains cas seulement sur DataStar ;
- contrairement à Dialog et DataStar, LexisNexis prend comme adjacents deux mots qui  se trouvent à la fin d’un paragraphe pour le premier et au début du suivant pour le second.
   
Précisons enfin que la recherche sur LexisNexis a été effectuée dans la bibliothèque NEWS, qui ne propose pas tous les documents présents sur le serveur et, en particulier, pas ceux qui sont dans d’autres langues que l’anglais.
   
Si l’on va explorer Factiva, toujours avec la même requête, on peut limiter la recherche selon une sélection personnalisée de langues.
   
Dans notre exemple, on trouve 24 documents, tous en anglais, ce qui est logique compte-tenu des termes de recherche. On retrouve 9 articles sur les 14 de Dialog ; cet exemple illustre ici que Factiva ne couvre pas des sources comme Asia Pulse, World News Connection, Russia Journal, ou encore Building Design and Construction.
   
A l’inverse, Factiva dispose de sources qui ne sont dans aucunes des plate-formes de Dialog, comme Business Weekly, UkrAgroConsult, Greek News Digest... Ces sources ne se trouvent pas non plus chez LexisNexis.
   
Pour conclure sur ce problème de sources, on dira simplement que si certaines se trouvent sur tous les serveurs, d’autres ne se trouvent que sur un seul serveur ou sur certains d’entre eux.
   
Pour Newsroom en général, même si c’est déjà une base d’un volume conséquent, on recommandera sur Dialog et DataStar de se poser dans la plupart des cas la question d’élargir la recherche à d’autres banques de données.
   
On souhaite vivement que Dialog résolve les problèmes de chargement et d’indexation de Newsroom et veille à ce que tous les numéros d’une publication soient présents, pour que les possibilités de recherche de Dialog et DataStar puissent être exploitées pleinement, ce qui donnerait un avantage certain face à ses concurrents.
   
Newsroom n’a que quelques mois, on peut donc espérer.


LES LETTRES VIGIES : DES CHARGEMENTS ALEATOIRES

   
Editées par l’ADIT, les lettres Vigie offrent des informations scientifiques en provenance des ambassades de France, ou sélectionnées dans la presse étrangère par les attachés scientifiques français. Ces publications sont disponibles depuis longtemps sur L'Européenne de Données, avec une antériorité remontant à mars 2001. On les trouve également sur Newsroom, sur Factiva, et des contacts ont été pris avec LexisNexis. Elles sont par enfin disponibles gratuitement sur le site de l'ADIT, mais après six mois d'embargo.
   
On regrettera les nombreux problèmes de chargement de ces lettres sur les différents serveurs. Sur L'Européenne de Données en effet, le dernier chargement remonte à février 2002 ; la situation devrait toutefois rentrer dans l'ordre à la fin de l'année, avec le basculement sur un nouveau système informatique.
   
Factiva pour sa part n’a semble-t-il que trois mois sur sept avec l'ensemble des lettres ; quant à Newsroom, il semble n'y avoir qu'un mois  incomplet.
   
On notera pour finir l'évolution de la politique de l'ADIT sur ces publications. Au lancement de son site en effet, l'ADIT souhaitait réserver, autant que faire se pouvait, les informations aux sociétés françaises, l'inscription obligatoire sur le site permettant d'effectuer une certaine sélection grâce aux adresses. Aujourd'hui, la problématique a totalement changé puisque le chargement sur les grands serveurs internationaux répond à l'objectif de diffuser au plan international des informations scientifiques en français.
 

NEWSROOM - POINT POSITIF 

- Regroupement en une seule base de plus de 7 300 titres, sur lesquels on peut utiliser les outils de recherche sophistiqués de Dialog. Il suffirait d’un peu de rigueur pour améliorer considérablement la qualité de la base et par là même l’intérêt de son utilisation.
   

NEWSROOM - POINTS NEGATIFS

 - Indexation trop aléatoire
- Impossibilité de gérer le problème des langues de façon satisfaisante
- Impossibilité d’avoir accès aux différents index, en particulier celui de Industry Names
- Newsroom ne reprend pas tous les contenus presse des base de Dialog, DataStar et Profound, et l’on ne sait pas quelles sources manquent
- Trop de doublons
- Il n’est pas rare de trouver des documents sans rapport avec la recherche (décalage d’index ?)
- Les résultats comportent souvent une série de faits divers ou de notices nécrologiques