Actualités
Agenda
Liens utiles
Netsource
Netsource - Sommaire en cours
Netsource - Anciens sommaires
Netsource - Recherche des archives
Revue Bases
Revue Bases - Sommaire en cours
Revue Bases - Anciens sommaires
Revue Bases - Recherche des archives
Ouvrages
Qui sommes-nous ?
Notre équipe
Accueil > Netsources > Anciens sommaires > Panorama des solutions avancées de veille sur Internet

Netsources, Numéro de Mai-Juin 2001 - n°32


Panorama des solutions avancées de veille sur Internet

Auteur : Aurélie Vathone

 
Le veilleur n’a pas attendu Internet pour veiller mais la Toile est aujourd’hui une ressource qu’il ne peut se permettre d’ignorer. Or ce champ d’investigation où l’absence de structure et de repères est la règle est souvent mal maîtrisé et, faute de connaître les bons outils, le veilleur devra surmonter de nombreux obstacles que les logiciels simples et bon marché ne suffiront pas à lever : croissance exponentielle du volume, volatilité de l’information, hétérogénéité des sources, manque de structure des documents…

Plusieurs sociétés apportent des réponses sophistiquées à cette problématique. SCIP France, l’Association Française pour la Promotion de l’Intelligence Economique, a souhaité lors d’une journée d’études qui s’est déroulée le 18 juin dernier à Sources d’Europe, croiser le point de vue d’éditeurs et d’utilisateurs afin d’obtenir une vision – sinon exhaustive – tout au moins représentative de l’offre en la matière.

Les  sociétés participant à cette journée, sans parler de start-up puisque le terme tend à devenir péjoratif, sont néanmoins de jeunes sociétés, nées pour la plupart au milieu des années 90, avec l’explosion de l’Internet en France.

Deux d’entre elles mettent en avant leur expérience plus ancienne : Alogic, se proclamant "spécialiste historique" du traitement de l’information en tant qu’émanation du cabinet Inforama ; et Lexiquest, nouveau nom de l’ex-société Erli, bien connue dans le domaine de la linguistique et ses applications informatiques depuis les années 80.

On observe d’ailleurs que ces disciplines liées à l’étude du langage, de la sémantique à la syntaxe, vivent une nouvelle jeunesse à l’ère d’Internet et que les logiciels qui les utilisent les font sortir de leur ghetto universitaire et strictement théorique.

Si tous ces outils ont un même objectif, celui de faciliter le travail du veilleur, tous n’ont pas pour autant la même approche ni les mêmes fonctionnalités.
   

DES POSSIBILITES DE RECHERCHE INEGALES


Tout d’abord le module de recherche sur Internet, nommé par certains "back-office", n’est pas (ou peu) développé chez certains éditeurs (Lexiquest ou Alogic), qui considèrent que le point-clé de la veille se situe plutôt dans la phase d’analyse des documents ; la finesse de la recherche constitue pourtant un point crucial pour constituer un corpus documentaire de qualité.

Arisem propose ainsi une méthodologie qui semble relativement efficace. Son  produit Watch Edition utilise des moteurs généralistes et spécialisés, ce qui n’a rien d’original en soi. La trouvaille, c’est de permettre, et ce dès la phase d’exploration du Web, d’envoyer des requêtes où sont levées les ambiguïtés : les homonymes sont différenciés et le système saura par exemple distinguer, grâce au contexte d’utilisation du mot, la couleur orange, le fruit ou encore la société du même nom et ne rapatrier que les pages correspondant à la requête, tout le reste étant rejeté ; en outre, la recherche est effectuée également sur les concepts qui sont associés au terme de recherche (pour simplifier, les synonymes ou les mots proches) : une question sur le commerce électronique rapatrie aussi des pages où il est question de e-business.

Enfin, pour s’affranchir des moteurs de recherche, l’outil va automatiquement explorer tous les hyperliens disponibles à partir des pages Web retrouvées : ce système, simple mais judicieux, permet d’accéder non seulement au Web indexé, mais aussi à une partie du Web non indexé, qui comprend des pages non repérées par les robots. En effet, dès qu’un site est volumineux, les robots des moteurs de recherche ne l’indexent pas totalement, mais se limitent à une certaine “profondeur” ; en poursuivant son exploration des liens identifiés, l’outil d’Arisem peut donc retrouver des pages non indexées par les moteurs.

Webprodipper, le produit du consortium Systal-Createam, utilise quant à lui ce qu’il appelle des "focus oriented spiders", qui lui permettent d’explorer le Web de façon intelligente, non pas tous azimuts mais en fonction d’une problématique spécifique.

La question du champ d’interrogation est d’ailleurs une question importante, puisque beaucoup d’éditeurs considèrent qu’une recherche efficace commence par la délimitation de sources qualifiées et professionnelles : c’est le cas de Aperto Libro et Pertimm, où il est impératif d’avoir préalablement identifié les sites à interroger. Or, toutes les veilles ne se situent pas dans cette problématique : une veille d’image, par exemple, nécessite a contrario une exploration aussi exhaustive que possible de l’Internet, sans sélection.
   

SEMANTIQUE, STATISTIQUE ET CIE


Une fois le corpus documentaire constitué (à partir de documents multiformats), tous ces outils ont besoin, pour fonctionner de façon optimale, de règles linguistiques ou mathématiques définies en amont mais, là encore, les approches sont différentes. Si tous s’accordent à dire que la statistique pure est insuffisante, chacun utilise plusieurs composants pour automatiser la phase d’analyse.

Lexiquest Mine, le seul logiciel à combiner statistique et linguistique, indexe le contenu du corpus documentaire ; la base de la recherche est alors fondée sur les mots réellement contenus dans les documents analysés : le système saura extraire et reconnaître les différents noms de sociétés, de produits, de personnes, de lieux ; c’est ce que Lexiquest désigne par la phase de typage.

Par opposition, un produit tel que celui d’Arisem fonctionne à l’aide de "bases de connaissances" qui régissent des ensembles sémantiques définis en amont.

Ce sont ces bases, sorte de gigantesques thesauri sophistiqués, qui permettent la recherche par concept à l’intérieur du corpus de documents rapatriés. Le produit est généralement livré avec une base de connaissances standard qui contient environ 32 000 concepts ; il est souhaitable et même nécessaire de la compléter par une ou plusieurs bases de connaissances "métier" spécialisées dans un secteur d’activité.

On voit bien ici la différence fondamentale qui existe entre les deux systèmes, l’un fondant l’analyse sur les mots réellement contenus dans le texte, et l’autre s’aidant de concepts extérieurs qui font émerger le sens d’un texte.

Pertimm, le logiciel de Systal / Createam, utilise les deux approches : une linguistique de surface qui permet à l’utilisateur d’effectuer des recherches par les mots existant dans le corpus, et une couche plus profonde (les pertimmiseurs) permettant la recherche par concepts. Par exemple, le pertimmiseur "social" comprend des termes tels que "35 heures", "plan social" “grève", "réduit ses effectifs", etc.

L’utilisateur pourra alors définir le nombre minimum de mots ou d’expressions de cette famille devant figurer dans chacun des documents-résultats.

Les principes de toutes ces techniques sont connus depuis longtemps par le professionnel de l’information, rôdé à la définition d’une bonne stratégie pour la recherche en texte intégral (collecte du vocabulaire correspondant à un concept ou un événement, recherche de synonymes, utilisation de troncatures pour retrouver toutes les formes d’un verbe ou d’un substantif…) ; mais il est vrai qu’aucun outil basique ne permet à ce jour d’effectuer de telles interrogations sur les sources du Net et que seuls les outils avancés ont ouvert la brèche.

VISION GLOBALE


Ces fonctions avancées de fouille sont utiles lorsque l’objet de la recherche est parfaitement identifié ; elles permettent alors de retrouver l’aiguille dans la botte de foin.

Mais l’analyse globale n’est pas en reste et c’est même plutôt le point fort de ces logiciels : donner une structure et modéliser le contenu d’une masse d’informations pour mettre en valeur le sens qu’elle contient. La prise de connaissance du contenu est alors considérablement limitée en temps.

On met aux oubliettes la lecture discursive des documents pour lui préférer une lecture non discursive.
Elle se fait à travers des cartes graphiques indiquant les principales idées et les relations entre elles (Lexiquest Mine, Aperto Libro, Pertimm), des îlots conceptuels ou regroupements  de textes proches (Autonomy) ou des dossiers thématiques définis a priori qui sont alimentés par le flux de la veille (Watch Edition, Pericles de Datops). Dans tous les cas, l’information collectée est mise en perspective et replacée dans un contexte qui agrandit le champ de vision du veilleur.
  

 LES « ACCELERATEURS DE LECTURE »


En outre, l’utilisateur a toujours la possibilité de naviguer rapidement et efficacement jusqu’au sein des documents-sources. Ainsi, une fonction sophistiquée d’Aperto Libro propose d’effectuer automatiquement des résumés de documents non pas généraux et objectifs comme le proposent les outils basiques, mais en tenant compte d’un point de vue particulier, ce qui est tout-à-fait novateur.

Beaucoup proposent plus traditionnellement l’accès aux extraits pertinents qui sont mis en valeur par des mots en surbrillance ou par des balises colorées qui délimitent le cœur de l’information.
   

LES INDICATEURS DE TENDANCE


Qui dit veille, dit suivi dans le temps. Plusieurs de ces outils permettent ainsi de détecter des changements et d’alerter le veilleur sur l’évolution de l’information : quels sont les auteurs les plus contributifs, combien de sources, de documents sont générés sur une période donnée, quels sont les mots les plus utilisés ?

Le logiciel Péricles autorise diverses représentations graphiques sous forme de camemberts, histogrammes et courbes ; sur un thème donné, il signale toute rupture significative au moyen de pastilles de différentes couleurs très faciles à repérer. Pertimm, grâce à des calculs de co-occurrences permet de détecter l’apparition de nouveaux mots (représentant des acteurs, des concepts, des produits).

On le voit, tous ces outils possèdent des spécificités et sont plus complémentaires que concurrents.
Comme l’indiquait Pierre Batel, qui a testé plusieurs de ces solutions, il n’existe pas de mauvais outil mais des cahiers des charges différents pour chaque outil. La possibilité de pouvoir les intégrer entre eux dans une plate-forme globale de veille ne paraît pas impossible, à condition de disposer d’un budget en conséquence.

De son côté, Autonomy se définit clairement comme une infrastructure ou couche logicielle destinée à automatiser l’analyse de l’information non structurée ; il s’intègre dans des applications extrêmement variées, la veille sur internet n’étant que l’une des multiples possibilités de cet outil.

DES OUTILS CONSOMMATEURS DE RESSOURCES


Reste que les outils avancés de veille sur Internet demeurent pour le moment réservés aux grands comptes. Leur prix d’achat représente plusieurs centaines de KF (prix moyen 300-500 KF) et le veilleur ne devra pas perdre de vue toutes les ressources internes à mettre en œuvre : ressources humaines tout d’abord, puisque la maintenance et l’optimisation de tels systèmes nécessite la plupart du temps un administrateur, parfois à plein temps ; ressources informatiques ensuite (bande passante, interaction avec d’autres applications…).

Le consortium Systal / Createam offre une alternative avec la formule ASP (Application Service Provider), où l’application est hébergée chez l’éditeur, dans des locaux sécurisés.

Le veilleur peut alors se focaliser sur son métier, l’information, et laisser de côté l’aspect informatique. Une telle mutualisation des moyens engendre certes des économies mais encore peu de PME pourront s’offrir un système performant de veille sur Internet. Du côté des éditeurs, c’est encore la rentabilité qui prévaut.

Des efforts importants de R&D de la part des éditeurs de ces outils permettront dans un second temps de proposer des solutions adaptées aux PME en terme de prix, mais il faudra attendre que le marché soit plus mature pour qu’elles puissent accéder à de tels services.

Jusqu’où ira "l’intelligence électronique" de ces outils ? Des projets sont en cours pour aller encore plus loin, en permettant par exemple d’isoler des documents en fonction de critères beaucoup plus subtils, tels que la tonalité ou l’intention de leur auteur.

Mais comme le précisait l’un des intervenants, la veille "presse-bouton" n’existe pas. L’utilisateur, le veilleur, l’humain reste toujours au centre du bon fonctionnement de ces outils de veille. Que ce soit en amont, pour enrichir chaque jour et à bon escient des bases de connaissances ou au moment des recherches, pour spécifier à l’outil le sens qu’il souhaite donner à la requête et en garder la maîtrise, à l’encontre des "boîtes noires" auxquelles il peut être confronté sur des moteurs de recherche grand public.

Un  bon outil, aussi avancé soit-il, est celui qui effectue rapidement et correctement les tâches que le veilleur lui demande d’effectuer à sa place.


- Alogic
9 rue St Florentin - 75008 Paris
Tél. 01.44.50.16.2 - Fax : 01.44.50.10.79
contact@alogic.fr - www.alogic.fr

- Arisem
2 rue du Cygne. 75001 Paris
Tél.: 01 44 88 99 66 - Fax : 01 44 88 99 69
www.arisem.com

- Autonomy
112, avenue Kléber - 75116 Paris France
Tél.: 01 47 55 74 51 - Fax : 01 47 55 74 21
france@autonomy.com - www.autonomy.com

- Datops
113, boulevard Haussmann
75008 Paris - Tél.: 01 43 12 37 80
info@datops.com - www.datops.com

- Lexiquest
Le Méliès. 261 rue de Paris
93556 Montreuil Cedex
Tél.: 01 49 93 39 00, Fax : 01 49 93 39 39
www.lexiquest.com

- Systal
20, Rue Montesquieu
92 600 Asnières-Sur-Seine
Tél.: 01 47 90 06 04
www.pertimm.com - systal@compuserve.com




 

Version imprimable
BASES PUBLICATIONS
27, rue de la Vistule
75013 Paris
Tél. : 01.45.82.75.75
contact@bases-publications.com
Abonnez-vous   |   Contact   |   Mentions légales |   Crédits