
|
Netsources, Numéro de Mars-Avril 2004 - n°49 Le point sur les outils avancés de veille |
Auteur : Aurélie Vathonne |
|
Le 4 mai dernier, Scip France (Association française pour la
promotion de l’intelligence économique) organisait pour la
troisième fois une journée d’études consacrée aux outils avancés de
veille sur Internet. Ce thème avait déjà rassemblé de nombreux
participants lors des éditions précédentes, en juin 2001 puis en
décembre 2002 (voir Netsources n°32 et n°41).
La régularité de cette manifestation, qui se déroule environ tous les 18 mois, favorise la fidélité au rendez-vous des veilleurs, qui voient là l’occasion de prendre le pouls des technologies et des usages, et ce dans un cadre non commercial. Deux autres entités s’étaient associées bénévolement à Scip France, principal organisateur de la journée : le Cigref (Club informatique des grandes entreprises françaises) et Intelligence Online, la publication bien connue dans le domaine de l’intelligence économique. Les responsables de veille étant amenés à collaborer de plus en plus étroitement avec les services informatiques, le Cigref – qui avait déjà manifesté son intérêt pour l’intelligence économique – a trouvé tout naturel de soutenir cette journée, notamment à travers une intervention de son délégué général Jean-François Pepin ; de son côté, la publication Intelligence Online a souhaité elle aussi s’associer à la manifestation, dans la mesure où cette problématique est au cœur des préoccupations de son lectorat. Comme les fois précédentes, cette journée s’est déroulée sur le principe d’interventions alternées d’éditeurs et d’utilisateurs de solutions de veille. L’intitulé du colloque promettait “du neuf” et en effet, François Libmann, Président de Scip France, a remarqué en préambule qu’aucune des sociétés intervenant le 4 mai n’était présente lors de la journée d’études en 2002, ce qui signe à la fois la variété de l’offre et le dynamisme du secteur. Le monde des outils de veille sur Internet est très mouvant et l’intelligence économique se développe actuellement dans les entreprises à un rythme soutenu, en partie sous l’impulsion du rapport Carayon, dont tout le monde à parlé au cours des derniers mois. Si le concept de la journée restait le même – un panorama de l’offre complété par le point de vue d’utilisateurs – le contenu des interventions et la nature des questions posées dans la salle dénotaient une évolution sensible de l’appropriation de ces outils. On mesure le chemin parcouru à l’écoute d’Anne-Marie Libmann, responsable Business Information chez Pechiney, récemment racheté par le canadien Alcan. En ouverture de la journée d’études, elle a exposé les difficultés rencontrées il y a quelques années pour appréhender cette nouvelle source que constituait Internet, puis elle a présenté les solutions adoptées pour y faire face et enfin rappelé les problèmes non résolus, y compris avec les solutions de veille très sophistiquées disponibles sur le marché Le statut d’Internet dans le processus de veille a été assez long à se préciser, l’équipe ne sachant quel crédit accorder à ce type d’information très nouveau et difficile à évaluer. Mais brutalement, cette source est devenue incontournable en terme d’alerte, puisque beaucoup d’entreprises se sont mises à publier des communiqués directement sur Internet. Subitement, un champ considérable d’informations devait être intégré, provenant d’organismes officiels, de sociétés (concurrents mais aussi clients ou fournisseurs), ou de la presse – notamment de la presse locale étrangère, devenant accessible par ce nouveau canal, alors que certains titres n’étaient pas disponibles sur les grands serveurs. Des obstacles de différentes natures se sont alors élevés, à tous les stades. - Lors de la collecte, l’impossibilité de construire des requêtes très sophistiquées, puis de pouvoir les stocker en ligne comme sur les grands serveurs, s’est tout de suite ressentie, de même que l’incapacité à qualifier les résultats et à mesurer la pertinence des stratégies de recherche adoptées. - Lors du traitement ensuite, beaucoup d’opérations intermédiaires sont apparues comme nécessaires, comme la vérification des sources mais aussi l’élimination des doublons, car une nouvelle difficulté résidait dans la redondance intrinsèque ou par rapport aux serveurs classiques. - Lors de la diffusion enfin, comment restituer cette information débordante ? Comment enrichir les portails d’information internes sans les déséquilibrer ? Quel mode de diffusion et de stockage adopter face au volume et à l’originalité du matériau Web ? Ces questionnements sont sans doute emblématiques de ce que toute une profession a dû affronter. C’est à ce moment qu’on a vu apparaître sur le marché les solutions avancées de veille sur Internet qui, on va le voir, ont permis aux grands comptes de résoudre une partie des difficultés. Au stade de la collecte, l’équipe d’Anne-Marie Libmann a clairement opté pour l’automatisation du procédé, que ce soit avec Verity (crawling) ou avec Autonomy (aspiration), la surveillance d’Internet se faisant au niveau d’un site dans son ensemble et pas seulement sur des pages isolées. Cela suppose en amont un travail important d’analyse détaillée du site, de sa structure, de son contenu réellement informatif.Ajoutons néanmoins que cette automatisation ne dispense pas d’un fort investissement en temps dans les phases de paramétrage, étape cruciale pour la réussite des opérations, et de contrôle du bon fonctionnement de ces outils (problèmes de date, de cookies, de frames, d’accès…).L’équipe a d’ailleurs finalement opté pour les services d’un intégrateur, c’est à dire d’une société spécialisée maîtrisant parfaitement la technologie Internet et qui, comme son nom l’indique, se charge de l’intégration de telles solutions au sein du système d’information de l’entreprise. Le procédé de collecte, bien qu’automatisé, a donc été parfaitement défini et balisé et ne s’apparente aucunement à une “boîte noire”. Ce désir de maîtrise totale est d’ailleurs une constante chez les utilisateurs qui souhaitent pouvoir intervenir à tout moment : sur le dictionnaire, l’interprétation des requêtes, l’élimination des doublons, la validation d’une information, etc. Et les éditeurs l’ont bien compris, revoyant au passage leur discours marketing : on ne parle plus d’agents intelligents, puisque l’intelligence est désormais laissée au seul veilleur qui garde la main pour activer ces agents. La diffusion de l’information est restée quant à elle beaucoup plus manuelle :les informations issues du Web ne sont pas diffusées
automatiquement en temps réel et sont stockées à part, dans un
portail spécifique géré par Autonomy, qui permet en outre
d’effectuer des profils par utilisation ou par expertise (les
“channels”). Toutes les solutions avancées se présentent comme étant capables de traiter des informations multilingues, multiformats, multi-applications, et d’intégrer facilement les données internes aussi bien qu’externes… Et pourtant, ce témoignage montre que les choses ne se font pas aussi facilement, à cause de la nature profondément différente, en terme technologique et aussi de contenu, des informations issues du Web comparées à celles des grands serveurs classiques. La plupart des plate-formes qui ont été présentées, dites aussi “suites logicielles” reprennent les grandes étapes du processus de veille : rechercher, classer/ organiser, analyser, diffuser/partager, sans oublier des utilitaires permettant le suivi dans le temps.Rendre l’interface de plus en plus conviviale est une tendance qui se confirme, sans pour autant se faire au détriment de la sophistication : pour cela, l’outil propose des hypothèses qu’il laisse au veilleur le soin de valider. Par exemple, AMI Market Intelligence, de la société Albert, est capable d’identifier les doublons, mais il peut en soumettre la liste à l’utilisateur avant de les éliminer ; Péricles, de la société Datops, prévoit une phase d’analyse humaine de l’information (“global vision”) qui permet au veilleur de qualifier l’information, notamment en terme d’importance stratégique.Un point commun de plus en plus répandu consiste également à pouvoir “passer des formulaires”,autrement dit, à pouvoir interroger régulièrement des bases de données du Web invisible ou des moteurs de recherche spécifiques, pour en extraire les nouveaux résultats. Certains poussent la logique encore plus loin en annonçant pouvoir interroger n’importe quelle source à partir d’une interface unique, grâce à des connecteurs (Albert) ou des adapteurs (AskOnce) qui harmonisent la requête à partir des possibilités disponibles sur chaque outil. Cela demande évidemment un paramétrage spécifique pour chaque type de source.Toutes utilisent un savant dosage de statistique et de sémantique pour traiter l’information, en faire émerger le sens, comparer les documents entre eux.De même, les outils ne choisissent plus entre recherche stricte (opérateurs booléens) ou floue (tolérance aux fautes, mots proches, recherche de documents similaires) mais proposent un cocktail des deux.Le très puissant RetrievalWare, successeur d’Excalibur, distribué par l’intégrateur Acamaya, propose un troisième niveau de recherche, celui de l’exploration des données “par concepts”. Et là encore, l’outil utilise deux procédés complémentaires : - d’une part, la catégorisation, qui consiste à marquer le document et à en extraire les concepts-clés relatifs aux “connaissances stables” ; on entend ici les faits et savoirs universels acquis, ne changeant pas en fonction du contexte (par exemple les lieux géographiques), toutes les ontologies, taxinomies, réseaux sémantiques généraux qui décrivent finalement une réalité objective ; - d’autre part la classification, qui s’apparente plus à une opération de rangement au travers de concepts qui sont beaucoup plus personnels à un individu ou une communauté : ce sont des axes de visualisation qui reflètent l’image subjective d’une réalité, image changeante en fonction du contexte. Les opérations de classification sont dynamiques et non limitées en nombre. Les grands principes de fonctionnement de ces outils sont maintenant bien connus des veilleurs et peu d’éclaircissements techniques ont été réclamés à l’issue des interventions. Plus exactement, peu l’ont été à l’initiative des veilleurs. Car on a vu à plusieurs reprises poindre des débats techniques entre éditeurs, défendant des points de vue divergents sur la manière d’appréhender telle ou telle fonctionnalité. Ces parties de ping-pong entre professionnels n’en étaient pas moins intéressantes pour les utilisateurs dans la salle, car elles permettaient de remettre à leur juste valeur “l’originalité” d’un outil ou ses “capacités uniques”. A titre d’exemple, certains éditeurs annoncent pouvoir détecter automatiquement la tonalité d’un texte – positive, négative ou neutre – tandis que d’autres considèrent qu’il est impossible de le dissocier d’un contexte, et notamment du jugement qu’on porte sur le fait décrit. Ainsi, il est très facile de détecter automatiquement des termes qui expriment la négativité, mais est-ce suffisant pour en déduire que le document est négatif ? “Je suis contre l’alcool au volant” est une phrase négative d’un point de vue grammatical, mais exprime un point de vue “positif” en terme de jugement. Et cela, les solutions de veille ne sont pas encore capable de l’interpréter. Une autre discussion s’est esquissée autour du résumé automatique, certains éditeurs préférant utiliser la notion plus simple d’“aide à la lecture”, considérant que la réalisation d’un vrai résumé n’est pas à la portée d’un ordinateur. A côté de ces plates-formes globales de veille, la journée d’études nous a permis de découvrir deux produits plus spécifiques : le logiciel KB Crawl de la société BEA Conseil et la solution développée par Lingway pour la BNF. Lingway est une jeune société composée de linguistes et informaticiens issus pour la plupart de la société Lexiquest (anciennement Erli), dont l’équipe s’est reformée autour de son fondateur Bernard Normier, pionnier dans le domaine du traitement automatique du langage naturel dès les années 80.Dans un exposé passionnant, il est venu présenter des outils permettant d’appréhender rapidement le contenu de sites Web, qui ont été développés dans le cadre du projet de dépôt légal du Web, à la BNF.A travers cette illustration concrète, Bernard Normier a pu repréciser à l’assistance les principes de base de la linguistique, nécessaire pour comprendre une partie du fonctionnement interne des outils de veille. Il a rappelé que la statistique peut être utilisée pour le traitement de l’information textuelle, mais qu’elle ignore la spécificité des langues et ne considère que les paquets de mots (“bag of words”) et s’avère d’une qualité limitée lorsqu’elle est utilisée seule. Il est souvent nécessaire d’y ajouter des données explicites externes au corpus : terminologie (dictionnaires, lexiques) ou ontologies (champs sémantiques, thesauri). Ensuite, l’étude phraséologique permettra d’isoler des structures de phrases typiques, qui peuvent être complexes. Par exemple, l’un des produits développés par Lingway permet de détecter automatiquement les parties d’un brevet qui décrivent l’avantage d’une invention. Cette application sera disponible très prochainement sur Questel.Orbit. Enfin, des règles contextuelles viendront baliser la structure du texte ou lever l’ambiguïté sur un terme. Après l’opération d’indexation, des outils d’aide à la lecture permettent d’appréhender rapidement le contenu d’un document, d’un ensemble de documents ou même d’un site Web. Dans un tout autre registre, KB-Crawl est un logiciel permettant de surveiller les changements survenus sur une page ou un site Web, et d’en être alerté automatiquement par e-mail.Cela n’a rien de nouveau, mais la solution de BEA Conseil est à retenir pour plusieurs raisons. Elle cible clairement le professionnel de l’information et de ce fait, elle allie plusieurs atouts propres à séduire les veilleurs et documentalistes : le paramétrage est simple à réaliser mais peut être sophistiqué si nécessaire et une base de données archives permet de garder en mémoire de façon illimitée les versions successives des pages.En outre, KB-Crawl autorise la surveillance de sites ou de listes de résultats, soit dans leur ensemble, soit en les découpant de façon personnalisée. Pour surveiller un site, la plupart des outils utilisent en effet la technique qui consiste à suivre aveuglément ses différents liens internes, en ayant éventuellement déterminé au préalable une certaine profondeur. KB-Crawl permet quant à lui de filtrer de façon beaucoup plus élaborée et précise les parties de sites à surveiller. Chaque alerte e-mail est accompagnée d’une pièce jointe et du motif (suppression de page, apparition d’un mot-clé, nouveau lien, changement de texte…). On le voit, à l’encontre des plates-formes globales décrites plus haut, ce logiciel s’est focalisé sur la fonction de monitoring et de ce fait, il peut se targuer d’une certaine performance dans ce domaine, avec un rapport qualité-prix intéressant. Thierry Rouaud, ingénieur documentaliste à l’IFP, est d’ailleurs venu témoigner de son choix pour KB-Crawl : cette solution lui permettait de surveiller automatiquement des milliers de sources, des sites de grande taille et des bases de données ou portails d’informations en accès réservé. Le passage de formulaire est en effet un atout pour ce type d’outil mais KB-Crawl présentait en outre l’avantage de ne nécessiter aucun développement ni coût supplémentaire pour accéder à cette fonctionnalité : l’utilisateur interroge la source une première fois et tous les paramètres, mots de passe et critères de sélection sont enregistrés par le système qui les reproduira par la suite : il suffit alors de comparer les listes de résultats à intervalle régulier. Dans le cas de l’IFP, cette solution a été couplée avec un outil de text-mining (en l’occurrence Knowledgist, mais l’interfaçage est aussi possible avec d’autres produits) afin d’exploiter au mieux le grand volume d’informations récupéré via KB-Crawl. Il y a encore quelques années, l’intégration d’outils entre eux était du domaine du possible à condition de posséder un budget en conséquence. Aujourd’hui, il semble que cela soit beaucoup plus répandu. En tout cas, tous les témoignages lors de cette journée rendaient compte d’un usage sinon intégré, tout au moins parallèle de plusieurs outils de veille. Aucun ne réussirait donc seul à satisfaire les besoins globaux des services de veille ? Depuis la dernière journée d’études sur ce thème, beaucoup de nouveaux outils sont apparus sur le marché, mais peu de nouvelles fonctionnalités sont à disposition des veilleurs. On observe globalement une meilleure performance des outils qui se sont peaufinés, ainsi que la réconciliation de principes technologiques qui s’affrontaient jusqu’alors. Enfin, on voit apparaître des offres intégrées qui incluent non seulement la solution logicielle mais aussi le conseil, le paramétrage et l’accompagnement de mise en place. Ces offres peuvent être proposées par l’éditeur lui-même ou par le biais de partenariats avec des prestataires de service. Rendez-vous fin 2005 pour un nouvel état des lieux ! POUR INFO : www.albert.com www.askonce.com www.beaconseil.com www.convera.com www.datops.com www.iscope.fr www.lingway.com www.cigref.fr www.scipfrance.org |
|