|
Netsources, Numéro de Juillet-Août 2006 - n°63 Outils de veille : voici venu le temps du recensement et de l'évaluationDix ans après le début de leur apparition, les outils de veille sur Internet suscitent toujours un intérêt grandissant, mais aussi un certain nombre de déceptions.
|
Auteur : Aurélie Vathonne |
|
On se souvient des journées d’étude organisées par Scip France –
l’Association française pour la promotion de l’intelligence
économique et concurrentielle – dès 2001, et dont la quatrième
édition a eu lieu en mai dernier. Plus récemment, d’autres
initiatives sont allées simultanément dans le sens du recensement
et de l’évaluation : le guide du Cigref et les premiers travaux du
GFII, dont une partie a été relayée lors d’i-expo 2006. Cette
convergence vers l’idée de référentiel marque sans aucun doute une
étape dans l’évolution du marché français des logiciels de
veille.
Tous les 18 mois à 2 ans environ, Scip France organise une journée d’étude sur le thème des solutions avancées de veille sur Internet. Cette manifestation permet aux participants d’avoir une vision de l’offre et de faire le point sur les nouveautés et les évolutions intervenues au sein de ce type d’outils depuis la précédente manifestation. En 2002, Sylvie Dalbin (ATD) et Armelle Thomas (Inforizon) avaient dressé un panorama fonctionnel et technique de l’offre. Reprenant toute la chaîne opérationnelle d’une démarche de veille, Sylvie Dalbin avait listé les fonctionnalités offertes à chaque étape, tandis qu’Armelle Thomas avait pointé les évolutions majeures que les outils de veille avaient connues au cours des trois années précédentes, en choisissant de les présenter à travers un double point de vue : celui de la technique puis celui des usages. Au cours de la même journée, Christophe Binot (Total) avait déjà fait à l’époque un petit bilan d’évaluation, lors d’une intervention intitulée “7 ans de réflexion”, suggérant quelques critères de choix sur lesquels l’utilisateur pouvait s’appuyer, en l’absence de réel leader sur le marché des outils de veille*. Lors de la dernière manifestation qui s’est déroulée le 10 mai 2006 à Paris, Myriel Brouland, du cabinet Ourouk, nous a livré un panorama analogue à celui mentionné plus haut, effectuant ainsi une sorte de mise à jour. Après avoir fait le constat qu’il existait un grand décalage entre la prise de conscience de la nécessité de la veille et la mise en œuvre proprement dite – c’est à dire entre le discours et la réalité –, elle a donné en préambule quelques chiffres qui permettent d’évaluer le marché : estimé par Alain Juillet à 800 M€ pour l’Europe, le marché des outils de veille devrait atteindre en France 200 M€ en 2006, selon le GFII. Puis, Myriel Brouland a dressé une typologie, distinguant les outils en fonction des cycles de la veille qu’ils sont à même de couvrir : - les outils d’aide au sourcing, avec l’apparition récente du “social bookmarking”, dont nous nous sommes déjà fait l’écho dans ces colonnes (http://del.icio.us** ou www.rollyo.com***) ; - les outils de collecte : agents de recherche (Copernic Agent...), agents de surveillance (KB-Crawl, Website Watcher, Copernic Tracker...) et aspirateurs de sites, ces derniers tendant à devenir obsolètes depuis l’avènement de l’internet haut-débit ; - les outils d’analyse et de traitement de l’information : cette phase à forte valeur ajoutée s’appuie sur des techniques linguistiques : statistiques (calcul des occurrences), morpho-syntaxiques (décomposition du texte et lemmatisation), sémantiques (association de sens) ; - les outils de résumé automatique, utilisant deux techniques : la reformulation ou bien l’extraction des éléments essentiels d’un texte (tels Copernic Summarizer ou Pertinence Summarizer) ; - les outils de classification et catégorisation : reconnaissance et identification de concepts, génération automatique de plans de classement, catégorisation selon un plan pré-établi (LexiQuest, Verity...) ; - les outils d’extraction de connaissances (data ou text mining) : ils permettent d’identifier ou de reconnaître des concepts et d’établir des relations entre ces éléments (LexiQuest, Lingway, Temis...) ; - les outils de cartographie : pour visualiser les résultats d’un corpus et faire émerger des liens, des réseaux ; - les solutions intégrées, traitant tous les aspects du processus de veille (Autonomy, Verity, Arisem, Datops, Go Albert...). Certes, les frontières entre les différents types d’outils ne sont pas toujours aussi marquées et étanches, comme le faisait remarquer Charles Huot de Temis ; mais ce panorama a le mérite d’indiquer très clairement les fonctionnalités de ces outils et permet de mieux s’y retrouver, dans un secteur qui rassemble des solutions de veille très hétérogènes. En témoigne la disparité des prix, qui existe toujours. LE GUIDE DU CIGREF : UN RECENSEMENT DES ACTEURSL’offre tendant à s’étoffer chaque année un peu plus, les pouvoirs publics ont souhaité mener une réflexion sur les outils de veille, de traitement et de valorisation de l’information. Alain Juillet a donc mandaté un groupe de travail interministériel, dont l’une des premières missions a été de procéder au recensement le plus complet de l’offre française en la matière. Au début de cette année, le Cigref (Club informatique des grandes entreprises françaises) a ainsi publié un Guide de recensement des outils de collecte, de traitement et de visualisation de l’information, en partenariat avec la mission du Haut Responsable à l’intelligence économique et la DCSSI au SGDN (Secrétariat Général de la Défense Nationale). Cet ouvrage s’adresse avant tout aux DSI, mais il peut intéresser aussi l’ensemble des professionnels de l’information. Il a pour but de donner une meilleure visibilité de l’état du marché de ces outils en France. Et de fait, l’orientation de ce guide est très axée marchés/segments, alors que le recensement du GFII, on le verra plus loin, se fait plutôt à partir des usages et des spécificités métiers. Contrairement à ce que laisse supposer le titre de l’ouvrage, le recensement du Cigref concerne davantage les acteurs que les outils eux-mêmes, ce qui n’enlève rien à son intérêt par ailleurs. Le guide est composé de deux parties : la première consacrée aux industriels français et la seconde aux laboratoires et universités français effectuant des travaux de recherche dans cette voie. Outre les informations générales sur chaque acteur, on trouve un rappel de l’offre produits/services pour les entreprises et les principaux axes de recherche des laboratoires. Mais la valeur ajoutée réside dans une série d’éléments que nous allons détailler ci-après. Tout d’abord, les fiches contiennent en haut à droite une ou plusieurs mentions spécifiant le positionnement de l’organisme ou de l’entreprise sur l’échiquier du secteur. Ainsi, huit segments de marché sont distingués : la veille internet (monitoring, surveillance des modifications), la recherche et l’indexation, le text mining, le data mining, la traduction automatique, le traitement de l’image, la représentation graphique et le knowledge management. Malgré la valeur indéniable de cette typologie, on aurait aimé disposer d’une définition plus précise de ces concepts. Christophe Binot, Président du Cercle d’IE du Cigref et utilisateur chevronné de tels systèmes, a d’ailleurs rappelé lors de la publication de ce guide que la terminologie restait encore brouillée du côté des éditeurs. On fait le même constat au GFII, dont le groupe de travail consacré aux outils de veille a d’ailleurs pris l’initiative de constituer un glossaire, régulièrement actualisé et mis en ligne sur le site du GFII, ainsi que sur celui des sociétés participant au groupe de travail. Se mettre d’accord sur les mots techniques employés pour décrire une réalité – afin que tous, utilisateurs comme éditeurs concurrents, utilisent le même langage –, est un travail préliminaire au moins tout aussi important que celui du recensement. Mais on perçoit aussi combien la tâche est difficile ! Une autre valeur ajoutée du guide du Cigref réside dans la présence d’informations sur les partenariats noués avec d’autres entreprises ou organismes. Ce type d’éléments est rarement intégré dans des guides de cette nature et il contribue à mieux situer les différents acteurs les uns par rapport aux autres. Enfin, cinq graphiques de synthèse résument le positionnement des acteurs français publics et privés sur le marché, ainsi que la présence des acteurs industriels étrangers. Même si les fiches manquent parfois d’homogénéité (d’un extrême à l’autre, on passe de la description succincte à la rédaction d’un article décrivant en détail toutes les fonctionnalités), le recensement du Cigref est, au total, un outil de travail très précieux pour qui souhaite se constituer des repères et appréhender le marché des outils de veille. LE GUIDE DU GFII : UN REFERENCEMENT DES OUTILS A PARTIR DES USAGESBien qu’il se situe dans la même tendance, le recensement du GFII est légèrement différent, puisqu’il a entrepris d’effectuer un référencement des outils de veille et d’IE, à partir des usages. Au sein du GFII, le groupe de travail Intelligence économique et économie de la connaissance s’inscrit dans la continuité du groupe Fédérer les sources d’information : outils et méthodes. Il s’est fixé comme objectif d’aborder l’ensemble des problématiques liées à la création et à la valorisation des informations non structurées des entreprises. Là où le Cigref parle de collecte, de traitement et de visualisation de l’information, le GFII emploie les mots collecte, analyse et partage et s’attarde sur chacune de ces trois phases du cycle de la veille. La collecte tout d’abord, a longtemps été sous-estimée par les éditeurs de logiciels de veille, alors qu’elle relève d’un processus complexe pour capturer correctement un matériau non structuré, hétérogène et volatile. Les auteurs font alors remarquer que ce fut sans doute une erreur stratégique et méthodologique, puisque la valeur et la pertinence des outils vient aussi de leur capacité à recueillir à la source un corpus d’information bien délimité. C’est une idée que nous avions déjà évoquée dans ces colonnes, à l’occasion du compte-rendu de la première journée d’études Scip France consacrée aux outils de veille, en juin 2001 (voir Netsources n°32). Certains éditeurs considéraient en effet à l’époque que le point-clé de la veille se situait plutôt dans la phase d’analyse des documents, et nous avions souligné que la sophistication et la finesse dans les capacités de recherche et de collecte de ces outils, était pourtant un point crucial pour constituer un corpus de qualité. Aujourd’hui, on distingue plusieurs méthodes de surveillance ou de collecte, auxquelles correspondent des technologies distinctes : - la surveillance des fournisseurs de contenus (tels que les supports de presse ou les portails sectoriels) peut s’effectuer grâce à l’abonnement à un flux RSS. Ces informations sont livrées sous différents formats XML et peuvent alors alimenter des applications de veille. On trouve également des outils d’alerte individuels par e-mail, mais il existe alors peu de possibilités d’alimenter un outil collectif ; - les outils de crawling permettent de surveiller le Web visible. Ils effectuent des opérations de comparaison pour détecter les nouveautés, d’indexation pour pouvoir rechercher dans le corpus des éléments capturés, et enfin des opérations d’analyse textuelle ; - pour surveiller le Web invisible ou les bases de données, les outils de veille disposent de deux technologies : les crawlers dits “évolués” et les connecteurs. Les crawlers évolués sont utilisés au sein d’outils de monitoring. Ils sont capables de repérer la manière dont sont transmises les variables de recherche (méthodes GET et POST, syntaxe de recherche…) et de réitérer la requête pour détecter de nouveaux résultats dans une liste. Tout changement dans le système d’interrogation de la source surveillée nécessite de reparamétrer l’outil de veille de façon adéquate. En outre, il n’est pas toujours possible de rapatrier les résultats eux-mêmes, mais uniquement les pages de résultats. Les connecteurs relèvent d’une autre technologie. Selon le lexique du GFII, un connecteur est un logiciel qui traduit la requête et le comportement d’un utilisateur dans le langage des différentes sources ou bases de données qu’il souhaite connecter à l’application. Le but est d’homogénéiser l’accès, la recherche, la consultation, la surveillance et la collecte sur des sources et des contenus hétérogènes, disponibles dans des systèmes différents et accessibles suivant plusieurs modes. Cette technologie permet de ne pas s’arrêter à la liste de résultats d’une source, mais d’extraire les résultats eux-mêmes, pour indexation, surveillance ou tout autre traitement ultérieur. C’est pourquoi elle est utilisée notamment dans les solutions de recherche fédérée. Cette solution puissante et sophistiquée nécessite néanmoins des développements importants et nombreux et les connecteurs doivent être maintenus et mis à jour à chaque fois qu’une source modifie son système d’interrogation. Cependant, certains éditeurs ont récemment mis au point des approches innovantes pour pallier cet inconvénient : - une technologie d’apprentissage automatique, permettant de connecter rapidement la plupart des sources et d’assurer automatiquement la maintenance des connecteurs ; - des bases de connaissance contenant la description de milliers de sources préparamétrées et automatiquement mises à jour, assorties d’un outil d’administration des paramétrages, pour pouvoir éventuellement les adapter à des besoins spécifiques ; - un configurateur de paramétrage de nouvelles sources (wizard). • Les outils d’analyseAutant les outils de collecte automatisée semblent commencer, aujourd’hui seulement, à se sophistiquer, autant les outils d’analyse sont devenus extrêmement perfectionnés et contribuent, toujours un peu plus, à constituer la partie “spectaculaire” des solutions de veille.L’analyse n’est pas autre chose qu’une opération de calcul sur le texte. On peut analyser un document ou un corpus documentaire entier constitué de plusieurs documents. L’analyse d’un document s’effectuera par modélisation du contenu ou extraction d’éléments pré-définis. L’analyse d’un corpus documentaire peut être réalisée en répétant les mêmes opérations sur chacun des documents du corpus ou par des technologies propres, pour aboutir à la mise en évidence de tendances ou de corrélations entre différents éléments du corpus. L’analyse nécessite le recours à une ou plusieurs technologies, plus ou moins complexe : - l’extraction d’entités nommées (noms de personnes, sociétés, produits, lieux, dates, grandeurs numériques…). Un recensement exhaustif étant la plupart du temps impossible, l’outil va utiliser tous les fichiers référentiels possibles (annuaires, atlas, catalogues…) et compléter par des méthodes linguistiques pour, à la fois, identifier les nouvelles entités jusque-là inconnues du système et s’assurer qu’il ne s’agit pas d’une “vraie-fausse entité nommée” (exemple : Orange/orange ; Carrefour/carrefour). On utilise alors des règles contextuelles ; - l’indexation thématique du sujet : on représente le contenu du document par un ou plusieurs descripteurs, que l’on peut choisir au sein d’une liste d’autorité, un thesaurus (indexation contrôlée) ou librement (indexation libre) ; - l’extraction d’éléments liés entre eux : cette technologie permet de relier entre eux les différents éléments identifiés. Par exemple : telle personne a telle fonction au sein de telle entreprise ; telle société a réalisé tel chiffre d’affaire pour telle année ; ou encore, tel produit est à tel prix chez tel marchand. Par ailleurs, l’analyse passe aussi par la normalisation. Il peut s’agir de formater de façon standard des documents hétérogènes, bien que de même nature (des CV, des brevets…). Il peut aussi s’agir de normaliser les mots contenus dans un texte ou ses descripteurs : rassembler les formes fléchies, les variantes orthographiques, les dérivations, les synonymes, pour effectuer ensuite des opérations statistiques plus pertinentes. L’analyse d’un corpus documentaire, qui s’effectue par des techniques similaires sur chacun des documents, permet de faire ressortir des liens entre personnes, sociétés, lieux, d’estimer leur fréquence d’apparition. L’organisation en clusters (classes d’équivalence) permet de dégager les tendances fortes ou les points de rupture. Ici, il n’existe pas de modélisation préalable, puisqu’on ne sait pas à l’avance ce que l’on cherche ! • Le partage des informationsDernier volet indispensable au bon fonctionnement d’un processus de veille : un partage efficace. Il est évident que les outils ne peuvent ici en aucun cas “automatiser le partage”, puisque la politique de diffusion de l’information au sein d’un organisme relève d’une décision stratégique ; mais ils offrent techniquement la possibilité de faire parvenir la bonne information à la bonne personne, au bon moment, sous une forme intelligible et ce, en toute sécurité.La veille stratégique fait appel à la diversité des compétences au sein d’une entreprise et ce, dès la phase préliminaire d’identification des sources potentielles d’intérêt : le juriste pour la veille réglementaire, l’ingénieur pour la veille technologique, l’analyste marketing pour la veille sociétale. Chacun dans son domaine sera mieux placé pour identifier les sources, pointer les informations recherchées, décrire un vocabulaire métier, décrypter un contexte spécifique, savoir lire entre les lignes… D’où l’intérêt des plates-formes collaboratives, qui permettent à chacun d’apporter sa pierre à l’édifice. Ces solutions permettent aussi d’accroître la réactivité face à la réception d’une information, en multipliant les destinataires, en raccourcissant les délais de publication sur un portail : dès sa validation, une information pourra être lue par les personnes concernées, puis à nouveau analysée, enrichie et commentée. Les annotations de documents contribuent d’ailleurs à la valeur ajoutée et à une meilleure appréhension de l’information. Enfin, le partage de l’information par le plus grand nombre nécessite souvent un “reformatage” standard, pour qu’elle soit facilement compréhensible et assimilable par tous. Une “note d’étonnement” sera par exemple constituée des éléments suivants : titre, résumé, extraits ayant déclenché l’alerte, analyses et lien vers le document complet ou pièce jointe. Il est également indispensable de pouvoir qualifier l’information par des critères simples d’évaluation : degré d’importance ou de fiabilité, source, date, auteur… Dernier aspect, et non des moindres, partage doit rimer avec sécurité : l’ouverture des vannes du partage ne doit pas constituer une fragilité pour l’organisme qui l’a institué. *
La totalité du document “Outils de veille et d’IE : un
référencement à partir des usages”, après avoir fait l’objet d’une
publication dans le n°15 du magazine RIE (Regards sur
l’intelligence économique), sera très prochainement proposé en
accès libre, au format PDF, sur le site www.gfii.asso.fr.* * On ne peut que saluer cette initiative, qui s’attache à dépasser les limites du discours marketing propre à chaque éditeur, pour apporter à l’utilisateur un vrai document de référence sur les fonctionnalités de ces outils. On citera aussi le projet de l’Inist, dont le service veille a mis sur pied une étude de benchmarking des outils, ainsi qu’un “crash site”, disponibles sur le site http://outils.veille.inist.fr. Après avoir défini des critères et des procédures de tests comparatifs, les outils sont testés sur différents corpus à l’aide d’une série de questions. Pour l’instant, seule une poignée d’outils a été testée et quelques résultats seulement sont disponibles. Mais le projet est amené à s’enrichir au fur et à mesure. Le Crash Site permet quant à lui de construire une page Web contenant des objets HTML précis, afin de tester certaines fonctionnalités des logiciels de veille. On le voit, tous ces organismes professionnels, que ce soit Scip France, le Cigref, le GFII ou l’Inist, marchent dans la même direction, avec pour but de clarifier l’offre disponible sur le marché français en termes d’outils de veille et de fournir à l’utilisateur différents points de repères. Ces démarches étaient attendues depuis longtemps par la communauté des veilleurs. * L’article “ Des systèmes et des hommes”, paru dans le n°41 de Netsources (en accès libre sur le site www.bases-publications.com), dresse un compte-rendu de cette journée. ** voir Netsources n°60 *** voir Netsources n°62 |
|