
|
Netsources, Numéro de Mai-Juin 2001 - n°32 Quelques outils à la loupeSystal/Createam•Lexiquest•Alogic•Datops•Arisem•Autonomy |
Auteur : Anne-Marie Libmann |
|
Dans tous les systèmes cités dans le précédent article, on peut se
demander quelle doit être la démarche du client face à la nécessité
de faire un choix, dont on a vu qu’il engageait des dépenses non
négligeables*. Certaines sociétés, de préférence fortunées,
choisissent d’investir du temps et de l’argent pour tester les
produits avant achat. Est-ce justifié et rentable ? Le débat serait
long.
Nous conseillons pour notre part d’appréhender le plus finement possible le fonctionnement de ces outils et de faire son choix en fonction de quatre éléments : l’adéquation du produit aux buts recherchés, la position que l’on décide de donner au curseur entre la fonction collecte et la fonction analyse, la confiance – élément fondamental – dans le système proposé (et il en faut), et enfin la disposition personnelle à s’impliquer dans l’outil. On n’insistera jamais assez sur l’importance des méthodologies à élaborer, sur l’investissement des veilleurs dans les processus de formulation des concepts, des sujets à surveiller et dans l’exploitation des données collectées. Il est important de savoir que l’on n’achète pas seulement un produit, mais une organisation à mettre en place, avec des ressources bien identifiées et définies sur du long terme. Nous essaierons ici d’apporter une contribution à la compréhension de l’offre. Précisons d’entrée de jeu que toutes les sociétés présentes ne se restreignent pas au seul traitement des données issues d’Internet, mais déclarent intégrer tout type d’organisation d’information, d’applications et de type d’information : ERP, CRM, applications documentaires, knowledge management, commerce électronique, portails, serveurs bureautiques, Intranets, etc. Il est important de prendre ces éléments en compte, car il s’agit de l’intégration du système au fonctionnement global de l’entreprise. Nous nous concentrerons ici sur leur apport pour la veille sur Internet. SYSTAL / CREATEAMD’après ce que l’on peut observer, ces deux sociétés ont fusionné non seulement au niveau organisationnel, mais également au niveau technologique. Elles présentent ainsi une seule offre, intégrant leurs savoir- faire respectifs, et se voulant précurseurs d’une notion nouvelle : le "knowledge discovery". Il n’est pas simple de comprendre en profondeur la spécificité des produits de ce consortium Systal / Createam, visiblement plus préoccupé de parler de la faiblesse des produits du marché, concurrents ou non, qu’à exposer de façon précise et structurée sa technologie. L’adhésion de certains professionnels est là heureusement pour nous rassurer : Alogic, Questel.Orbit, le CNRS… La société promeut le caractère innovant de sa solution WebProDipper : "la navigation dans le contenu, par des requêtes conceptuelles, les plus proches possibles d’une conversation humaine". L’utilisateur peut ainsi, au fil de son dialogue avec le système, émettre ses idées ou concepts, et avoir accès à un outil de langage naturel puissant, puisqu’une interrogation peut être faite au moyen de paragraphes entiers. Ces concepts précisément, concepts sémantiques ou "Pertimmiseurs", formulés de façon dynamique sans l’aide de linguistes, ont pour fonction de permettre l’intégration du point de vue du client dans les index de Pertimm. Alliés aux groupes nominaux, calculés sur les racines des mots, ils fondent la pertinence de Pertimm. Le logiciel se veut être un outil de veille puissant dédié au Web, qui a toujours constitué pour Systal une préoccupation majeure, en raison de son intérêt et des contraintes bien connues désormais : accroissement exponentiel du volume, bruit, silence, résistance au traitement des pages dynamiques, mauvaise gestion des dates, pour ne citer qu’elles. La consommation importante de ressources pour indexer le Web est une autre contrainte majeure qu’a cherché à lever Systal, grâce à un algorithme d’alimentation et de tri linéaires qui limite la puissance de calcul nécessaire. Un principe de linéarité qui le distingue des moteurs classiques qui aujourd’hui explosent, incapables d’indexer les milliards de documents et de suivre la croissance du nombre de pages Web. Systal propose aujourd’hui en ASP un véritable service de veille sur Internet aux personnes concernées dans l’entreprise, en crawlant en permanence pour eux les thèmes et les sites déclarés. L’agent WebProDipper va alors explorer cet ensemble avec ses "focus oriented spiders", agents intelligents armés de concepts. Le relais est ensuite pris par Pertimm, qui va faire de l’indexation linguistique rendant possible la navigation, le pull et le push. La lisibilité et l’accès rapide à l’information contenue dans les lots de documents sont possibles avec les vues synthétiques construites lors de l’indexation, grâce au traitement des co-occurrences. Celles-ci sont calculées non pas seulement sur le groupe nominal, mais aussi sur les requêtes, sur les dates, avec possibilité de calcul de deltas de co-occurrences. Cette solution se veut être un outil de text-mining. La navigation par concepts et mots de concepts est conçue comme un accélérateur de lecture. Il est également possible de visualiser graphiquement les liens entre acteurs, faire des zooms, etc. LEXIQUESTLexiquest (ex Erli) part du constat que la grande hétérogénéité du matériau qu’est Internet rend la recherche, l’analyse et la qualification de l’information difficiles. La faiblesse des moteurs contraint l’utilisateur à passer beaucoup de temps à la collecte et à la recherche, au détriment de l’analyse. Au final, l’information est largement sous-exploitée. Pour Lexiquest, la démarche de veille ne se réduit pas à lancer une requête. On va déjà partir d’une approche “bottom-up” de text-mining qui consiste à appliquer une technologie d’extraction de concepts et de cartographie sur des corpus documentaires constitués, dans le but de faciliter la découverte de l’information, de structurer, positionner celle-ci. Il est ici question d’augmenter la réactivité et la productivité des veilleurs. Lexiquest se positionne donc clairement sur l’analyse et la "découverte" de l’information, avec une technologie basée sur des outils linguistiques et statistiques, qui permettent d’extraire les termes et concepts du texte même. Seront ici également employés des dictionnaires spécialisés, des thesauri internes, des dictionnaires métier utilisés par le client lui-même. L’information va être ainsi extraite, typée, indexée et mise en scène, grâce à la cartographie, de façon graphique et dynamique (la carte se redessinant instantanément autour du concept choisi). Les gros corpus justifient particulièrement bien l’utilisation d’un tel type d’outil. Lexiquest s’adresse à tous les domaines de la veille. Dans la R&D, où l’information brevets est fondamentale, il s’agira de détecter les technologies émergentes, mettre en évidence des réseaux d’experts… ; dans le Knowledge Management, de suivre l’évolution des termes métiers, de cartographier les compétences internes… ; dans le marketing, de découvrir les réseaux d’accord commerciaux, les nouvelles réglementations… ; dans le secteur de la communication, de surveiller son image, d’anticiper une crise, de mieux la gérer avec les signaux contenus dans le corpus. Enfin, dans l’analyse stratégique, on se focalisera sur les accords et partenariats. L’offre de Lexiquest comprend 3 produits phares : LexiGuide, qui permet d’accéder aux documents pertinents et d’affiner cet accès, LexiMine qui va extraire et analyser les données pour les cartographier, et enfin LexiRespond, qui assure des questions/ réponses en ligne. Chacun de ces produits va avoir un rôle à jouer dans la veille telle qu’elle est définie par Lexiquest, véritable cycle dont les principales étapes sont les suivantes : alerte sur l’information pertinente contenue dans le corpus (dont un analyseur morpho-syntaxique aura extrait les concepts), construction de vues montrant ces concepts, relations entretenues avec les autres concepts et évolution dans le temps, navigation sur les liens et types de données, programmation d’agents de veille qui vont aller poser les bonnes questions sur des sites Web identifiés ou non pour, à partir des cartes générées, retrouver les nouveaux documents. Ces questions spécialisées seront récurrentes, focalisées sur la surveillance des nouveaux entrants. Ici va être utilisé un moteur de recherche intégré, Lexiquest Search, conjugué avec les moteurs traditionnels du Web. ALOGICAlogic, spécialiste du traitement de l’information stratégique, offre un outil de recherche Web et documents internes extrêmement structuré. Les différents modules qui composent Aperto Libro sont répartis entre deux grandes fonctions : - la collecte / recherche de documents, avec les outils Albot, robot de recherche sémantique dédié au Web et son “pendant” Aline pour l’importation de documents interne ; Alors, qui permet de formuler des requêtes multilingues et enfin Alcalimm, moteur de traitement lexicographique et sémantique ; - la visualisation du document, avec les outils Alinea et Alapage, orientés vers une “prise de connaissance” rapide mais approfondie du document ; ces outils permettent une lecture discursive avec surlignage des zones pertinentes, du résumé et d’un résumé appelé trans-documents (à savoir le résumé des résumés des meilleurs documents issus de la requête) mais aussi une lecture non-discursive avec navigation par concepts. On retrouve dans cette offre logicielle les préoccupations de Systal, dont la technologie Pertimm est d’ailleurs intégrée dans Aperto Libro : tout d’abord la résolution du problème de la lenteur de l’accès au document, avec la fonction de navigation dans le contenu. Les traitements étant effectués dans la mesure du possible au moment de l’arrivée des documents, la requête lancée par l’utilisateur ne sera pas affectée par des temps de traitement et il accèdera rapidement aux documents. La réduction du bruit est permise par la réduction des ambiguïtés : l’utilisation de groupes de mots présents et la définition de concepts et liens entre concepts va y concourir, permettant de l’affranchir des traitements statistiques ou par le thesaurus. Enfin, la réduction en parallèle du silence se fait avec l’aide à l’utilisateur pour la formulation des requêtes. Celui-ci se verra proposer le suivi en interactif de sa requête en fonction du corpus documentaire, tel qu’il a été indexé et, sophistication intéressante, le système lui montrera ce qu’il a vraiment compris. Au final, Aperto Libro, qui se présente comme un “atelier logiciel”, est un outil permettant à l’utilisateur conscient de la complexité de toute recherche de trouver des solutions à explorer. DATOPSDatops applique au Web la technologie Periclès déjà bien connue et offre ainsi une solution de veille et d’analyse automatisée de l’information collectée sur des sujets définis à l’avance, et dont le sens va être extrait de façon immédiate, avec séparation des éléments constitutifs. Cette solution, adaptée pour traiter de gros volumes, va détecter tout changement de comportement de l’information dans le temps à l’intérieur du cadre que l’on se sera fixé. On pourra ainsi observer l’évolution d’une problématique donnée, voir comment l’information s’organise sur les thèmes d’une période donnée, reconnaître les seuils de rupture... L’information sera alors publiée avec des indicateurs spécifiques. Periclès s’articule autour de trois produits, les deux premiers étant du push : une veille multi-sources, à partir d’un corpus défini (Web, forums de discussions, listes de diffusion, etc), une veille avec tableaux de bord graphiques où l’on pourra voir la teneur de l’information sur les sujets surveillés, les corrélations entre différents éléments (auteurs, sources, nombre de documents...) sur les sujets surveillés et enfin un produit destiné aux analystes, avec requêtes booléennes, analyse lexicale, analyse des tendances et des différentes thématiques entre elles. Seront tracés des histogrammes, des alertes graphiques ou par mail seront envoyées… L’information sera ensuite publiée soit à travers des portails existants, soit via un portail Internet fabriqué sur mesure. ARISEMSi Arisem a "verticalisé" sa technologie à travers divers produits – travail coopératif, gestion des intranets documentaires, motorisation des sites Web …– nous retiendrons pour notre sujet sa puissante aptitude à la veille sur Internet. Nous avons ici un outil dédié à l’exploration d’Internet, qui se fonde sur le dialogue entre l’utilisateur et la matière informationnelle fournie par le Web. On pourrait dire que ce dialogue est ou doit être permanent, car le système, qui crawle en continu le Web, pousse l’utilisateur à être réactif, tant au niveau de l’interprétation des résultats que de l’enrichissement du système qui, s ‘il est pertinent, va créer un cercle vertueux en améliorant le crawling en amont – choix des sources et moteurs spécialisés – et par voie de conséquence les résultats. Le principe est d’analyser à la volée les documents du Web, en s’appuyant sur une base de connaissances multilingue, fournie par Arisem et enrichie par le client (le lien entre les mots et concepts pouvant être caractérisé différemment – sur 8 niveaux précisément). Les documents jugés pertinents sont alors rapatriés et classés instantanément. Si ces documents contiennent des liens hypertextes, ces liens vont être activés et crawlés avec l’apport de la sémantique : le crawler ne s’arrêtera que lorsqu’il sera asséché, les liens renvoyant alors sur un matériau ne correspondant plus à l’analyse du sens. L’historique de tout ce qui a été analysé étant restitué, le veilleur dispose d’un matériau précieux pour modifier les éléments adéquats. Les documents réceptionnés lors du crawling vont être dirigés automatiquement dans un plan de classement, véritable "filet de pêche" qui va retenir et catégoriser les documents capturés. Ce plan est généré par l’utilisateur à l’aide de taxinomies qu’il aura écrites, les catégories de ce plan de classement pouvant ensuite être croisées entre elles. La visualisation de la pertinence des documents est aisée grâce à l’extrait qui en est montré. AUTONOMYCette société d’origine britannique, très en vue, cotée sur le marché, disposant d’une implantation mondiale, propose une infrastructure, à savoir une offre modulaire de logiciels, pour mettre en œuvre le traitement de l’information. Cet ensemble de logiciels peut être vu comme une couche entre un certain nombre de propositions fonctionnelles et les différentes applications de l’entreprise : CRM, ERP, gestion documentaire, GED, KM, e-business, Intranets, Internet… L’information traitée est donc beaucoup plus large que la source Internet, elle est toute l’information de l’entreprise. Elle peut, et c’est là une particularité intéressante peu répandue, traiter tout type de media : texte, audio, video, téléphonie mobile… Il s’agit ici d’agréger et d’interconnecter via cette infrastructure les contenus des systèmes de gestion d’information hétérogènes (en allant même jusqu’au niveau "people" en prenant en compte les centres d’intérêt, considérés comme autant de sources d’information) et de proposer différentes fonctions d’interfaçage en découpant les différents outils en fonction des besoins. Ces fonctionnalités sont extrêmement riches, qui reposent pour beaucoup d’entre elles sur la construction de cartes conceptuelles de documents et l’exploitation de la proximité de ces cartes entre elles : - catégorisation : hyperliens entre documents en fonction des concepts identifiés ; clusterising, à savoir identification d’îlots d’information, qui ne se base pas sur un plan de classement, mais sur le contenu textuel du fonds documentaire ; - recherche grâce au matching entre concepts et documents du fonds documentaire ; - outils de personnalisation, avec la création de catégories propres dans le plan de classement personnel ; - suivi des utilisateurs dans leurs navigations, avec mise à disposition "spontanée" de nouveaux documents en fonction des concepts détectés ; - envoi de documents via messageries électroniques, wap, fax etc. Contrairement aux autres logiciels présentés, Autonomy utilise des technologies indépendantes du langage : “pattern matching” pour identifier des chaînes de caractères, théories mathématiques pour identifier le concept en fonction de la fréquence, de la rareté, des co-occurrences... On l’aura compris : Autonomy n’est pas spécialiste de la veille et ne prétend pas rechercher de l’information, considérant sans doute qu’on trouve déjà beaucoup de moteurs de recherche sur le Net. L’approche proposée pour attaquer le Web est un spider, dont les possibilités de paramétrage sont très fines et constitue un outil intéressant pour une bonne maîtrise du crawling. On soulignera cependant que l’offre d’Autonomy doit surtout être perçue comme une solution globale, permettant l’automatisation du traitement de l’information de toute l’entreprise. |
|