Bases, Numéro de Mai 2006 - n°227


Le Cineca propose un outil de text mining

Le Cineca est principalement connu en France des utilisateurs du serveur EINS GEM, qui a pris la suite du serveur Esa/Irs (Bases n° 160). Il en est en effet le coordinateur technique, assurant l’interface avec les serveurs (STN, Dimdi…), hébergeant certaines banques de données proposées par EINS GEM et en hébergeant d’autres sur ses propres machines. Le Cineca est par ailleurs, essentiellement même, un consortium interuniversitaire italien, constitué par 27 universités, le CNR (Conseil national de la recherche) et le ministère italien de l’Université et de la Recherche.

Auteur : François Libmann

C’est un centre de calcul très important, qui développe des applications et des services dans le domaine des technologies de l’information.

Le Cineca propose aujourd’hui  un service de text mining, en particulier via EINS GEM, sachant qu’il faut néanmoins un contrat spécifique.

Le Cineca a en effet developpé un savoir faire dans ce domaine depuis plusieurs années déjà, comme en témoigne la publication de l’article “Text mining applied to patent mapping: a practical business case” de Michele Fattori, Giorgio Pedrazzi et Roberta Tursa, les deux derniers étant des chercheurs du Cineca. Cet article a été publié en 2003 dans la revue “World Patent Information” (n° 25 pp 335-342).

Il décrit l’outil prototype PackMole, réalisé avec le département Intellectual Assets de Tetra Pack Carton Ambient SpA.
Cet outil a servi à analyser les 192 brevets déposés sur la période 1991-2000 par un groupe actif, notamment dans le domaine de l’emballage.

Le Cineca propose aujourd’hui des services sur mesure pour analyser un ensemble de données fournies par un client.

Il propose aussi depuis peu deux services plus standardisés.

Le premier, baptisé epmole, est réalisé à partir des résumés des demandes de brevets européens et/ou PCT depuis 1990 et utilise Espacenet (environ 1,8 million de documents).

Le second, s’appelle mdmole et concerne le domaine médical ; il utilise les données de Medline jusqu’en 2004 (seulement), soit environ 6 millions de documents.

L’utilisateur saisit une stratégie de recherche dont le résultat est un ensemble de documents, que l’outil va répartir dans une série de clusters, regroupant les documents ayant entre eux la plus grande similitude possible et le moins de similitudes possible avec les autres documents, sachant qu’il est possible de faire varier les règles de similarité.

On peut ensuite visualiser les liens entre les clusters et la façon dont les groupes de mots-clés sont liés les uns aux autres.

On peut aussi visualiser de plusieurs façons (histogrammes, camemberts…) la répartition de différents éléments dans chaque cluster (dates de publications, classifications des brevets, mots-clés de Medline…).

Nos compétences en matière de text mining étant limitées, nous ne pouvons juger de la qualité intrinsèque de ces outils.

Nous nous contenterons de remarquer que :

• la stratégie de recherche utilisable pour définir l’ensemble sur lequel s‘effec-tuera le text mining ne peut pas être très sophistiquée, ce qui limite la précision avec laquelle on peut définir le corpus ;

• pour la partie brevets, le système ne connaît pas le concept de famille de brevets.
A titre d’exemple, dans un cluster de cinq brevets (sur un ensemble de départ de 84 brevets), nous avons observé que les trois premiers étaient en fait les mêmes, le premier étant le brevet européen, le deuxième son équivalent PCT et le troisième le même brevet PCT avec le numéro écrit différemment. Quant aux deux derniers, il s’agissait du même brevet, l’un européen et l’autre PCT.

On peut, dans ces conditions émettre de sérieux doutes sur la qualité de la définition des clusters brevets.
Quant à l’option consistant à se limiter aux brevets européens ou PCT seulement, elle n’est évidemment pas neutre sur la qualité de l’échantillon ;

• toujours pour la partie brevets, le système ne regroupe pas les déposants identiques dont le nom est écrit différemment – par exemple BERU AG et BERU Aktiengesellschaft.

On peut bien sûr basculer cette analyse dans Excel et opérer des regroupements, mais cela n’est pas très commode.

Ce problème de regroupement des déposants n’est évidemment pas propre à epmole, puisqu’il se pose dès que l’on veut analyser les déposants d’un ensemble de brevets.

Cela étant, si l’on fait par exemple une telle analyse dans STN Express ou dans AnaVist, ces outils intègrent un certain nombre de regroupements opérés par similitude de noms ou par regroupement de filiales avec les maisons mères. Il est par ailleurs possible, en restant dans l’outil, de modifier ces regroupements.

L’ordre de grandeur du coût annuel de l’abonnement à epmole ou mdmole, permettant un accès illimité, est de 15 000 €.

INFORMATIONS : www.einsgem.org
rubrique Data and Text Mining