Une application de la fouille de textes : l'extraction des règles d'association à partir d'un corpus spécialisé
Jérôme Azé et Mathieu Roche
Résumé
Dans de nombreux domaines (biologie, médecine, psychologie, etc.), des outils de fouille de textes efficaces permettraient d'économiser un temps de travail énorme.
Afin d'avoir un outil utilisable par des spécialistes du domaine, ce dernier doit couvrir les différentes étapes de la fouille de textes.
L'approche que nous proposons dans cet article consiste à extraire les règles d'associations propres au domaine à partir d'un ensemble de textes homogènes spécialisés.
Notre approche est composée de différentes étapes dans lesquelles l'expert du domaine joue un rôle essentiel.
La première étape consiste à extraire les termes dans les textes et à les associer à un concept, c-à-d. un ensemble de termes ayant la même sémantique.
En utilisant cette nouvelle connaissance propre au domaine, le corpus initial est réécrit sous forme matricielle.
La dernière étape de notre approche, consiste à discrétiser la matrice obtenue à l'étape précédente afin d'en extraire les règles d'association propres au domaine.