PROPOSITION DE SUJET de THESE
 

Responsables : M. LAFOURCADE, V. PRINCE

Téléphone : 

04 67 41 85 71, - 86 85

Adresses électroniques : 

lafourcade@lirmm.fr, prince@lirmm.fr

Laboratoire et équipe : LIRMM - Dept Informatique - Equipe TAL

TITRE :

Analyse sémantique de textes par algorithmes à fourmis colorées multi-castes

Résumé :

Dans le cadre de l'équipe TAL (Traitement Algorithmique du Langage) du LIRMM, nous étudions des approches d'analyse sémantique de textes (par vecteurs conceptuels et réseaux sémantiques). Les vecteurs permettent de capturer les sèmes associé à un terme ou à des acceptions. Les calculs sur ces vecteurs en combinaisons avec les arbres d'analyses morpho-syntaxiques permettent d'affiner la pertinence de l'analyse. Il est ainsi possible d'effectuer avec de meilleurs résultats une sélection lexicale ou un transfert (dans le cadre de la traduction). Ainsi, une base lexicale importante (plus de 150000 termes pour 510000 vecteurs) a été construite semi-automatiquement pour le Français. L'analyse sémantique se fait à partir de l'arbre d'analyse morpho-syntaxique produit par l'outil SYGMART de J. Chauche (www.lirmm.fr/~chauche). La propagation des vecteurs et des autres informations pertinentes peut se faire à l'aide de "fourmis". Les sens des termes constituent des fourmillères et produisent régulièremement des fourmis qui constituent des transporteurs d'informations.

Nous souhaitons évaluer dans quelle mesure ce genre de technique peut-être étendu à plusieurs critères (les "castes"). On pensera en particulier aux contraintes sémantiques liées aux agents et patients typiques des verbes. Par exemple, pour le sens propre de "manger" on souhaite que le sujet correspondent à un être vivant. L'exploitation par recopies locales de réseaux sémantiques devra être étudiée. Le problème de la convergence du calcul du résultat devra être abordé, en particulier pour des segments textuels syntaxiquement ambigüs.

L'objectif de cette thèse est donc d'étudier, de formaliser et de prototyper un environnement permettant l'analyse sémantique de textes à l'aide d'algorithmes à fourmis exploitant des informations à fort rappel (vecteurs conceptuels) et à forte précision (réseaux sémantiques) à partir d'arborescences d'analyses morphosyntaxiques. Il s'agit de dégager un certain nombre de stratégies et d'heuristiques pertinentes dans le cadre d'approches à émergence.

Mots-clés :

Traitement automatique du langage naturel, désambiguïsation de sens, analyse sémantique de textes, algorithmes à fourmis, réseaux sémantiques, vecteur conceptuels, émergence

Références :

Ide and Véronis 2002 Introduction to the Special Issue on Word Sense Disambiguation: The State of the Art. Computational Linguistics 24(1): 1-40 (1998)

J.M. Pasteels J.L. Deneubourg, S. Goss, D. Fresneau, and J.P. Lachaud. Self-organization mechanisms in ant societies (ii): learning in foraging and division of labour. Experientia Supplementa, 54:177--196, 1987.

E. Lumer and B. Faieta, Diversity and Adaptation in Populations of Clustering Ants. Proceedings of the Conference on Simulation of Adaptive Behaviour: from animals to animats 3, pp. 501-508, MIT Press Cambridge, 1994.

Lafourcade M., V. Prince and D. Schwab, Vecteurs conceptuels et structuration émergente de terminologie, TAL, vol 43 - n1, p. 43-72, 2002.

Hofstadter, D. R., Fluid Concepts and Creative Analogies: Computer Models of the Fundamental Mechanisms of Thought (together with the Fluid Analogies Research Group), NY: Basic Books, 1995.

P. P. Grassé. La reconstruction du nid et les coordinations inter-individuelles chez Belicositermes natalensis et Cubitermes S.P. La théorie de la Stigmergie : essai d'interpr\'etation du comportement des termites constructeurs. In Insectes Sociaux, vol. 6, pp. 41-80. 1959.

Gale W., K. W. Church, and D. Yarowsky, A Method for Disambiguating Word Senses in a Large Corpus. Computers and the Humanities, 26:415-439, 1992.

C. Bertelle, A. Dutot, F. Guinand, and D. Olivier. D{I}{M}{A}{N}{T}{S}: a {D}istributed {M}ulti-{C}astes {A}nt {S}ystem. In proceedings of Bixmas (Workshop of AAMAS 2002), pages 1-6. Bologna (Italy), July 12-14, 2002.


Contact : mathieu lafourcade LIRMM - 161, rue ADA - 34392 Montpellier Cedex 5 - France - Tél : (33) 04 67 41 85 71 - Fax : (33) 04 67 41 85 00 - courriel : lafourcade@lirmm.fr