Sujet de stage de recherche année 2010-2011

CREATION D'UNE BASE TERMINOLOGIQUE POUR LA RECHERCHE D'INFORMATION ET L'AIDE A LA DECISION ADAPTEE À UN MOTEUR DE RECHERCHE MUSICAL
____________________________________________

SUJET COMMUN SOCIÉTÉ TWIAM (PIERRE LEBECQUE) ET LIRMM_TAL (VIOLAINE PRINCE)
CONTACT : prince@lirmm.fr

La société TWIAM propose une cartographie complexe de l’univers musical du vingtième siècle et de ce vingt et unième siècle naissant, dont la recherche d’information n’est qu’un volet fondateur. Cette cartographie est informatisée sous forme d’une base de données élaborée, permettant des requêtes également complexes de la part d’utilisateurs grand public, ou avertis.
Au-delà de la recherche d’information musicale (i.e., répondre à des questions telles que : “qui a écrit tel morceau...”, ou “qu’est-ce qui est paru en 19... chez XX”, ou “quelles sont les oeuvres de X qui ressemblent à celles de Y....”, et bien que cette dernière question ne soit pas triviale), la société TWIAM souhaite avoir un usage original de son système, dans le sens du conseil musical dépendant de la notion d’humeur (“mood”).
Les utilisateurs de moteurs de recherche d’information musicale sont de plus en plus intéressés par récupérer des morceaux de musique, et également des auteurs ou compositeurs, en fonction d’une certaine “couleur” thématique. Cette couleur peut être définie d’une certaine manière dans la base de données par des caractéristiques techniques musicales (mode, tonalité, tempo, mesure). Les utilisateurs l’expriment en revanche à l’aide de mots, termes, expressions en langage naturel. L’idée originale de la collaboration entre TWIAM et l’équipe TAL du LIRMM est la suivante :
-    à partir d’un pré-corpus connus de termes qui, d’après TWIAM, est assez répandu chez des utilisateurs souhaitant un avis ou un conseil de programmation musicale
-    réaliser une base terminologique permettant un accès à l’organisation des données correspondantes dans la base de données TWIAM
-    permettre des chemins d’interrogation différents de ceux déjà déterminés dans la base, grâce aux relations lexicales existant en langage naturel entre les termes. On s’attachera en particulier à la relation de sysnonymie contextualisée.
-    Réaliser un environnement permettant de consulter, mettre à jour la base terminologique.
-    Construire un espace terminologique à partir de la classification des morceaux par TWIAM. TWIAM a adopté une structuration très originale à partir des “ éléments chinois” .Cette classification se comporte comme une famille vectorielle génératrice, dans laquelle les termes peuvent être indexés. L’équipe TAL du LIRMM a une grande expérience de l’indexation terminologique dans un espace vectoriel engendré, et propose donc de combiner la réalisation de l’indexation avec la recherche dans la base terminologique.
Les travaux de test et de mise en oeuvre se feront en collaboration avec l’équipe informatique de TWIAM et avec des spécifications propres à ses développements.

_____________________________________________

ARCHIVES

Sujet de stage de recherche année 2008-2009

FOUILLE DE TEXTE EN SECURITE FERROVIAIRE 

SUJET COMMUN INRETS (P. BON), LIRMM_TAL (V. PRINCE)


L'objectif de l'union Européenne dans le domaine ferroviaire est d'avoir un réseau interopérable, c'est à dire qu'un train puisse traverser les frontières sans problème de matériel roulant, d'infrastructure, de signalisation, d'agent de conduite etc... La directive 96/48/CE et les Spécifications Techniques d'Interopérabilité (STI) donnent un cadre règlementaire pour atteindre l'interopérabilité dans le secteur de la grande vitesse.


Cette directive et ses STI se présentent sous la forme d'un ensemble de documents écrits en anglais. Le problème de l'INRETS est la recherche et la modélisation des exigences en matière de sécurité ferroviaire, qui sont contenues dans ces documents et qu'il faudrait pouvoir extraire, à l'aide de techniques de traitement automatique du langage naturel appliquées à la fouille de texte. 


Pour l'INRETS :

La première étape de ce stage est d'intégrer la directive 96/48/CE et ses STI (en anglais) dans la base de donnée documentaire DOORS. La seconde étape est la plus intéressante, en effet, le but est de trouver une méthode systématique qui nous permettrait de mettre en lumière les exigences dans les modules DOORS et cela grâce à l'utilisation de son langage de programmation DXL.


Côté TALN : l'idée est de repérer dans les textes, après lemmatisation, les éléments de langage naturel reliés à la sécurité, afin de construire ensuite, dans DOORS, des règles d'extraction ou de repérage des passages concernant cette sécurité. Il s'agit d'un travail terminologique, et de structuration du document.


Ce stage  pourrait être suivi d'une thèse à l'INRETS. 


Contact : philippe.bon@inrets.fr, prince@lirmm.fr


___________________________________________________

Sujet de thèse rentrée 2008 

Contribution de l'analyse syntaxique à la traduction automatique

La traduction automatique a fait d'énormes progrès en ce qui concerne le transfert lexical (traduction des mots), et la traduction des expressions figées, grâce à des techniques statistiques  lexicales, des ressources multilingues évoluées et la mise à disposition de corpus alignés. Aujourd'hui, le nouveau défi consiste à étendre ces compétences à la construction correcte de phrases en langue cible, afin de produire des textes grammaticalement acceptables. Plusieurs techniques sont en concurrence dans ce domaine : générateurs de structures de surface à partir d'une représentation pivot,  ainsi que diverses méthodes d'apprentissage de formes grammaticales et de tournures de phrases à partir de corpus. 

Le sujet de la thèse proposée consiste en l'étude théorique et expérimentale de la contribution de l'analyse syntaxique de la langue source à la génération (allégée) de phrases  grammaticalement correctesen langue cible. Les travaux de l'équipe (Chauché et Prince 2006, Bonnin et Prince 2007, disponibles dans la documentation en ligne du LIRMM, sur HAL), montrent que la construction syntaxique en langue cible, si celle-ci n'est pas très éloignée de la langue source (comme les couples français-anglais, français-espagnol, français-allemand), peut être réalisée par transformation de la construction syntaxique des unités en langue source. Parmi les buts  du travail proposé nous pouvons mentionner :

  1. d'étendre, d'améliorer et de réajuster les premières transformations proposées dans les travaux cités , éventuellement en "apprenant" ces transformations à partir de données alignées. 
  2. A partir du prototype existant SYGFtoE de traduction du français vers l'anglais, construire une  grammaire de transformations. Cette grammaire doit être le résultat d'un travail théorique et algorithmique relativement important à partir des structures apprises en 1.
  3. Evaluer ce travail sur un ou plusieurs corpus. 

Candidature : Les candidats devront faire acte de candidature auprès de Christophe Dony, sur le lien suivant : candidature-thèse  avant le 30 mai 2008.

Une formation en TAL est vivement conseillée. 

Pour tout renseignement, envoyer un mail à : prince@lirmm.fr


PhD Thesis Subject (Autumn 2008)

 Contribution of Syntactic Analysis to Machine Translation

Machine Translation has tremendously progressed in tasks such as lexical transfer (word translation), idiomatic expressions, with the help of statistical lexical techniques,  advanced multilingual resources and the availability of aligned corpora. Nowadays, the new challenge is to extend these skills to correct sentences building in the target language, in order to produce grammatically acceptable texts. Several methods are competing in this field: Surface structure generators from a pivot representation as well as numerous grammatical structures and sentence style learning techniques, using corpora.

The subject of this PhD thesis consists in studying, theoretically as well as experimentally, the source language syntactic analysis (through parsing) contribution to the generation of grammatically correct sentences in the target language. Some of our team contributions (namely Chauché and Prince 2006, Bonnin and Prince 2007, available at the LIRMM the on-line documentation HAL ), show that the syntactic generation of the target language, if the latter is not very far from the source (pairs such as English-German, French-English, French-Spanish...), might be obtained through the source language  units syntactic structure transformation.

The goals of this work include but are not restricted to:

Extending, enhancing  and refurbishing the existing transformation rules and models suggested in the cited words, possibly through learning these transformations from aligned data.

Building a transformation grammar, from the existing French to English translation protoype SYGFtoE. This grammar must result from a theoretical and algorithmical reworking of the structures learnt in step 1.

Evaluating this work with corpora.

Application: Candidates must apply at Pr. Dony's following URL : Application before May, 30th.

A good level in NLP and fluency in French are recommended.

Contact : prince@lirmm.fr