Sujet de stage de recherche année 2010-2011
CREATION
D'UNE BASE TERMINOLOGIQUE POUR LA RECHERCHE D'INFORMATION ET L'AIDE A
LA DECISION ADAPTEE À UN MOTEUR DE RECHERCHE MUSICAL
____________________________________________
_____________________________________________
ARCHIVES
Sujet de stage de recherche année 2008-2009
FOUILLE DE TEXTE EN SECURITE FERROVIAIRE
SUJET COMMUN INRETS (P. BON), LIRMM_TAL (V. PRINCE)
L'objectif de l'union Européenne dans le domaine ferroviaire est d'avoir un réseau interopérable, c'est à dire qu'un train puisse traverser les frontières sans problème de matériel roulant, d'infrastructure, de signalisation, d'agent de conduite etc... La directive 96/48/CE et les Spécifications Techniques d'Interopérabilité (STI) donnent un cadre règlementaire pour atteindre l'interopérabilité dans le secteur de la grande vitesse.
Cette directive et ses STI se présentent sous la forme d'un ensemble de documents écrits en anglais. Le problème de l'INRETS est la recherche et la modélisation des exigences en matière de sécurité ferroviaire, qui sont contenues dans ces documents et qu'il faudrait pouvoir extraire, à l'aide de techniques de traitement automatique du langage naturel appliquées à la fouille de texte.
Pour l'INRETS :
La première étape de ce stage est d'intégrer la directive 96/48/CE et ses STI (en anglais) dans la base de donnée documentaire DOORS. La seconde étape est la plus intéressante, en effet, le but est de trouver une méthode systématique qui nous permettrait de mettre en lumière les exigences dans les modules DOORS et cela grâce à l'utilisation de son langage de programmation DXL.
Côté TALN : l'idée est de repérer dans les textes, après lemmatisation, les éléments de langage naturel reliés à la sécurité, afin de construire ensuite, dans DOORS, des règles d'extraction ou de repérage des passages concernant cette sécurité. Il s'agit d'un travail terminologique, et de structuration du document.
Ce stage pourrait être suivi d'une thèse à l'INRETS.
Contact : philippe.bon@inrets.fr, prince@lirmm.fr
___________________________________________________
Sujet de thèse rentrée 2008
Contribution de l'analyse syntaxique à la traduction automatique
La traduction automatique a fait d'énormes progrès en ce qui concerne le transfert lexical (traduction des mots), et la traduction des expressions figées, grâce à des techniques statistiques lexicales, des ressources multilingues évoluées et la mise à disposition de corpus alignés. Aujourd'hui, le nouveau défi consiste à étendre ces compétences à la construction correcte de phrases en langue cible, afin de produire des textes grammaticalement acceptables. Plusieurs techniques sont en concurrence dans ce domaine : générateurs de structures de surface à partir d'une représentation pivot, ainsi que diverses méthodes d'apprentissage de formes grammaticales et de tournures de phrases à partir de corpus.
Le sujet de la thèse proposée consiste en l'étude théorique et expérimentale de la contribution de l'analyse syntaxique de la langue source à la génération (allégée) de phrases grammaticalement correctesen langue cible. Les travaux de l'équipe (Chauché et Prince 2006, Bonnin et Prince 2007, disponibles dans la documentation en ligne du LIRMM, sur HAL), montrent que la construction syntaxique en langue cible, si celle-ci n'est pas très éloignée de la langue source (comme les couples français-anglais, français-espagnol, français-allemand), peut être réalisée par transformation de la construction syntaxique des unités en langue source. Parmi les buts du travail proposé nous pouvons mentionner :
Candidature : Les candidats devront faire acte de candidature auprès de Christophe Dony, sur le lien suivant : candidature-thèse avant le 30 mai 2008.
Une formation en TAL est vivement conseillée.
Pour tout renseignement, envoyer un mail à : prince@lirmm.fr
PhD Thesis Subject (Autumn 2008)
Contribution of Syntactic Analysis to Machine Translation
Machine Translation has tremendously progressed in tasks such as lexical transfer (word translation), idiomatic expressions, with the help of statistical lexical techniques, advanced multilingual resources and the availability of aligned corpora. Nowadays, the new challenge is to extend these skills to correct sentences building in the target language, in order to produce grammatically acceptable texts. Several methods are competing in this field: Surface structure generators from a pivot representation as well as numerous grammatical structures and sentence style learning techniques, using corpora.
The subject of this PhD thesis consists in studying, theoretically as well as experimentally, the source language syntactic analysis (through parsing) contribution to the generation of grammatically correct sentences in the target language. Some of our team contributions (namely Chauché and Prince 2006, Bonnin and Prince 2007, available at the LIRMM the on-line documentation HAL ), show that the syntactic generation of the target language, if the latter is not very far from the source (pairs such as English-German, French-English, French-Spanish...), might be obtained through the source language units syntactic structure transformation.
The goals of this work include but are not restricted to:
Extending, enhancing and refurbishing the existing transformation rules and models suggested in the cited words, possibly through learning these transformations from aligned data.
Building a transformation grammar, from the existing French to English translation protoype SYGFtoE. This grammar must result from a theoretical and algorithmical reworking of the structures learnt in step 1.
Evaluating this work with corpora.
Application: Candidates must apply at Pr. Dony's following URL : Application before May, 30th.
A good level in NLP and fluency in French are recommended.
Contact : prince@lirmm.fr