Sujets de thèse 2014 / Ph.D. topics 2014

(Ecole Doctorale I2S, UM2)
Contacts : Jean-Philippe Prost (Prost@lirmm.fr) et Mathieu Lafourcade (Lafourcade@lirmm.fr)

Sujet 1 : Modélisation logico-stochastique pour la compréhension robuste du langage naturel

Ce sujet de thèse concerne le Traitement Automatique du Langage naturel (TAL). L'objet en est de se pencher sur une combinaison possible entre modélisation logique et modélisation stochastique pour la représentation de connaissances langagières, dans le but d'améliorer les performances qualitatives d'un analyseur syntaxique à large couverture.

Les parseurs (analyseurs syntaxiques) les plus performants du moment sont dits "robustes", ou "à large couverture", pour leur capacité à produire un arbre syntaxique quelle que soit la phrase en entrée, qu'elle soit bien-formée ou non. Ces analyseurs font appel à des méthodes d'approximation qui permettent de générer l'arbre le plus probable étant donnée une phrase en entrée. Cependant, cette robustesse est acquise au détriment d'une perte d'information conséquente. Par exemple, la question de la bonne-formation (grammaticalité) de l'entrée est éludée, l'analyse d'une phrase bien-formée n'ayant pas nécessairement une probabilité maximale. Sachant, par ailleurs, que cette question de la grammaticalité d'une analyse peut obtenir une réponse exacte en s'appuyant sur un raisonnement logique, l'alliance des deux pourrait s'avérer profitable dans de nombreux contextes. L'hypothèse que nous formulons alors est la suivante : l'introduction d'une part significative de raisonnement logique exact dans un algorithme probabiliste d'analyse syntaxique robuste ne contribuerait-elle pas à en améliorer les performances qualitatives ?

La syntaxe basée sur la théorie (logique) des Modèles (MTS) a prouvé sa meilleure adéquation que la syntaxe générative-énumérative (GES) à une représentation de la langue qui couvre à la fois des constructions grammaticales et d'autres grammaticalement incorrectes (Pullum and Scholz, 2001). Certaines spécificités formelles de la MTS permettent d'envisager d'intégrer un processus de vérification (exacte) de modèle dans des algorithmes d'approximation probabiliste pour l'analyse syntaxique (Prost, à paraître), mais cette intégration reste à améliorer. Parmi les pistes à explorer, on citera notamment l'adaptation possible de l'algorithme dit de reranking (Charniak et Johnson, 2005), destiné à trier les N meilleures structures candidates pour une phrase donnée selon un modèle de langue probabiliste. La prise en compte de l'exactitude des candidats dans la procédure de tri pourrait notamment permettre une amélioration substantielle des performances qualitatives de l'analyseur syntaxique sous-jacent.

Par ailleurs, l'exactitude de l'analyse syntaxique associée à un énoncé est une question qui n'est pertinente que dans le cas des constructions grammaticales (langage bien-formé). Dans le cas d'une construction agrammaticale, en revanche, la question de son analyse n'admet pas nécessairement de réponse exacte, mais se ramène généralement à une question d'optimisation. Là encore, la MTS, à travers la vérification de modèle, offre un certain nombre de perspectives qu'il convient d'explorer. On peut se demander, notamment, dans quelle mesure est-ce qu'optimisation probabiliste et optimisation de contraintes grammaticales sont compatibles pour établir la grammaticalité d'une phrase le long d'un gradient.

L'objet de ce sujet est donc d'explorer certaines pistes de combinaison possibles entre approximation probabiliste et vérification exacte de modèles. Cette exploration pourra porter à la fois sur des questions structurelles et algorithmiques.

(back to top)

Topic 1 (english version): Logico-Stochastic Modelling for Robust Natural Language Understanding.

This Ph.D. topic is concerned with Natural Language Processing (NLP). It aims to investigate research avenues regarding the combination of logical and stochastic modelling for Natural Language Understanding. The focus will be put on improving the qualitative output of large coverage probabilistic parsing.

The current state-of-the-art parsers generally rely on methods of probabilistic approximation, which make them very robust -- in the usual sense in parsing, which refers to the ability of generating a parse for any input sentence, regardless of whether this sentence is well-formed or not. However, that ability comes along with a significant lack of information. The absence of a binary grammaticality judgement for the input sentence, for instance, may be a severe impediment for applications. That absence comes from that an optimal parse, even though grammatical, is never assigned maximum probability, which prevents any exact binary judgement based on likelihood. Meanwhile, knowing that the problem of grammaticality judgement may get an exact answer based on logical reasoning, being able to combine the two is likely to help addressing various problems. Therefore, we hypothesise that the introduction of a significant part of logical reasoning within a probabilistic robust parser might contribute to improve its qualitative performance.

Model-Theoretic Syntax (MTS) already proved its better suitability than Generative-Enumerative Syntax to representing both canonical and non-canonical language -- i.e., which covers grammatical and ungrammatical utterances (Pullum and Scholz, 2001). MTS frameworks present some formal properties, which enable the integration of a model checking process within the probabilistic approximation of a syntactic parser (Prost, forthcoming), but room for improvement remains. Among avenues to investigate, let us cite the possible adaptation of the so-called Reranking algorithm (Charniak et Johnson, 2005), which re-rank the n most likely solutions parses for a sentence according to a probabilistic language model. Taking the parses accuracy into account in the reranking procedure might lead to substantial quality improvements of parser's output. Moreover, the question of the exactness of a syntactic parse is only relevant for grammatical constructions (i.e. well-formed language). In case of an ungrammatical sentence the question of its grammaticality is usually addressed through optimisation. Again, a model-theoretic representation of syntax, along with a model checking process, offers perspectives yet to be investigated. One may wonder, for instance, to what extent probabilistic optimisation and constraint-based optimisation are compatible in the perspective of judging grammaticality along a gradient.

Hence, this Ph.D. topic aims to investigate avenues for the possible combination of probabilistic approximation and exact model checking. The investigation may be concerned with both structural and algorithmic questions.

(back to top)

Sujet 2 : Interface syntaxe-sémantique par réseau lexical et réseau de contraintes

En matière de représentation des connaissances pour la linguistique computationnelle il est assez commun de distinguer (entre autres) la dimension syntaxique de la dimension sémantique. Or cette distinction est, de fait, bien souvent trop peu perméable. Les problèmes sont en effet nombreux aux frontières qui nécessitent une interaction entre dimensions, mais pour lesquels les cadres formels d'étude font défaut. La relecture automatique ou la correction grammaticale, par exemple, sont parmi ces problèmes : la connaissance d'information sémantique peut servir la détection d'erreurs de syntaxe, et inversement l'information syntaxique peut permettre, notamment, de résoudre des cas d'ambiguïté sémantique.

Le but de cette thèse est de contribuer au développement d'un modèle d'interface syntaxe/sémantique, en faisant interagir un réseau lexico-sémantique (Lafourcade, 2008) et un réseau de contraintes syntaxiques (Blache, 2001 ; Duchier et al., 2009).

En termes applicatifs, la correction grammaticale (Prost et Lafourcade, 2011), ou le résumé automatique, par exemple, pourront servir de support expérimental pour démontrer la portée et l'intérêt empirique du modèle formel. Dans le cas de la correction grammaticale, une piste à explorer pourra consister à mettre en évidence les avantages et inconvénients du modèle par rapport à une taxonomie d'erreurs de grammaire fréquentes. Parmi les questions soulevées on pourra trouver les suivantes :

Topic #2 (english version): Syntax-Semantics Interface through Lexical Network and Constraint Network

So long as knowledge representation for computational linguistics is concerned, it is quite common to distinguish the syntax dimension from the semantics one (among others). Yet as a matter of fact, it often shows too restrictive a distinction. Numerous language problems actually occur on borders, which would be better solved through interactions among dimensions. However, formal frameworks are missing for representing and reasoning on those interactions. Automated proof-reading or grammar checking, for example, are among those problems: semantic knowledge may serve the detection of syntax errors, while conversely syntactic knowledge may turn helpful for solving cases of semantic ambiguity.

This Ph.D. topic aims to contribute to the development of a model for the syntax/semantics interface, through the interaction of a lexico-semantic network (Lafourcade, 2008), and a syntactic constraint network(Blache, 2001 ; Duchier et al., 2009).

Experimental evidences will be gathered through various applications, in order to demonstrate the interest and scope of the formal model. Grammar error correction (Prost et Lafourcade, 2011), or summarisation are among the possible applications to be considered. In case of grammar error correction, an avenue to investigate could show the pros and cons of the model with respect to a taxonomy of the most frequently encountered grammar errors. The following questions are among those, which may be addressed:

(back to top)