Préparation des données et analyse des résultats de DEFT'05

Erick Alphonse, Ahmed Amrani, Jérôme Azé, Thomas Heitz, Amar-Djalil Mezaour, Mathieu Roche


Résumé

Le DÉfi Fouille de Textes (DEFT) a consisté à supprimer les phrases non pertinentes dans un corpus de discours politiques en français. Il a eu lieu en 2005 et réuni onze équipes, totalisant une trentaine de participants. Cet article décrit les prétraitements effectués sur les corpus de F. Mitterrand et de J. Chirac dans le cadre de ce défi. Notamment, la conversion au format texte, le découpage en phrases, le classement des discours, l'introduction de phrases de F. Mitterrand dans les discours de J. Chirac et l'identification des dates et noms de personnes. Les résultats obtenus par les onze équipes participantes sont aussi présentés.