Préparation des données et analyse des résultats de DEFT'05
Erick Alphonse, Ahmed Amrani, Jérôme Azé, Thomas Heitz, Amar-Djalil Mezaour, Mathieu Roche
Résumé
Le DÉfi Fouille de Textes (DEFT) a consisté à
supprimer les phrases non pertinentes dans un corpus de discours
politiques en français. Il a eu lieu en 2005 et réuni onze équipes,
totalisant une trentaine de participants. Cet article décrit les
prétraitements effectués sur les corpus de F. Mitterrand et de J.
Chirac dans le cadre de ce défi. Notamment, la conversion au format
texte, le découpage en phrases, le classement des discours,
l'introduction de phrases de F. Mitterrand dans les discours de J.
Chirac et l'identification des dates et noms de personnes. Les
résultats obtenus par les onze équipes participantes sont aussi
présentés.