Publications
Arigon A.M., Perriere G., Gouy M. (2010), Classification methods for biological data. International Journal of Biomedical Engineering and Technology 2010, Vol. 3, No. 1/2, pp. 4-21.
Penel S., Arigon A.M., Dufayard J.F., Sertier A.S., Daubin V., Duret L., Gouy M. and Perrière G. (2009), Databases of homologous gene families for comparative genomics. BMC Bioinformatics 2009, 10(Suppl 6):S3. doi:10.1186/1471-2105-10-S6-S3.
Arigon A.M., Perriere G., Gouy M. (2008), Automatic identification of large collections of protein-coding or rRNA sequences. Biochimie 2008, Vol. 90, pp. 609-614. doi:10.1016/j.biochi.2007.08.006.
Arigon A.M., Miquel M. and Tchounikine A. (2007) Multimedia data warehouses: a multiversion model and a medical application. Multimedia Tools and Applications. 2007 October, 35(1):91-1008.
Arigon A.M., Tchounikine A. and Miquel M. (2006) Handling multiple points of views in a multimedia data warehouse. ACM Transactions on Multimedia Computing, Communications and Applications. 2006 August; 2(3):199-218.
Arigon A.M., Perriere G., Gouy M. (2006) HoSeqI: automated homologous sequence identification in gene family databases. Bioinformatics. 2006 Jul 15; 22(14):1786-7.
Arigon A.M., « Développements d’outils pour l’aide
à l’identification dans les grandes banques de familles de
gène », Thèse de Doctorat, Université Claude
Bernard – Lyon 1, 4 décembre 2006.
Télécharger
Arigon A.M., « Intégration de versions
fonctionnelles
dans les entrepôts », Rapport de DEA, sous la direction de Maryvonne Miquel et Anne Tchounikine, LIRIS, INSA de Lyon, 9 juillet 2003.
Télécharger
2003-2006: doctorat - LBBE - Université Claude Bernard Lyon 1
Développement d'outils pour l'aide
à l'identification dans de grandes banques de familles de
gènes
Le nombre de séquences biologiques disponibles augmente rapidement avec les techniques de séquençage massif. La classification de ces séquences dans les bases de données existantes est nécessaire et contribue à l’étude de leurs relations évolutives. Des applications bioinformatiques automatisées sont donc indispensables pour effectuer les opérations d’identification de façon précise et rapide. Nous avons développé une méthode de classification dédiée aux bases de données de familles de gènes homologues. Nous avons implémenté cette méthode de classification dans deux applications, HoSeqI (Homologous Sequence Identification) et MultiHoSeqI. Elles permettent d’automatiser le processus d’identification de séquences dans des bases de données de familles de gènes homologues. HoSeqI propose une interface accessible sur le site
du Pôle BioInformatique Lyonnais (
PBIL) à
l'adresse suivante:
http://pbil.univ-lyon1.fr/software/HoSeqI/. L'application permet d'identifier des séquences et
de visualiser les alignements et les phylogénies obtenus. MultiHoSeqI est utilisé pour ajouter rapidement de grand jeux de séquences aux bases de données
de familles dans le but d'identifier ces séquences, de mettre à jour ces bases de données ou encore d'aider l'annotation automatique de génomes. Ainsi nous
avons pu ajouter des séquences de deux génomes de bactéries du genre
Frankia à la base de données
HOGENOM
(Homologous sequences from complete Genomes) afin d'étudier l'histoire évolutive de ces bactéries. Enfin, nous avons développé une méthode de
classification dédiée aux séquences bactériennes d'ARN 16S permettant d'automatiser les processus de détection de séquences chimères et d'identification
de séquences. Nous avons implémenté cette méthode dans une application nommée ChiSeqI (Chimeric Sequence Identification).
2002-2003: DEA DISIC - LIRIS - INSA de Lyon
Intégration de versions
fonctionnelles
dans les entrepôts de données multimédias au sein
des systèmes OLAP
Les entrepôts de données et les systèmes OLAP
sont
de plus en plus utilisés car ils proposent des architectures et
des outils pour organiser, analyser et exploiter de grands volumes de
données et améliorer ainsi la prise de décision.
Les données entreposées sont intégrées dans
des modèles multidimensionnels organisés selon le sujet
analysé, appelé fait, et des axes d’analyse,
nommés dimensions. Les entrepôts classiques ont une
structure statique où seuls les faits sont dynamiques. Ces
entrepôts intègrent généralement des
données alphanumériques. Nous nous sommes
intéressés plus particulièrement aux
données multimédias souvent caractérisées
par des descripteurs. Plusieurs problèmes se posent : le
stockage de données particulièrement volumineuses et
nécessitant des outils spécifiques de visualisation, la
modélisation de faits multimédias et la définition
de fonctions d’agrégat spécifiques, et enfin le calcul et
la modélisation de descripteurs comme dimensions de
l’entrepôt. Or ces descripteurs peuvent être obtenus par
divers modes de calcul que nous définissons comme des «
versions fonctionnelles » de descripteurs. Nous avons
proposé un modèle multidimensionnel multiversion
fonctionnelle appelé « modèle M2F » en
intégrant notamment la notion de « version de dimension
» qui représente des dimensions dont les membres sont
calculés selon les différentes versions fonctionnelles
des descripteurs. Cette nouvelle approche permet d’intégrer au
modèle un choix de modes de calculs de ces descripteurs afin de
permettre à l’utilisateur de choisir la représentation de
données la plus adaptée à son analyse. Nous avons
mis en œuvre un entrepôt de données multimédias
dans le domaine médical en intégrant à un
modèle multidimensionnel les données multimédias
d’un essai thérapeutique. Nous avons défini un
modèle conceptuel, logique et physique ainsi qu'un prototype
permettant de visualiser les données dans une interface OLAP.