Stage M2R - 2005/2006
Fouille de données et
préservation de la vie privée
Encadrants
: P. Poncelet, A.
Laurent
Une préoccupation actuelle dans le domaine de la fouille de
données est d'assurer la préservation de la vie
privée, i.e. garantir, quel que soit le traitement
effectué sur les données, qu'il est impossible de
retrouver des informations concernant un individu si celui-ci en a fait
la demande. Concernant directement l'étape de fouille de
données [1,3], deux problèmes ont été
soulevés :
- Comment réunir différentes informations tout en
garantissant l'anonymat lors des différentes étapes de
mise en commun de plusieurs sources d'information ?
- Comment garantir que les motifs obtenus ne permettent pas
d'identifier un comportement individuel ?
Concernant le premier point, une proposition récente [2] a
été réalisée pour les motifs
séquentiels. Par contre, il n'existe aucune
proposition concernant le second point. Néanmoins, des
travaux sont menés actuellement par le laboratoire KDD de
l'Université de Pise [3] sur les itemsets. Quid des
séquences ?
Le travail à réaliser
au cours de ce stage de recherche s'inscrit dans la suite des
recherches menées à Pise et consiste principalement
à caractériser les motifs séquentiels ne
permettant pas de garantir la préservation de la vie
privée. Pour cela, il s'agira :
- d'étudier les propositions
présentées dans [2] et [3],
- de proposer une extension de ces travaux pour obtenir des motifs
séquentiels garantissant l'anonymat (k-anonymous sequential
pattern),
- de mettre en oeuvre et comparer cette solution en
l'implémentant et en la validant sur des bases de données
réelles
Références
[1] R. Agrawal, R. Srikant "Privacy-Preserving Data
Mining" In Proceedings of the 2000 ACM SIGMOD International
Conference on Management of Data, May 16-18, 2000, Dallas, Texas,
USA.
[2] Justin Z. Zhan, S. Matwin, L. Chang "Privacy-Preserving
Collaborative Sequential Pattern Mining" In Proceedings of Workshop on
Link Analysis, Counter-terrorism and Privacy, 2004.
[3] M. Atzori, F. Bonchi, F.
Giannotti, D. Pedreschi "k-Anonymous Patterns" In Proceedings of
the Ninth European Conference on Principles and Practice of Knowledge
Discovery in Databases (PKDD'05), Lecture Notes in Computer Science,
Volume 3721, October 3-7, Porto, Portugal.