Stage M2R - 2005/2006

Méthodes de clustering flou appliquées au « filtrage parental » d’Internet

Encadrants : Anne Laurent et Gérard Dray


Le filtrage de sites Internet peut être assimilé à une problématique de classification à 1-classe. En effet, le principe du filtrage consiste a bloquer les pages web contenant des informations traitant de thématiques à interdire (pornographie, violence,  racisme, …) et à laisser passer les autres. La difficulté étant que cette classe de « sites autorisés » est trop vaste et donc difficilement caractérisable. Pour traiter ce problème nous proposons d’utiliser des méthodes de clustering flou afin d’identifier des prototypes des pages à interdire et de définir des mesures de similarités afin de définir une stratégie de classification.


Bibliographie :
•    Romain Vinot, Natalia Grabar, Mathieu Valette, « Application d'algorithmes de classification automatique pour la détection des contenus racistes sur l'Internet » TALN 2003, Batz-sur-Mer (France), 11-14 juin 2003.
•    Larry M. Manevitz, Malik Yousef, « One-Class SVMs for Document Classification », Journal of Machine Learning Research, 2001, pp139-154
•    Tax, D.M.J.  «One-class classification», Thesis, 2001