[fr] La différence entre les méthodes de classi cation et les méthodes de cluster-
ing réside dans le fait que, en clustering, on ne dispose pas d'un échantillon de
travail pour lequel l'appartenance à l'un des groupes est connue. Néanmoins,
même lorsque l'on dispose de cette information, il est toujours possible d'appliquer
une méthode de clustering aux données en oubliant les appartenances. On pour-
rait alors s'attendre à une perte d'efficacité. Lors de ce séminaire, nous allons
voir qu'en appliquant la méthode 2-means, il est possible de gagner de l'efficacité
par rapport à certaines méthodes de classiffication lorsque la répartition des ob-
servations est symétrique.
A coté de cela, nous étudierons l'impact que l'introduction de contamina-
tion dans les observations peut avoir sur la procèdure 2-means. Pour cela,
nous utiliserons deux outils bien connus en statistique robuste : la fonction
d'influence qui mesure l'impact d'une contamination infinitésimale en un point
et le point de rupture qui mesure la quantité de contamination nécessaire pour
déstabiliser complétement un estimateur. Nous verrons également d'autres
procèdure de clustering plus résistante à la contamination, comme la méthode
2-means généralisée et la procèdure TCLUST.
Disciplines :
Mathematics
Author, co-author :
Ruwet, Christel ; Université de Liège - ULiège > Département de mathématique > Statistique mathématique
Language :
English
Title :
Robustesse des classifications obtenues par clustering
Publication date :
02 September 2011
Event name :
Séminaire compréhensible des doctorants du département de mathématiques