Classification Ascendante Hiérarchique

La Classification Ascendante Hiérarchique (CAH) est une méthode de classification automatique qui cherche à répartir n individus dans un nombre k de groupe.

Mesure de ressemblance des individus :

Cette méthode nécessite de disposer d’une mesure de dissimilarité entre les individus. Dans un espace euclidien, on pourra utiliser la distance naturelle (euclidienne) comme mesure de dissimilarité.

Lorsque les classes ont plusieurs individus, il existe de multiples critères qui permettent de calculer la dissimilarité inter-classe tels que :

Le saut minimum retient le minimum des distances entre individus de C1 et C2 les plus proches ;
Le saut maximum est la dissimilarité entre les individus de C1 et C2 les plus éloignés ;
Le lien moyen consiste à calculer la moyenne des distances entre les individus de C1 et C2 ;
La distance de Ward vise à maximiser l’inertie inter-classe.

Principe de l’Algorithme :

Initialement, chaque individu forme une classe, soit n classes.
À chaque étape, on fusionne deux classes, réduisant ainsi le nombre de classes. Les deux classes choisies pour être fusionnées sont celles qui sont les plus « proches », en d’autres termes, celles dont la dissimilarité entre elles est minimale, cette valeur de dissimilarité est appelée indice d’agrégation. Comme on rassemble d’abord les individus les plus proches, la première itération a un indice d’agrégation faible, mais celui-ci va croître d’itération en itération.

Représentation graphique : Dendrogramme.

C’est un arbre binaire dont les feuilles sont les individus alignés sur l’axe des abscisses. Lorsque deux classes ou deux individus se rejoignent avec l’indice d’agrégation {\displaystyle \tau } , des traits verticaux sont dessinés de l’abscisse des deux classes jusqu’à l’ordonnée {\displaystyle \tau } , puis ils sont reliés par un segment horizontal. À partir d’un indice d’agrégation {\displaystyle \tau } , on peut tracer une droite d’ordonnée {\displaystyle \tau } qui permet de voir une classification sur le dendrogramme.

 

Cette méthode est utilisée dans les projets suivants:

  • Classification de données paleo-climatique

 

Personne à contacter en interne : Ghislain GASSIER, Doris BARBONI