Plus proches voisins
Les méthodes de classification automatiques (clustering ) permettent d'identifier et de regrouper les objets les plus représentatifs de la diversité des objets d'un tableau. On en trouvera une application des méthodes de classification automatiques dans l'analyse de la diversité des Territoires auvergnats aux chapitres 213. Typologie et 24 Combinaison des profils dynamiques et des dimensions actuelles.
Les méthodes de classification automatiques comprennent 2 étapes:
1. La première étape consiste à répartir les n objets d'un tableau T (n,p)en u blocs d'objets -- appelés "classes/groupes/clusters", en procédant à une partition de T en sous u ensembles les plus homogènes possibles et les plus différents possibles entre eux. Cette étape comprend 3 phases :
Calculer les distances entre les objets.
On utilise le plus souvent la distance euclidienne ou la distance du Ki2.
La distance euclidienne permet de généraliser l'application du théorème de Pythagore à un espace de dimension n. La distance euclidienne vaut 0 pour deux lignes ou deux colonnes identiques, mais elle ne possède pas de borne supérieure.
La distance euclidienne augmente à mesure que s'accroît le nombre de variables, et sa valeur dépend également de l'échelle de chacune des variables de sorte qu'en changeant simplement leur échelle, on peut obtenir des résultats très différents. Ce problème peut être évité en standardisant les variables.
Dans un espace unidimensionnel – ligne x'x – la distance d(A,B) entre 2 points A et B s'écrit :
d(A,B) = AB = |XB - XA|
Dans un espace bi-dimensionnel – un plan x'x, y'y – la distance d(A,B) entre 2 points A et B s'écrit :
Dans un espace multidimensionnelle, la distance euclidienned(p,q) entre deux points p et q s'écrit :