Analyse factorielle discriminante
L'analyse factorielle discriminante consiste à décomposer la matrice variance-covariance V issue d'un tableau de mesures T(n,p) en fonction de la valeur prise par une variable discrète p+1 correspondant au numéro de la "classe" à laquelle appartient chaque objet du tableau. On trouvera une application de cette méthode dans Territoires auvergnats au chapitre 22. Explication des différences entre types de dynamiques territoriales
Les n observations de T(n,p) sont représentées par un nuage de points de centre de gravité g et de matrice variance-covariance V, partagé en k sous-nuages par la variable "classe". Chaque sous-nuage (classe ωk) d'effectif nk est caractérisé par son centre de gravité (ou centroïde) gk et sa matrice variance-covariance Vk.
V peut être décomposée en une somme de 2 matrices: V = B + W
avec B = matrice de variance inter-classe (B = "between")
= matrice variance-covariance pondérée des k centroïdes gk :
où gk= (gk1, gk2, ..., gkj, ..., gkp)T et gkj = moyenne de Xj dans ωk
Bp× p = 1/n ∑ (gk − g)(gk − g)T (matrice C(k ) ( p× p))
avec cjj' (k ) = (gkj − mj )(gkj' − mj' )
rend compte de la dispersion des centroïdes des classes autour du centre global g.
et W = matrice de variance intra-classe (W = "within")
= moyenne des k matrices variance-covariance des classes: Vk
Sachant que pour toute variable X dont les valeurs sont regroupées par classe:
variance totale = moyenne des variances intraclasses + variance des moyennes interclasses
Le 1er facteur discriminant (F1) est combinaison linéaire des variables descriptives (centrées), dont la variance inter-classe est maximum (ou, de façon équivalente la variance intra-classe est minimum).
Géométriquement: le 1er facteur détermine un axe dans le nuage de points (passant par l'origine) tel que les projections des points sur cet axe aient une variance inter-classe (variance des moyennes de classe) maximale. Le 2eme facteur (F2) est non corrélé (perpendiculaire) au 1er et de variance inter-classe max. Etc pour le 3eme ...