Analyse factorielle exploratoire
Les méthodes d'analyse factorielle permettent d'identifier les f blocs de q variables d'un tableau de mesures T(n,p) -- appelés "facteurs" --qui sont fortement corrélées entre entre elles. On trouvera une application des concepts de base de l'analyse factorielle dans la Partie 2 de ce document(Diversité des territoires auvergnats). L'analyse factorielle comprend 4 étapes :
1. calculer les valeurs centrées etréduites des p variables du tableau T(n,p):x'i = (xi - x)/ σ2x;ainsi:
- la variance de chaque variable σ2 nx = ∑ (x'i -- x')2/n = 1
- la variance totale du tableau de données est égale au nombre de variables (p)
- recherche les "facteurs" explicatifs principaux de variance de la matrice des données (T) revient alors à la recherche des vecteurs propres de la matrice des corrélations (A).
2. calculer les corrélations entre chaque p-1 paires de variables ;
- la matrice des corrélations A(p,p) est une matrice carrée diagonalisable s’il existe une matrice inversible P(p,p) et une matrice diagonale D(p,p) telles que P−1AP = D
- la trace de la matrice des corrélations A = somme des valeurs propres = nombre de variables..
3. diagonaliser la matrice des corrélations (A)
- diagonaliser A consiste à rechercher une matrice D semblable à A telle que D = P-1 AP, avec P = matrice de passage de A à la base de vecteurs propres V (celle dans laquelle l'application linéaire F dans Rn , caractérisée par A, a pour matrice D).
- V sera vecteur propre de A si A.V = λV, soit (A- λI).V = 0 -- avec λ = 'scalaire et I matrice unité
- les composantes de V sont les solutions du système linéaire de matrice (A- λI) si déterminant(A- λI)=0
- les valeurs de λ sont les valeurs propres correspondantes de A
- les valeurs propres de A sont les racines du polynôme caractéristique associé à A .
Valeurs propres et variance expliquée par les 6 premiers facteurs dans la matrice de corrélations A.
Facteur |
Valeur propre |
Inertie |
Inertie cumulée |
1 |
2.9914 |
49.90% |
49.90% |
2 |
1.6125 |
26.90% |
76.80% |
3 |
1.0387 |
17.30% |
94.10% |
4 |
0.2487 |
4.10% |
98.20% |
5 |
0.0758 |
1.30% |
99.50% |
6 |
0.0329 |
0.50% |
100.00% |
Vecteurs propres rangés dans l'ordre décroissant des valeurs propres associées.
|
V1 |
V2
|
V3 |
V4 |
V5 |
V6 |
X1 |
0.063 |
0.743 |
0.060 |
0.597 |
0.283 |
-0.063 |
X2 |
0.304 |
0.609 |
0.117 |
-0.643 |
-0.331 |
0.019 |
X3 |
0.534 |
-0.164 |
0.137 |
0.461 |
-0.646 |
0.200 |
X4 |
0.548 |
-0.138 |
0.176 |
-0.130 |
0.595 |
0.528 |
X5 |
-0.552 |
0.147 |
0.172 |
0.032 |
-0.193 |
0.778 |
X6 |
0.120 |
0.100 |
-0.950 |
0.007 |
-0.040 |
0.266 |
Les coordonnées des variables X1, X2 ... sur les vecteurs propres V1, V2 ... sont égales aux corrélations entre ces variables et les facteurs F1, F2, ....
4. sélectionner les facteurs en fonction de la variance expliquée. Le premier facteur sera celui qui explique la variance la plus importante. Son pouvoir explicatif est en partie exprimé par sa « valeur propre » (ou eigen value) qui correspond à sa variance.
La détermination du nombre de facteurs à retenir est l'un des enjeux de l'analyse factorielle (1). Kaiser-Guttman proposent de ne retenir que les facteurs pour lesquels les valeurs propres de la matrice de corrélations qui leur sont associées sont supérieures à 1. Une valeur propre inférieure à 1 indique en effet que le facteur explique moins de variance qu’une seule variable.