Statistiques descriptives
La statistique descriptive est la branche des statistiques qui regroupe les techniques utilisées pour exposer un phénomène (par exemple l'utilisation de la réserve parlementaire par les députés) décrit par un ensemble relativement important de données (le montant des subventions distribuées, les bénéficiaires).
Elle comprend deux familles d’indicateurs statistiques : les indicateurs de tendances comme la moyenne et médiane, et les indicateurs de dispersion qui décrivent l’éparpillement autour de cette valeur centrale comme la variance, l’étendue, les espaces interquartiles.
Les caractéristiques des objets (variables) peuvent être soit qualitatives -- i.e discrètes, soit quantitatives, i.e. continues (mesures) comme dans le tableau T(23,6). Ce document traite seulement le cas des tableaux de mesures.
Toute mesure peut se caractériser par un total, un minimum et un maximum ("étendue"), une médiane, une moyenne arithmétique, un écart-type et des quartiles.La médiane et la moyenne arithmétique caractérisent le centre de la distribution d'une mesure. L'étendue ("min-max"), l'écart-type et les quartiles caractérisent la dispersion de la distribution d'une mesure. On trouvera une application de ces concepts dans la Partie 5 de ce document(Utilisation de la réserve parlementaire).
La médiane est la valeur m de la série pour laquelle le nombre d'objets dont la valeur est inférieure àmest égal au nombre d'objets dont la valeur estsupérieure àm,c.a.d. la valeurmde la série au point d'intersection des courbes des fréquences cumulées croissantes et décroissantes.
On appelle quartiles, les trois valeurs Q1, Q2 et Q3 de la mesure qui partagent l'ensemble des objets de la série en quatre groupes de même effectif :
Q1 est la valeur qui rassemble 25% des objets dont la valeur est la plus faible,
Q3 est la valeur qui rassemble 25% des objets dont la valeur est la plus élevée.
Q2 qui rassemble 50% des objets dont la valeur dont la valeur est la plus faible est égal la médiane.
Leur intérêt réside dans les cumuls des valeurs associées aux objets appartenant à chacun des quatre ensembles. Et plus encore, dans la demi-somme des cumuls de valeurs associées aux objets appartenant à l'interquartile (SQ3x - SQ1x)/2., qui renseigne sur l'étalement des valeurs autour de la médiane
La moyenne arithmétique x est le rapport entre la somme des valeurs xi de la série et le nombre d'objets ("effectif") de la série. Ex : x = (∑ xi) / n. La moyenne est "statistiquement" le meilleur estimateur des valeurs d'une variable x. On trouvera un exemple d'application de son utilisation dans Elections2008
L'écart-type σ-- également nommé "déviation standard" s -- est obtenu en calculant la racine carrée du rapport entre la somme des carrés des écarts entre chaque valeur de la série et la moyenne de la série (nommée "variance") et le nombre d'objets de la série. Ex :s = √ ∑ (xi -- x) 2 / n
Exemple : Tableau de tableau de données T (23,6)
|
Caractéristiques (variables) |
|||||
Objet |
X1 |
X2 |
X3 |
X4 |
X5 |
X6 |
1 |
395 |
224 |
35.1 |
79.1 |
6.0 |
14.9 |
2 |
410 |
232 |
31.9 |
73.4 |
8.7 |
16.4 |
3 |
405 |
233 |
30.7 |
76.5 |
7.0 |
16.5 |
4 |
405 |
240 |
30.4 |
75.3 |
8.7 |
16.0 |
5 |
390 |
217 |
31.9 |
76.5 |
7.8 |
15.7 |
6 |
415 |
243 |
32.1 |
77.4 |
7.1 |
18.5 |
7 |
390 |
229 |
32.1 |
78.4 |
4.6 |
17.0 |
8 |
405 |
240 |
31.1 |
76.5 |
8.2 |
15.3 |
9 |
420 |
234 |
32.4 |
76.0 |
7.2 |
16.8 |
10 |
390 |
223 |
33.8 |
77.0 |
6.2 |
16.8 |
11 |
415 |
247 |
30.7 |
75.5 |
8.4 |
16.1 |
12 |
400 |
234 |
31.7 |
77.6 |
5.7 |
18.7 |
13 |
400 |
224 |
28.2 |
73.5 |
11.0 |
15.5 |
14 |
395 |
229 |
29.4 |
74.5 |
9.3 |
16.1 |
15 |
395 |
219 |
29.7 |
72.8 |
8.7 |
18.5 |
16 |
395 |
224 |
28.5 |
73.7 |
8.7 |
17.3 |
17 |
400 |
223 |
28.5 |
73.1 |
9.1 |
17.7 |
18 |
400 |
224 |
27.8 |
73.2 |
12.2 |
14.6 |
19 |
400 |
221 |
26.5 |
72.3 |
13.2 |
14.5 |
20 |
410 |
233 |
25.9 |
72.3 |
11.1 |
16.6 |
21 |
402 |
234 |
27.1 |
72.1 |
10.4 |
17.5 |
22 |
400 |
223 |
26.8 |
70.3 |
13.5 |
16.2 |
23 |
400 |
213 |
25.8 |
70.4 |
12.1 |
17.5 |
Statistiques descriptives élémentaires du tableau T(23,6)
|
Moyenne |
Écart-type |
Min |
Max |
X1 |
401.6 |
8.2 |
390.0 |
420.0 |
X2 |
228.8 |
8.7 |
213.0 |
247.0 |
X3 |
29.9 |
2.6 |
25.8 |
35.1 |
X4 |
74.7 |
2.5 |
70.3 |
79.1 |
X5 |
8.9 |
2.4 |
4.6 |
13.5 |
X6 |
16.6 |
1.2 |
14.5 |
18.7 |
La covariance mesure le degré de similitude des variations de 2 mesures X et Y.
covσX,Y = ∑ ((xi -- x)*(yi -- y)) /n
Mais comme la covariance est sensible à la dimension des données, on lui préfère la corrélation.
La corrélation entre 2 variables X et Y est égale au rapport entre la covariance de X et Y (cov σX,Y ) et le produit des écarts-types de X (σX)etY(σY).
ρxy = cov σX,Y/ σX, * σY, avec :
- covσX,Y = ∑ ((xi -- x)*(yi -- y)) /n
- σX = √∑ (xi -- x)2/ n
- σy = √∑ (yi -- y)2 / n
La corrélation entre 2 variables X et Y varie de 0 (X et Y varient indépendamment l'une de l'autre) à 1 (Y varie proportionnellement à X et inversement).
On trouvera un exemple d'application du calcul des corrélations dans Elections2008
Matrice des corrélations A(p,p) calculées à partir du tableau T(n,p)
|
X1 |
X2 |
X3 |
X4 |
X5 |
X6 |
X1 |
1.0000 |
0.6914 |
-0.0329 |
-0.0585 |
0.0820 |
0.0820 |
X2 |
0.6914 |
1.0000 |
0.2837 |
0.3903 |
-0.3363 |
0.0917 |
X3 |
-0.0329 |
0.2837 |
1.0000 |
0.8948 |
-0.8773 |
0.0348 |
X4 |
-0.0585 |
0.3903 |
0.8948 |
1.0000 |
-0.9016 |
0.0032 |
X5 |
0.0820 |
-0.3363 |
-0.8773 |
-0.9016 |
1.0000 |
-0.3368 |
X6 |
0.0820 |
0.0917 |
0.0348 |
0.0032 |
-0.3368 |
1.0000 |