Statistiques descriptives

La statistique descriptive est la branche des statistiques qui regroupe les techniques utilisées pour exposer un phénomène (par exemple l'utilisation de la réserve parlementaire par les députés) décrit par un ensemble relativement important de données (le montant des subventions distribuées, les bénéficiaires). On trouvera un exemple d'application de ces concepts dans Réserve parlementaire

Elle comprend deux familles d’indicateurs statistiques : les indicateurs de tendances comme la moyenne et médiane, et les indicateurs de dispersion qui décrivent l’éparpillement autour de cette valeur centrale comme la variance, l’étendue, les espaces interquartiles.

Les caractéristiques des objets (variables) peuvent être soit qualitatives -- i.e discrètes, soit quantitatives, i.e. continues (mesures) comme dans le tableau T(23,6). Ce document traite seulement le cas des tableaux de mesures.

Toute mesure peut se caractériser par un total, un minimum et un maximum ("étendue"), une médiane, une moyenne arithmétique, un écart-type et des quartiles.La médiane et la moyenne arithmétique caractérisent le centre de la distribution d'une mesure. L'étendue ("min-max"), l'écart-type et les quartiles caractérisent la dispersion de la distribution d'une mesure. On trouvera une application de ces concepts dans la Partie 5 de ce document(Utilisation de la réserve parlementaire).

La médiane est la valeur m de la série pour laquelle le nombre d'objets dont la valeur est inférieure àmest égal au nombre d'objets dont la valeur estsupérieure àm,c.a.d. la valeurmde la série au point d'intersection des courbes des fréquences cumulées croissantes et décroissantes.

On appelle quartiles, les trois valeurs Q1, Q2 et Q3 de la mesure qui partagent l'ensemble des objets de la série en quatre groupes de même effectif :

Q1 est la valeur qui rassemble 25% des objets dont la valeur est la plus faible,

Q3 est la valeur qui rassemble 25% des objets dont la valeur est la plus élevée.

Q2 qui rassemble 50% des objets dont la valeur dont la valeur est la plus faible est égal la médiane.

Leur intérêt réside dans les cumuls des valeurs associées aux objets appartenant à chacun des quatre ensembles. Et plus encore, dans la demi-somme des cumuls de valeurs associées aux objets appartenant à l'interquartile (SQ3_x - SQ1_x)/2., qui renseigne sur l'étalement des valeurs autour de la médiane

La moyenne arithmétique x est le rapport entre la somme des valeurs x_i de la série et le nombre d'objets ("effectif") de la série. Ex : x = (∑ x_i) / n. La moyenne est "statistiquement" le meilleur estimateur des valeurs d'une variable x. On trouvera un exemple d'application de son utilisation dans Elections2008

L'écart-type σ-- également nommé "déviation standard" s -- est obtenu en calculant la racine carrée du rapport entre la somme des carrés des écarts entre chaque valeur de la série et la moyenne de la série (nommée "variance") et le nombre d'objets de la série. Ex :s = √ ∑ (x_{i -}- x) ² / n

Exemple : Tableau de tableau de données T (23,6)

	Caractéristiques (variables)
Objet	X1	X2	X3	X4	X5	X6
1	395	224	35.1	79.1	6.0	14.9
2	410	232	31.9	73.4	8.7	16.4
3	405	233	30.7	76.5	7.0	16.5
4	405	240	30.4	75.3	8.7	16.0
5	390	217	31.9	76.5	7.8	15.7
6	415	243	32.1	77.4	7.1	18.5
7	390	229	32.1	78.4	4.6	17.0
8	405	240	31.1	76.5	8.2	15.3
9	420	234	32.4	76.0	7.2	16.8
10	390	223	33.8	77.0	6.2	16.8
11	415	247	30.7	75.5	8.4	16.1
12	400	234	31.7	77.6	5.7	18.7
13	400	224	28.2	73.5	11.0	15.5
14	395	229	29.4	74.5	9.3	16.1
15	395	219	29.7	72.8	8.7	18.5
16	395	224	28.5	73.7	8.7	17.3
17	400	223	28.5	73.1	9.1	17.7
18	400	224	27.8	73.2	12.2	14.6
19	400	221	26.5	72.3	13.2	14.5
20	410	233	25.9	72.3	11.1	16.6
21	402	234	27.1	72.1	10.4	17.5
22	400	223	26.8	70.3	13.5	16.2
23	400	213	25.8	70.4	12.1	17.5

Statistiques descriptives élémentaires du tableau T(23,6)

	Moyenne	Écart-type	Min	Max
X1	401.6	8.2	390.0	420.0
X2	228.8	8.7	213.0	247.0
X3	29.9	2.6	25.8	35.1
X4	74.7	2.5	70.3	79.1
X5	8.9	2.4	4.6	13.5
X6	16.6	1.2	14.5	18.7

La covariance mesure le degré de similitude des variations de 2 mesures X et Y.

covσ_X,Y = ∑ ((x_{i -}- x)*(y_{i -}- y)) /n

Mais comme la covariance est sensible à la dimension des données, on lui préfère la corrélation.

La corrélation entre 2 variables X et Y est égale au rapport entre la covariance de X et Y (cov σ_X,Y ) et le produit des écarts-types de X (σ_X)etY(σ_Y).

ρ_xy = cov σ_X,Y/ σ_X, * σ_Y, avec :

- covσ_X,Y = ∑ ((x_{i -}- x)*(y_{i -}- y)) /n

- σ_X = √∑ (x_{i -}- x)²/ n

- σ_y = √∑ (y_{i -}- y)² / n

La corrélation entre 2 variables X et Y varie de 0 (X et Y varient indépendamment l'une de l'autre) à 1 (Y varie proportionnellement à X et inversement).

On trouvera un exemple d'application du calcul des corrélations dans Elections2008

Matrice des corrélations A(p,p) calculées à partir du tableau T(n,p)

	X1	X2	X3	X4	X5	X6
X1	1.0000	0.6914	-0.0329	-0.0585	0.0820	0.0820
X2	0.6914	1.0000	0.2837	0.3903	-0.3363	0.0917
X3	-0.0329	0.2837	1.0000	0.8948	-0.8773	0.0348
X4	-0.0585	0.3903	0.8948	1.0000	-0.9016	0.0032
X5	0.0820	-0.3363	-0.8773	-0.9016	1.0000	-0.3368
X6	0.0820	0.0917	0.0348	0.0032	-0.3368	1.0000

Statistiques descriptives

Contact