Statistiques descriptives

 

La statistique descriptive est la branche des statistiques qui regroupe les techniques utilisées pour exposer un phénomène (par exemple l'utilisation de la réserve parlementaire par les députés) décrit par un ensemble relativement important de données (le montant des subventions distribuées, les bénéficiaires).

 

Elle comprend deux familles d’indicateurs statistiques : les indicateurs de tendances comme la moyenne et médiane, et les indicateurs de dispersion qui décrivent l’éparpillement autour de cette valeur centrale comme la variance, l’étendue, les espaces interquartiles.

 

Les caractéristiques des objets (variables) peuvent être soit qualitatives -- i.e discrètes, soit quantitatives, i.e. continues (mesures) comme dans le tableau T(23,6). Ce document traite seulement le cas des tableaux de mesures.

 

Toute mesure peut se caractériser par un total, un minimum et un maximum ("étendue"), une médiane, une moyenne arithmétique, un écart-type et des quartiles.La médiane et la moyenne arithmétique caractérisent le centre de la distribution d'une mesure. L'étendue ("min-max"), l'écart-type et les quartiles caractérisent la dispersion de la distribution d'une mesure. On trouvera une application de ces concepts dans la Partie 5 de ce document(Utilisation de la réserve parlementaire).

 

La médiane est la valeur m de la série pour laquelle le nombre d'objets dont la valeur est inférieure àmest égal au nombre d'objets dont la valeur estsupérieure àm,c.a.d. la valeurmde la série au point d'intersection des courbes des fréquences cumulées croissantes et décroissantes.

 

On appelle quartiles, les trois valeurs Q1, Q2 et Q3 de la mesure qui partagent l'ensemble des objets de la série en quatre groupes de même effectif :

Q1 est la valeur qui rassemble 25% des objets dont la valeur est la plus faible,

Q3 est la valeur qui rassemble 25% des objets dont la valeur est la plus élevée.

Q2 qui rassemble 50% des objets dont la valeur dont la valeur est la plus faible est égal la médiane.

Leur intérêt réside dans les cumuls des valeurs associées aux objets appartenant à chacun des quatre ensembles. Et plus encore, dans la demi-somme des cumuls de valeurs associées aux objets appartenant à l'interquartile (SQ3x - SQ1x)/2., qui renseigne sur l'étalement des valeurs autour de la médiane

 

La moyenne arithmétique x est le rapport entre la somme des valeurs xi de la série et le nombre d'objets ("effectif") de la série. Ex : x = (∑ xi) / n. La moyenne est "statistiquement" le meilleur estimateur des valeurs d'une variable x. On trouvera un exemple d'application de son utilisation dans Elections2008

 

L'écart-type σ-- également nommé "déviation standard" s -- est obtenu en calculant la racine carrée du rapport entre la somme des carrés des écarts entre chaque valeur de la série et la moyenne de la série (nommée "variance") et le nombre d'objets de la série. Ex :s = (xi -- x) 2 / n

 

 

Exemple : Tableau de tableau de données T (23,6)

 

 

Caractéristiques (variables)

Objet

X1

X2

X3

X4

X5

X6

1

395

224

35.1

79.1

6.0

14.9

2

410

232

31.9

73.4

8.7

16.4

3

405

233

30.7

76.5

7.0

16.5

4

405

240

30.4

75.3

8.7

16.0

5

390

217

31.9

76.5

7.8

15.7

6

415

243

32.1

77.4

7.1

18.5

7

390

229

32.1

78.4

4.6

17.0

8

405

240

31.1

76.5

8.2

15.3

9

420

234

32.4

76.0

7.2

16.8

10

390

223

33.8

77.0

6.2

16.8

11

415

247

30.7

75.5

8.4

16.1

12

400

234

31.7

77.6

5.7

18.7

13

400

224

28.2

73.5

11.0

15.5

14

395

229

29.4

74.5

9.3

16.1

15

395

219

29.7

72.8

8.7

18.5

16

395

224

28.5

73.7

8.7

17.3

17

400

223

28.5

73.1

9.1

17.7

18

400

224

27.8

73.2

12.2

14.6

19

400

221

26.5

72.3

13.2

14.5

20

410

233

25.9

72.3

11.1

16.6

21

402

234

27.1

72.1

10.4

17.5

22

400

223

26.8

70.3

13.5

16.2

23

400

213

25.8

70.4

12.1

17.5

 

Statistiques descriptives élémentaires du tableau T(23,6)

 

 

Moyenne

Écart-type

Min

Max

X1

401.6

8.2

390.0

420.0

X2

228.8

8.7

213.0

247.0

X3

29.9

2.6

25.8

35.1

X4

74.7

2.5

70.3

79.1

X5

8.9

2.4

4.6

13.5

X6

16.6

1.2

14.5

18.7

 

La covariance mesure le degré de similitude des variations de 2 mesures X et Y.

covσX,Y = ((xi -- x)*(yi -- y)) /n

 

Mais comme la covariance est sensible à la dimension des données, on lui préfère la corrélation.

La corrélation entre 2 variables X et Y est égale au rapport entre la covariance de X et Y (cov σX,Y ) et le produit des écarts-types de X (σX)etY(σY).

ρxy = cov σX,Y/ σX, * σY, avec :

- covσX,Y = ((xi -- x)*(yi -- y)) /n

- σX = (xi -- x)2/ n

- σy = (yi -- y)2 / n

 

La corrélation entre 2 variables X et Y varie de 0 (X et Y varient indépendamment l'une de l'autre) à 1 (Y varie proportionnellement à X et inversement).

On trouvera un exemple d'application du calcul des corrélations dans Elections2008

 

Matrice des corrélations A(p,p) calculées à partir du tableau T(n,p)

 

 

X1

X2

X3

X4

X5

X6

X1

1.0000

0.6914

-0.0329

-0.0585

0.0820

0.0820

X2

0.6914

1.0000

0.2837

0.3903

-0.3363

0.0917

X3

-0.0329

0.2837

1.0000

0.8948

-0.8773

0.0348

X4

-0.0585

0.3903

0.8948

1.0000

-0.9016

0.0032

X5

0.0820

-0.3363

-0.8773

-0.9016

1.0000

-0.3368

X6

0.0820

0.0917

0.0348

0.0032

-0.3368

1.0000

 

Contact

© 2014 Tous droits réservés.

Créer un site internet gratuitWebnode