Théorie du module : Statistiques descriptives

Préparation des données -- observations et modalités

La première étape dans l'analyse statistique d'un jeu de données consiste en la transformation du jeu de données brutes en un tableau exploitable du point de vue de l'interprétation statistique. Toute étude statistique démarre avec un jeu de données

\(x_1, x_2, \ldots, x_n,\)

ces données étant mesurées sur la population d'intérêt. Le jeu de données est généralement appelé échantillon ou échantillon observé; ses éléments sont appelés les observations. Le nombre \(n\) d'observations est appelé la taille de l'échantillon.

Par exemple, on s'intéresse au prix (en dollars) de la location d'un studio à Greenwich Village, New York USA. Pour ce faire on note les prix de location de 200 studios, cf Table ci-dessous (Source -- Schaum's Easy Outlines Business Statistics, page 13). On a donc un échantillon de taille 200; les observations sont les différents prix de location.

 

350 370 375 380 390 385 405 400 390 390 400 410 420 435 415 410 410 420 435 415 410 440 450 465 445 435 460 455 440 460 455 435 460 455 470 480 485 475 495 480 490 470 470 470 470 470 470 485 475 495 480 490 470 470 470 485 475 495 480 495 480 490 485 470 470 470 470 500 510 500 515 500 500 505 500 520 500 500 505 520 525 520 500 505 520 525 520 500 500 500 525 500 505 520 525 520 500 500 505 520 525 520 500 505 520 525 520 535 530 540 550 555 545 555 530 535 535 535 535 555 545 555 530 535 535 535 535 535 535 535 535 555 545 555 530 535 535 555 545 555 530 535 560 570 580 585 565 575 565 560 560 560 560 585 560 580 585 565 575 565 560 560 565 575 560 560 580 585 565 575 565 560 595 600 605 610 615 610 595 600 615 605 590 600 590 605 590 615 620 625 635 646 620 640 625 620 645 640 635 630

Table 1 : Liste brute des prix de location de 200 studios à Greenwich village, New York, USA (en dollars).

 

La première étape du tri d'un jeu de données brutes consiste à déterminer les différentes modalités de la variable mesurée; généralement on classe ces modalités par ordre croissant.  On passe donc d'un jeu \(n\) données appelé échantillon ou population à un ensemble de \(M\) modalités

\(y_1, y_2, \ldots, y_M\)

différentes.

Reprenons la Table 1 ci-dessus . La variable prix prend 50 modalités différentes qui sont données dans la Table suivante.

 

350 370 380 390 400 405 410 415 420 435 440 445 450 455 460 470 475 480 485 490 495 500 505 510 520 525 530 535 545 550 555 560 565 570 575 580 585 590 595 600 605 610 615 620 625 630 635 640 645 646

Table 2 : Les 50 modalités différentes de la variable prix de l'échantillon donné dans la Table 1.

 

Dans le cas de variables quantitatives continues ou discrètes avec un nombre élevé de modalités différentes, il est d'abord nécessaire de ranger les modalités par classes.

Par exemple, la Table 2 est peu lisible : il reste trop de modalités différentes. On préférera donc ranger les valeurs par classes, en prenant par exemple

\(\begin{array}{lllll} C_1 = [350,380[, C_2=[380,410[, C_3=[410,440[, C_4=[440,470[, C_5=[470,500[, \\ C_6=[500,530[, C_7=[530,560[, C_8=[560,590[, C_9=[590,620[, C_{10}=[620,650[. \end{array}\)

Le choix du nombre de classes est arbitraire et on pourrait très bien prendre

\(\begin{array}{ll} C_1 = [350, 470[, C_2= [470, 500[, \\ C_3=[500, 530[, C_4=[530, 560[,\\ C_5=[560, 590[, C_6 \mbox{ contenant toutes les valeurs plus grandes que 590}. \end{array}\)

Définitions - Supposons les modalités d'une variable rassemblées en \(M\) classes \(C_1 = [a_1, b_1[, C_2=[a_2, b_2[, \ldots, C_M = [a_M, b_M[ \).  L'amplitude de la classe \(C_k\) est \(b_k-a_k\); le centre de classe de la classe \(C_k\) est le réel \((a_k+b_k)/2\).

Le choix du nombre de classes est arbitraire. On veille en général à choisir le nombre de classes de façon à ne pas perdre trop d'informations.

Par exemple, considérons à nouveau la Table 1. Si nous ne prenons qu'une seule classe alors nous tentons de résumer le tableau en disant qu'il y a 200 prix entre 350 et 650 dollars; ceci est peu informatif. On préférera donc prendre un nombre de classes plus élevé.

Remarque : Il existe des règles empiriques aidant à choisir le nombre de classes le plus approprié, comme par exemple la règle de Sturges qui suggère de prendre \(M=\log_2n \).

Théorie