Théorie du module : Statistiques descriptives

Distribution des données -- fréquences et effectifs

Une fois le jeu de données rangé et les modalités (ou classes de modalités) connues, la première activité de la statistique consiste à recenser le nombre d'individus présentant une modalité déterminée d'une variable.

Définition - Considérons l'échantillon

\(x_1, x_2, \ldots, x_n\)

de modalités

\(y_1, y_2, \ldots, y_M\)

avec \(M \le n \).  L'effectif de la modalité \(y_i\) désigne le nombre d'individus de l'échantillon présentant cette modalité. On le note généralement \(n_i \).

 

\(\begin{array}{|c|c||c|c|} \hline \textbf{Modalité} & \textbf{Effectif} & \textbf{Modalité} & \textbf{Effectif}\\ \hline 350 & 1 & 370& 2\\ 380& 1 & 390& 4\\ 400& 2 & 405& 1\\ 410& 4 & 415& 2\\ 420& 3 & 435& 3\\ 440& 2 & 445& 1\\ 450& 2 & 455& 2\\ 460& 4 & 470& 14\\ 475& 2 & 480& 6\\ 485& 4 & 490& 3\\ 495& 4 & 500& 14\\ 505& 8 & 510& 2\\ 520& 10 & 525& 6\\ 530& 6 & 535& 17\\ 545& 5 & 550& 1\\ 555& 6 & 560& 9\\ 565& 7 & 570& 2\\ 575& 5 & 580& 2\\ 585& 5 & 590& 2\\ 595& 2 & 600& 5\\ 605& 2 & 610& 2\\ 615& 3 & 620& 3\\ 625& 3 & 630& 1\\ 635& 2 & 640& 2\\ 645& 2 & 646& 1\\ \hline \end{array}\)

Table 3 : Les 50 modalités du prix de location (1ère et 3ème colonne) de 200 studios à Greenwich village (en dollars) de la Table 2 avec leurs effectifs respectifs (2ème et 4ème colonne).

 

Si l'effectif total de la population (de l'échantillon) est \(n\) et si le nombre de modalités (ou le nombre de classes) différentes est \(M\) on a alors nécessairement

\(n =n_1+n_2+ \ldots + n_M=\displaystyle \sum_{i=1}^M n_i.\,\, (1)\)

Définition - La fréquence (ou fréquence relative) de la modalité \(x_i\) désigne le rapport

\(f_i = \dfrac{n_i}{n}\)

entre l'effectif \(n_i\) de la population et le nombre total \(n\) d'éléments dans la population.

Remarque : On exprime généralement les fréquences comme des nombres décimaux; en les multipliant par 100 on obtient de manière équivalente leur expression sous forme de pourcentage.

 

Si \(f_i \) désigne la fréquence de la modalité \(x_i\) alors on calcule

\(\displaystyle\sum_{i=1}^Mf_i = \sum_{i=1}^M (n_i/n )= (\sum_{i=1}^M n_i)/n = n / n = 1\)

où nous utilisons l'égalité \((1)\) à l'avant-dernière étape. On déduit

\(\displaystyle\sum_{i=1}^Mf_i = 1\)

ce qui revient à dire que l'hypothèse d'exhaustivité des modalités est respectée. Remarquez qu'on a nécessairement \( 0\le f_i \le 1\) pour tout \(1\le i \le M \).

Des exemples de calcul d'effectifs et de fréquences sont donnés dans les Tables 4, 5, 6 et  7.

 

\(\begin{array}{|c|c| } \hline \textbf{Classe} & \textbf{Effectif} \\ \hline [350,380[ &3 \\ [380,410[ &8 \\ [410,440[ &10\\ [440,470[ &13 \\ [470,500[ &33 \\ [500,530[ &40\\ [530,560[ &35 \\ [560,590[ &30 \\ [590,620[ &16 \\ [620,650[ &12 \\ \hline \textbf{Total} & 200 \\ \hline \end{array}\)

Table 4 : Prix de location (colonne de gauche) de 200 studios à Greenwich village (en dollars) rangés par classes de prix; la colonne de droite contient le nombre de prix de location appartenant à chaque intervalle.

 

\(\begin{array}{|c|ccc| } \hline \textbf{Classe} & \textbf{Amplitude} & \textbf{Centre} & \textbf{Effectif} \\ \hline [350,380[ & 30 & 365 &3 \\ [380,410[ &30 & 395 &8 \\ [410,440[ & 30 & 425 &10\\ [440,470[ & 30 & 455 &13 \\ [470,500[ & 30 & 485 &33 \\ [500,530[ & 30 & 515 &40\\ [530,560[ & 30 & 545 &35 \\ [560,590[ & 30 & 575 &30 \\ [590,620[ & 30 & 605 &16 \\ [620,650[ & 30 & 635 &12 \\ \hline \textbf{Total} & & & 200\\ \hline \end{array}\)

Table 5 : Idem Table 4 avec de plus amplitude des classes (seconde colonne), centre de classe (troisième colonne) et effectif.

 

\(\begin{array}{|c|ccc| } \hline \textbf{Classe} & \textbf{Amplitude} & \textbf{Centre} & \textbf{Effectif} \\ \hline [350,470[ & 90 & 410 &34 \\ [470,500[ & 30 & 485 &33 \\ [500,530[ & 30 & 515 &40\\ [530,560[ & 30 & 545 &35 \\ [560,590[ & 30 & 575 &30 \\ \mbox{plus que }590 & // & // &28 \\ \hline \textbf{Total} & & & 200\\ \hline \end{array}\)

Table 6 : Idem Table 5 mais avec choix de classes différent.

 

\(\begin{array}{|c|cc|c| } \hline \textbf{Classe} & \textbf{Centre} & \textbf{Effectif} & \textbf{Fréquence} \\ \hline [350,470[ & 410 &34 & 17\% \\ [470,500[ & 485 &33 & 16,5\% \\ [500,530[ & 515 &40 & 20 \% \\ [530,560[ & 545 &35 & 17,5\% \\ [560,590[ & 575 &30 & 15\% \\ \mbox{plus que }590 & // &28 & 14\% \\ \hline \textbf{Total}& & 200 & 100\% \\ \hline \end{array}\)

Table 7 : Table des loyers avec effectifs et fréquences (exprimées en pourcentage).

 

Pour autant que cela ait un sens (donc pour des variables quantitatives ou des variables qualitatives ordinales mais pas pour des variables qualitatives nominales) il peut s'avérer utile de considérer les fréquences cumulées.

Définition - Considérons une variable de modalités \(y_1, y_2, \ldots, y_M\) (ou de classes de modalités \(C_1, C_2, \ldots, C_M\) dans le cas d'une variable continue discrétisée). On appelle effectif cumulé croissant de la modalité \(y_i\) (ou de la classe \(C_i \)) le nombre d'individus de la population pour lesquels le caractère étudié a une modalité appartenant à cette classe ou à l'une des classes qui précèdent s'il y en a. On le note \(n_icc \).

On a que \(n_icc\) est le nombre d'individus pour lesquels \(X\) est inférieur ou égal à \(y_i \) (ou bien \(X\) appartient aux classes \(C_1, C_2, \ldots, C_i \)):

\(n_1cc = n_1 \mbox{ et } n_icc = n_1+ n_2 + \ldots + n_i = \displaystyle \displaystyle\sum_{j=1}^in_j \mbox{ pour } 2 \le i \le M.\)

Evidemment, si la variable a \(M\) modalités alors on a \(n_Mcc = n\) .

La Définition précédente s'adapte aisément pour définir la fréquence cumulée croissante

\(f_1cc = f_1 \mbox{ et } f_icc = f_1+f_2+ \ldots + f_i = \displaystyle \displaystyle\sum_{j=1}^if_j \mbox{ pour } 2 \le i \le M,\)

ou encore

\(f_icc = \dfrac{n_icc}{n}. \)

Bien entendu \( f_Mcc = 1\).

Un exemple de calcul des effectifs et fréquences cumulés est donné aux Tables 8 et 9.

 

\(\begin{array}{|c|c|c|c|c|c| } \hline \textbf{Classe} & m_i & n_i & n_icc & f_i & f_icc \\ \hline [350,470[ & 410 &34 & 34 & 17\% & 17\% \\ [470,500[ & 485 &33 & 67 & 16,5\% & 33,5\% \\ [500,530[ & 515 &40 & 107 & 20 \% & 53,5\%\\ [530,560[ & 545 &35 & 142 & 17,5\% & 71\%\\ [560,590[ & 575 &30 & 172 & 15\% & 86\%\\ \mbox{plus que }590 & // &28 & 200 & 14\% & 100\% \\ \hline \textbf{Total}& // & 200 & // & 100\% & //\\ \hline \end{array}\)

Table 8 : Table des loyers avec effectifs et fréquences (exprimées en pourcentage) ainsi que effectifs et fréquences cumulés correspondants.

 

\(\begin{array}{|c|c|c|c|c|} \hline \mbox{Cote }y_i & n_i & n_icc & f_i & f_icc \\ \hline 0 & 88& 88& 14,3\%& 14,3\%\\ 1& 13& 101& 2,1\%& 16,4\%\\ 2& 55& 156& 8,9\%& 25,3\%\\ 3& 71& 227& 11,5\%& 36,8\%\\ 4& 72& 299& 11,7\%& 48,5\%\\ 5& 56& 355& 9,1\%& 57,5\%\\ 6& 44& 399& 7,1\%& 64,7\%\\ 7& 41& 440& 6,6\%& 71,3\%\\ 8& 34& 474& 5,5\%& 76,8\%\\ 9& 26& 500& 4,2\%& 81,0\%\\ 10& 43& 543& 7,0\%& 88,0\%\\ 11& 14& 557& 2,3\%& 90,3\%\\ 12& 18& 575& 2,9\%& 93,2\%\\ 13& 15& 590& 2,4\%& 95,6\%\\ 14& 5& 595& 0,8\%& 96,4\%\\ 15& 5& 600& 0,8\%& 97,2\%\\ 16& 7& 607& 1,1\%& 98,4\%\\ 17& 2& 609& 0,3\%& 98,7\%\\ 18& 4& 613& 0,6\%& 99,4\%\\ 19& 4& 617& 0,6\%& 100,0\%\\ 20& 0& 617& 0,0\%& 100,0\%\\ \hline \end{array}\)

Table 9 : Résultats (entre 0/20 et 20/20) en BA1 à un examen, avec effectifs, fréquences, effectifs cumulés et fréquences cumulées.

 

Remarque : On peut également adapter cette définition pour définir des effectifs et fréquences cumulées décroissants.

Définition - On appelle la liste \(f_1, f_2, \ldots, f_M\) des fréquences des différentes modalités d'une variable \(X\) la distribution (ou encore distribution empirique) de \(X\).

Théorie