Théorie du module : Statistiques descriptives

Définitions et exemples

La statistique est une branche des sciences mathématiques dont l'objet est la collection, l'analyse, l'interprétation et la présentation de données.  Les outils statistiques peuvent s'appliquer dans toutes les disciplines :

  1. Les autorités administratives d'une université désirent étudier les taux d'échec (et de succès) des étudiants s'inscrivant en première année de médecine.

  2. Un grand recensement est organisé dans la ville d'Ath (Belgique) afin d'étudier la population (âge, sexe, emploi, ...).

  3. Le département des resources humaines d'une grande entreprise souhaite évaluer l'opinion générale de ses employés face à un ajustement des horaires de la cafétaria.

  4. L'équipe de campagne d'un parti politique cherche à connaître les intentions de vote des habitants de la ville de Comblain pour la prochaine élection communale.

  5. Un constructeur automobile souhaite évaluer la distance de freinage sur route sèche de son nouveau modèle de berline 5 places équipée d'un certain type de pneus.

  6. La haute autorité de surveillance des jeux de hasard estime que les montants pariés sur la rencontre de football opposant les clubs de Tamines et de Bièvre (clubs de Promotion D) sont anormalement élevés; elle souhaite donc évaluer la probabilité de fraude.

  7. Dans un essai clinique, les autorités sanitaires souhaitent déterminer laquelle de deux procédures thérapeutiques est la plus efficace.

De multiples autres exemples sont imaginables.  La statistique descriptive est la branche des statistiques qui regroupe les nombreuses techniques utilisées pour synthétiser, décrire, présenter et interpréter un ensemble conséquent de données.

Au départ de toute étude statistique il y a une étape fondamentale qui concerne la collecte des données. Dans ce chapitre nous supposerons que les données sont toujours disponibles et représentatives du phénomène que nous cherchons à étudier.  Il faut distinguer deux cas : lorsqu'on travaille sur des données qui contiennent toute l'information sur tous les individus de la population concernée par l'étude (comme dans les exemples 1. et 2. ci-dessus), on parlera de statistique déductive. Lorsque les données ne concernent qu'une partie de la population (exemples 3. à 7.) et qu'on souhaite utiliser les statistiques descriptives sur cet échantillon pour déterminer les propriétés du phénomène observé, on parle de statistique inférentielle.  Dans ce chapitre nous n'aborderons que les statistiques déductives.

Définitions - Lors d'une étude statistique on parle de population statistique pour désigner l'ensemble des éléments sur lesquels porte l'étude. Les éléments de la population sont appelés individus.

Le terme de "population", en statistique, désigne bien plus qu'une collection d'êtres humains (ou même d'êtres vivants) : il peut également s'agir d'objets, d'immeubles, d'opinions, de logements, etc.

Par exemple, au 1er septembre 2012 la Belgique comptait 11.116.243 habitants (Source : Statistiques du gouvernement Belge, statbel.fgov.be, 1 septembre 2012). Une étude sur "les Belges" porterait donc sur une population contenant 11.116.243 individus.

 En général la population entière n'est pas disponible. Dans ce cas on étudie plutôt un sous-ensemble de la population, appelé échantillon.

Définition - Un échantillon de taille \(\mathbf{k}\) d'une population \(\Omega \) de taille \(N\)  (avec \(k \le N\) ) est n'importe quel sous-ensemble de \(k\) individus de la population.

Par exemple, au 1er janvier 2012 la ville d'Arlon comptait 28.289 habitants (Source : http://en.wi\-ki\-pe\-dia.org/wiki/Arlon); ils forment un échantillon de la population belge. De même, les habitants de la rue de Viville forment un échantillon de la population des habitants d'Arlon.

Lorsqu'on étudie une population on s'intéresse à certaines caractéristiques bien précises, appelées variables (ou caractères) statistiques.

Par exemple, le personnel d'une entreprise peut être décrit selon : l' âge, le sexe, la qualification, l'ancienneté dans l'entreprise, la commune de résidence; un lot de pièces mécaniques peut être décrit suivant le poids des pièces, leur diamètre, leur provenance géographique, etc.

Les différentes formes que peut prendre la variable sont appelées ses modalités. Ces modalités doivent être incompatibles (une variable ne peut pas prendre deux modalités en même temps) et exhaustives (toutes les options possibles doivent être disponibles).

Par exemple, les modalités de la variable "âge (en année)" sont \(0, 1, 2, \ldots\). Les modalités de la variable "sexe" sont "M, F". Les modalités de la variable "nombre d'enfants" sont \(0, 1, 2, 3, \ldots\) . Les modalités de la variable "état civil" sont "célibataire, marié, veuf, divorcé, autre".

Au vu de l'exemple précédent il est clair qu'il faut distinguer deux types de variables : les variables qualitatives, c'est-à-dire qui ne sont pas décrites par un nombre mais plutôt par une catégorie (comme le sexe, l'état civil, ...) et les variables quantitatives, c'est-à-dire qui sont décrites par des nombres (comme l' âge, le nombre d'enfants, ...).

Définition - Une variable est qualitative si ses modalités ne sont pas des nombres réels, mais les différentes catégories d'une nomenclature.

Il y a deux types de variables qualitatives : celles dont les modalités peuvent être assignées à un ordre naturel et celles pour lesquelles il n'existe pas d'ordre naturel et qui seront donc classées de façon arbitraire.

Définitions - Une variable qualitative est nominale si ses modalités ne sont pas naturellement ordonnées. Dans le cas contraire on la dit ordinale.

Par exemple, le tableau ci-dessous contient les différentes modalités de la variable "Profession" telles que définies par l'INSEE (Institut National de Statistiques et d'Etudes Economiques, France) -- Source Insee, PCS-2003 (E.~Bressoud and J.-C. Kahané. Statistique descriptive (2008)).

 

Code

Catégorie

1.

Agriculteurs exploitants

2.

Artisans, commerçants et chefs d'entreprise

3.

Cadres et professions intellectuelles supérieures

4.

Professions intérimaires

5.

Employés

6.

Ouvriers

7.

Retraités

8.

Autres personnes sans activité professionnelle

 

A chaque catégorie est associé un numéro (entre 1 et 8). Cette association est arbitraire car il n'y pas de notion d'ordre naturel qui s'impose dans ce cas. On parle donc de variable nominale.

Autre exemple, lors d'une prise d'avis pédagogique les choix de réponse sont généralement : "sans objet (SO)", "très défavorable (TD)", "défavorable (D)", "satisfaisant (S)", "favorable (F)", "très favorable (TF)". On attribue généralement à chaque choix de réponse une valeur numérique. On pourrait par exemple décider de les classer de 0 (SO) à 5 (TF). Ce choix est naturel et interprétable (on peut par exemple prendre le score moyen) : la variable "réponse" est donc une variable qualitative ordinale.

Définition - Une variable quantitative est une variable dont les modalités sont des valeurs numériques.

Par exemple, les variables suivantes sont quantitatives.

  1. Nombre de mariages en Belgique par année.
  2. Nombre de faillites en Belgique par semestre.
  3. Périmètre crânien d'un nouveau-né.
  4. Pluviométrie à un point donné de l'espace.

Si une variable n'est pas qualitative elle est nécessairement quantitative. Il y a deux types de variables quantitatives : celles dont les modalités sont dénombrables (exemples 1. et 2. ci-dessus), et celles dont les modalités sont indénombrables (exemples 3. et 4. ci-dessus).

Définition - Une variable quantitative est discrète si l'ensemble de ses modalités est fini ou dénombrable, c'est-à-dire si elles peuvent être mises sous la forme d'une liste \(\left\{ y_1, y_2, \ldots, y_M \right\}\) pour \(M\) fini ou infini.

Définition - Une variable quantitative est continue si ses modalités sont toutes les valeurs d'un intervalle.

Considérons une variable continue prenant ses valeurs dans un intervalle \(I \). On appelle discrétisation de la variable le fait de ranger les valeurs en différentes classes

\(C_1, C_2, \ldots, C_M\)

avec les \(C_i \) disjoints (\(C_i \cap C_j = \emptyset\) pour \(i\neq j\) ) et \(C_1 \cup C_2 \cup \ldots \cup C_M = I\)  (de sorte que les différentes classes contiennent toutes les modalités possibles de la variable).

Par exemple, on s'intéresse à la structure par âges de la population féminine en France métropolitaine à une date donnée -- Source INSEE, bilan démographique 2006 (E.~Bressoud and J.-C. Kahané. Statistique descriptive (2008)).

Age

Fréquence

Moins de 15 ans

17,5 %

15 - 24 ans

12,3 %

25 - 34 ans

12,7 %

35 - 44 ans

14,0 %

45 - 54 ans

13,6 %

55 - 64 ans

11,1 %

65 - 74 ans

8,6 %

75 ans ou +

9,1 %

 

Les modalités de la variable âge sont tous les nombres réels plus grand que 0. Ces âges sont rangés (sans grande perte d'information) par classes. Notez que les classes ne sont pas de même amplitude.

Théorie