2.6 Statistiques descriptives sur des variables qualitatives et semi-qualitatives

2.6.1 Fréquences

En guise de rappel, les variables nominales, ordinales et semi-quantitatives comprennent plusieurs modalités pour lesquelles plusieurs types de fréquences sont généralement calculées. Pour illustrer le tout, nous avons extrait du recensement de 2016 de Statistique Canada les effectifs des modalités de la variable sur le principal mode de transport utilisé pour les déplacements domicile-travail, et ce, pour la subdivision de recensement (MRC) de l’île de Montréal (tableau 2.10). Les différents types de fréquences sont les suivantes :

  • Les fréquences absolues simples (FAS) ou fréquences observées représentent le nombre d’observations pour chacune des modalités. Par exemple, sur 857 540 personnes réalisant des trajets domicile-travail (ligne totale), seulement 30 645 optent pour le vélo, alors que 427 530 conduisent un véhicule motorisé (automobile, camion ou fourgonnette) comme principal mode de transport.

  • Les fréquences relatives simples (FRS) sont les proportions de chaque modalité sur le total (\(\mbox{30 645}/\mbox{857 540}=\mbox{0,036}\)); leur somme est égale à 1. Elles peuvent bien entendu être exprimées en pourcentage (\(\mbox{30 645}/\mbox{857 540} \times \mbox{100}=\mbox{3,57}\)); leur somme est alors égale à 100 %. Par exemple, 3,7 % de ces personnes utilisent le vélo comme mode de transport principal.

  • Les fréquences absolues cumulées (FAC) représentent la fréquence observée (FAS) de la modalité à laquelle sont additionnées celles qui la précèdent. La valeur de la FAC pour la dernière est donc égale au total.

  • À partir des fréquences absolues cumulées (FAC), il est alors possible de calculer les fréquences relatives cumulées (FRC) en proportion (\(\mbox{453 930}/\mbox{857 540} = \mbox{0,529}\)) et en pourcentage (\(\mbox{453 930} / \mbox{857 540} \times \mbox{100}= \mbox{52,93}\)). Par exemple, plus de la moitié des personnes utilisent l’automobile comme mode de transport principal (passagerère ou conductrice).

Tableau 2.10: Différents types de fréquences sur une variable qualitative ou semi-qualitative
Mode de transport FAS FRS FRS (%) FAC FRC FRC (%)
Véhicule motorisé (conducteur(trice)) 427 530 0,499 49,86 427 530 0,499 49,86
Véhicule motorisé (passager(ère)) 26 400 0,031 3,08 453 930 0,529 52,93
Transport en commun 295 860 0,345 34,50 749 790 0,874 87,43
À pied 69 410 0,081 8,09 819 200 0,955 95,53
Bicyclette 30 645 0,036 3,57 849 845 0,991 99,10
Autre moyen 7 695 0,009 0,90 857 540 1,000 100,00
Total 857 540 1,000 100,00

Les fréquences cumulées : peu pertinentes pour les variables nominales

Le calcul et l’analyse des fréquences cumulées (absolues et relatives) sont très souvent inutiles pour les variables nominales.

Par exemple, au tableau 2.10, la fréquence cumulée relative (en %) est de 87,43 % pour la troisième ligne. Cela signifie que 87,43 % des navetteur(ve)s se déplacent en véhicule motorisé (conducteur(trice) ou passager(ère)) ou en transport en commun. Par contre, si la troisième modalité avait été à pied, le pourcentage aurait été de 61,02 (\(\mbox{52,93}+\mbox{8,09}\)). Si vous souhaitez calculer les fréquences cumulées sur une variable nominale, assurez-vous que l’ordre des modalités vous convient et de le modifier au besoin. Sinon, abstenez-vous de les calculer!

Les fréquences cumulées : très utiles pour l’analyse des variables ordinales ou semi-quantitatives

Pour des modalités hiérarchisées (variable ordinale ou semi-quantitative), l’analyse des fréquences cumulées (absolues et relatives) est par contre très intéressante. Par exemple, au tableau 2.11, elle permet de constater rapidement que sur l’île de Montréal, plus du quart de la population à moins de 25 ans (27,91 %) et 83,33 %, moins de 65 ans.

Tableau 2.11: Différents types de fréquences sur une variable semi-qualitative
Groupes d’âge FAS FRS FRS (%) FAC FRC FRC (%)
0 à 14 ans 304 470 0,157 15,68 304 470 0,157 15,68
15 à 24 ans 237 555 0,122 12,23 542 025 0,279 27,91
25 à 44 ans 582 150 0,300 29,98 1 124 175 0,579 57,89
45 à 64 ans 494 205 0,254 25,45 1 618 380 0,833 83,33
65 à 84 ans 271 560 0,140 13,98 1 889 940 0,973 97,32
85 ans et plus 52 100 0,027 2,68 1 942 040 1,000 100,00
Total 1 942 040 1,000 100,00

Différents graphiques peuvent être construits pour illustrer la répartition des observations : les graphiques en barre (verticale et horizontale) avec les fréquences absolues et les diagrammes circulaires ou en anneau pour les fréquences relatives (figure 2.37). Ces graphiques seront présentés plus en détail dans le chapitre suivant.

Différents graphiques pour représenter les fréquences absolues et relatives

Figure 2.37: Différents graphiques pour représenter les fréquences absolues et relatives

2.6.2 Mise en œuvre dans R

La syntaxe ci-dessous permet de calculer les différentes fréquences présentées au tableau 2.11. Notez que pour les fréquences cumulées, nous utilisons la fonction cumsum.

# Vecteur pour les noms des modalités
Modalite <- c("0 à 14 ans",
             "15 à 24 ans",
             "25 à 44 ans",
             "45 à 64 ans",
             "65 à 84 ans",
             "85 ans et plus")
# Vecteur pour les fréquences absolues simples (FAS)
Navetteurs <- c(304470,237555,582150,494205,271560,52100)
# Somme des FAS
sumFAS <-  sum(Navetteurs)
# Construction du DataFrame avec les deux vecteurs
df <- data.frame(
  GroupeAge = Modalite, 
  FAS = Navetteurs,
  FRS = Navetteurs / sumFAS, 
  FRSpct = Navetteurs / sumFAS * 100,
  FAC = cumsum(Navetteurs),
  FRC = cumsum(Navetteurs) / sumFAS,
  FRCpct = cumsum(Navetteurs) / sumFAS * 100
  )
df
##        GroupeAge    FAS        FRS    FRSpct     FAC       FRC    FRCpct
## 1     0 à 14 ans 304470 0.15677844 15.677844  304470 0.1567784  15.67784
## 2    15 à 24 ans 237555 0.12232240 12.232240  542025 0.2791008  27.91008
## 3    25 à 44 ans 582150 0.29976211 29.976211 1124175 0.5788629  57.88629
## 4    45 à 64 ans 494205 0.25447725 25.447725 1618380 0.8333402  83.33402
## 5    65 à 84 ans 271560 0.13983234 13.983234 1889940 0.9731725  97.31725
## 6 85 ans et plus  52100 0.02682746  2.682746 1942040 1.0000000 100.00000