2.6 Statistiques descriptives sur des variables qualitatives et semi-qualitatives
2.6.1 Fréquences
En guise de rappel, les variables nominales, ordinales et semi-quantitatives comprennent plusieurs modalités pour lesquelles plusieurs types de fréquences sont généralement calculées. Pour illustrer le tout, nous avons extrait du recensement de 2016 de Statistique Canada les effectifs des modalités de la variable sur le principal mode de transport utilisé pour les déplacements domicile-travail, et ce, pour la subdivision de recensement (MRC) de l’île de Montréal (tableau 2.10). Les différents types de fréquences sont les suivantes :
Les fréquences absolues simples (FAS) ou fréquences observées représentent le nombre d’observations pour chacune des modalités. Par exemple, sur 857 540 personnes réalisant des trajets domicile-travail (ligne totale), seulement 30 645 optent pour le vélo, alors que 427 530 conduisent un véhicule motorisé (automobile, camion ou fourgonnette) comme principal mode de transport.
Les fréquences relatives simples (FRS) sont les proportions de chaque modalité sur le total (\(\mbox{30 645}/\mbox{857 540}=\mbox{0,036}\)); leur somme est égale à 1. Elles peuvent bien entendu être exprimées en pourcentage (\(\mbox{30 645}/\mbox{857 540} \times \mbox{100}=\mbox{3,57}\)); leur somme est alors égale à 100 %. Par exemple, 3,7 % de ces personnes utilisent le vélo comme mode de transport principal.
Les fréquences absolues cumulées (FAC) représentent la fréquence observée (FAS) de la modalité à laquelle sont additionnées celles qui la précèdent. La valeur de la FAC pour la dernière est donc égale au total.
À partir des fréquences absolues cumulées (FAC), il est alors possible de calculer les fréquences relatives cumulées (FRC) en proportion (\(\mbox{453 930}/\mbox{857 540} = \mbox{0,529}\)) et en pourcentage (\(\mbox{453 930} / \mbox{857 540} \times \mbox{100}= \mbox{52,93}\)). Par exemple, plus de la moitié des personnes utilisent l’automobile comme mode de transport principal (passagerère ou conductrice).
Mode de transport | FAS | FRS | FRS (%) | FAC | FRC | FRC (%) |
---|---|---|---|---|---|---|
Véhicule motorisé (conducteur(trice)) | 427 530 | 0,499 | 49,86 | 427 530 | 0,499 | 49,86 |
Véhicule motorisé (passager(ère)) | 26 400 | 0,031 | 3,08 | 453 930 | 0,529 | 52,93 |
Transport en commun | 295 860 | 0,345 | 34,50 | 749 790 | 0,874 | 87,43 |
À pied | 69 410 | 0,081 | 8,09 | 819 200 | 0,955 | 95,53 |
Bicyclette | 30 645 | 0,036 | 3,57 | 849 845 | 0,991 | 99,10 |
Autre moyen | 7 695 | 0,009 | 0,90 | 857 540 | 1,000 | 100,00 |
Total | 857 540 | 1,000 | 100,00 |
Les fréquences cumulées : peu pertinentes pour les variables nominales
Le calcul et l’analyse des fréquences cumulées (absolues et relatives) sont très souvent inutiles pour les variables nominales.
Par exemple, au tableau 2.10, la fréquence cumulée relative (en %) est de 87,43 % pour la troisième ligne. Cela signifie que 87,43 % des navetteur(ve)s se déplacent en véhicule motorisé (conducteur(trice) ou passager(ère)) ou en transport en commun. Par contre, si la troisième modalité avait été à pied, le pourcentage aurait été de 61,02 (\(\mbox{52,93}+\mbox{8,09}\)). Si vous souhaitez calculer les fréquences cumulées sur une variable nominale, assurez-vous que l’ordre des modalités vous convient et de le modifier au besoin. Sinon, abstenez-vous de les calculer!
Les fréquences cumulées : très utiles pour l’analyse des variables ordinales ou semi-quantitatives
Pour des modalités hiérarchisées (variable ordinale ou semi-quantitative), l’analyse des fréquences cumulées (absolues et relatives) est par contre très intéressante. Par exemple, au tableau 2.11, elle permet de constater rapidement que sur l’île de Montréal, plus du quart de la population à moins de 25 ans (27,91 %) et 83,33 %, moins de 65 ans.
Groupes d’âge | FAS | FRS | FRS (%) | FAC | FRC | FRC (%) |
---|---|---|---|---|---|---|
0 à 14 ans | 304 470 | 0,157 | 15,68 | 304 470 | 0,157 | 15,68 |
15 à 24 ans | 237 555 | 0,122 | 12,23 | 542 025 | 0,279 | 27,91 |
25 à 44 ans | 582 150 | 0,300 | 29,98 | 1 124 175 | 0,579 | 57,89 |
45 à 64 ans | 494 205 | 0,254 | 25,45 | 1 618 380 | 0,833 | 83,33 |
65 à 84 ans | 271 560 | 0,140 | 13,98 | 1 889 940 | 0,973 | 97,32 |
85 ans et plus | 52 100 | 0,027 | 2,68 | 1 942 040 | 1,000 | 100,00 |
Total | 1 942 040 | 1,000 | 100,00 |
Différents graphiques peuvent être construits pour illustrer la répartition des observations : les graphiques en barre (verticale et horizontale) avec les fréquences absolues et les diagrammes circulaires ou en anneau pour les fréquences relatives (figure 2.37). Ces graphiques seront présentés plus en détail dans le chapitre suivant.
2.6.2 Mise en œuvre dans R
La syntaxe ci-dessous permet de calculer les différentes fréquences présentées au tableau 2.11. Notez que pour les fréquences cumulées, nous utilisons la fonction cumsum
.
# Vecteur pour les noms des modalités
<- c("0 à 14 ans",
Modalite "15 à 24 ans",
"25 à 44 ans",
"45 à 64 ans",
"65 à 84 ans",
"85 ans et plus")
# Vecteur pour les fréquences absolues simples (FAS)
<- c(304470,237555,582150,494205,271560,52100)
Navetteurs # Somme des FAS
<- sum(Navetteurs)
sumFAS # Construction du DataFrame avec les deux vecteurs
<- data.frame(
df GroupeAge = Modalite,
FAS = Navetteurs,
FRS = Navetteurs / sumFAS,
FRSpct = Navetteurs / sumFAS * 100,
FAC = cumsum(Navetteurs),
FRC = cumsum(Navetteurs) / sumFAS,
FRCpct = cumsum(Navetteurs) / sumFAS * 100
) df
## GroupeAge FAS FRS FRSpct FAC FRC FRCpct
## 1 0 à 14 ans 304470 0.15677844 15.677844 304470 0.1567784 15.67784
## 2 15 à 24 ans 237555 0.12232240 12.232240 542025 0.2791008 27.91008
## 3 25 à 44 ans 582150 0.29976211 29.976211 1124175 0.5788629 57.88629
## 4 45 à 64 ans 494205 0.25447725 25.447725 1618380 0.8333402 83.33402
## 5 65 à 84 ans 271560 0.13983234 13.983234 1889940 0.9731725 97.31725
## 6 85 ans et plus 52100 0.02682746 2.682746 1942040 1.0000000 100.00000