5.2 Test du khi-deux

Avec le test du khi-deux, nous postulons qu’il y a indépendance entre les modalités des deux variables qualitatives, soit l’hypothèse nulle (H0). Puis, nous calculons le nombre de degrés de liberté : \(DL = (n-1)(l-1)\), avec \(l\) et \(n\) étant respectivement les nombres de modalités en ligne et en colonne. Pour notre tableau de contingence, nous avons 12 degrés de liberté : \((4-1)(5-1)=12\).

À partir du nombre de degrés de liberté et d’un seuil critique de significativité (prenons 5 % ici), nous pouvons trouver la valeur critique de khi-deux dans la table des valeurs critiques du khi-deux, soit 21,03 (voir section 14.1). Puisque la valeur du khi-deux calculée dans le tableau de contingence (63,54) est bien supérieure à celle obtenue dans le tableau des valeurs critiques (21,03), nous pouvons rejeter l’hypothèse d’indépendance au seuil de 5 %. Autrement dit, si les deux variables n’étaient pas associées, nous aurions eu moins de 5 % de chances de collecter des données avec ce niveau d’association, ce qui nous permet de rejeter l’hypothèse nulle (absence d’association). Notez que le test reste significatif avec des seuils de 1 % (p = 0,01) et 0,1 % (p = 0,001) puisque les valeurs critiques sont de 26,22 et de 32,91.

Bien entendu, une fois que nous connaissons le nombre de degrés de liberté, nous pouvons directement calculer les valeurs critiques pour différents seuils de signification et éviter ainsi de recourir à la table du du khi-deux. Dans la même veine, nous pouvons aussi calculer la valeur de p d’un tableau de contingence en spécifiant le nombre de degrés de liberté et la valeur du khi-deux obtenue.

cat("Valeurs critiques du khi-deux avec le nombre de degrés de liberté", "\n",
    round(qchisq(p=0.95,  df=12, lower.tail = FALSE),3), "avec p=0,05", "\n",
    round(qchisq(p=0.99,  df=12, lower.tail = FALSE),3), "avec p=0,01", "\n",
    round(qchisq(p=0.999, df=12, lower.tail = FALSE),3), "avec p=0,0001")
## Valeurs critiques du khi-deux avec le nombre de degrés de liberté 
##  5.226 avec p=0,05 
##  3.571 avec p=0,01 
##  2.214 avec p=0,0001
cat("Valeur de p du khi-deux obtenu (63,54291) avec 12 degrés de liberté :", "\n",
    pchisq(q=63.54291, df=12, lower.tail = FALSE))
## Valeur de p du khi-deux obtenu (63,54291) avec 12 degrés de liberté : 
##  5.063101e-09

Outre le khi-deux, d’autres mesures d’association permettent de mesurer le degré d’association entre deux variables qualitatives. Les plus courantes sont reportées dans le tableau suivant. À des fins de comparaison, le khi-deux décrit précédemment est aussi reporté sur la première ligne du tableau.

Tableau 5.1: Autres mesures d’association entre deux variables qualitatives
Statistique Formule Propriété et interprétation
Khi-deux \(\chi^2 = \sum \frac{(f_{ij}-ft_{ij})^2}{ft_{ij}}\) Mesure classique du khi-deux calculée à partir des différences entre les fréquences observées et attendues. Valeur de p disponible
Ratio de vraisemblance du khi-deux \(G^2 = 2 \sum f_{ij} \ln{(\frac{f_{ij}}{ft_{ij}})}\) Calculé à partir du ratio entre les fréquences observées et attendues. Valeur de p disponible
khi-deux de Mantel-Haenszel \(Q_{MH}=(N-1)r^2\) avec r étant le coefficient de corrélation entre les deux variables qualitatives; par exemple, entre les valeurs des modalités de 1 à 5 de la variable période de construction et celles de 1 à 4 de la variable taille du projet HLM. Ce coefficient est très utile quand les deux variables qualitatives ne sont pas nominales, mais ordinales. Valeur de p disponible.
Corrélation polychorique Obtenue itérativement par maximum de vraisemblance Dans le même esprit que le khi-deux de Mantel-Haenszel, la corrélation polychorique s’applique à deux variables ordinales. Plus spécifiquement, elle formule le postulat que deux variables théoriques normalement distribuées ont été mesurées de façon approximative avec deux échelles ordinales. Par exemple, en psychologie, le sentiment de bien-être et le sentiment de sécurité peuvent être conceptualisés comme deux variables continues normalement distribuées. Cependant, les mesurer directement est très difficile, nous avons donc recours à des échelles de Likert allant de 1 à 10. Pour cet exemple, il est pertinent d’utiliser la corrélation polychorique. Comme pour une corrélation de Pearson, la corrélation polychorique varie de -1 à 1, une valeur négative indiquant une relation inverse entre les deux variables théoriques et inversement. Une valeur de p peut être obtenue.
Coefficient Phi \(\phi=\sqrt{\frac{\chi^2}{n}}\) Simplement le khi-deux divisé par le nombre d’observations. Si les deux variables qualitatives comprennent deux modalités chacune alors \(\phi\) varie de -1 à 1; sinon, de 0 à \(min(\sqrt{c-1}, \sqrt{l-1})\) avec c et l étant le nombre de modalités en colonne et en ligne. Par conséquent, ce coefficient est surtout utile pour les tableaux comprenant deux modalités pour chacune des variables. Pas de valeur de p disponible.
V de Cramer \(V=\sqrt{\frac{\chi^2/n}{min(c-1,l-1)}}\) Il représente un ajustement du coefficient Phi et varie de 0 à 1. Plus sa valeur est forte, plus les deux variables sont associées. À la lecture des deux formules, vous constaterez que, pour un tableau de 2x2, la valeur du V de Carmer sera égale à celle du Coefficient Phi. Pas de valeur de p disponible.