Chapitre 4 Relation linéaire entre deux variables quantitatives

Dans le cadre de ce chapitre, nous présentons les trois principales méthodes permettant d’explorer la relation linéaire entre deux variables quantitatives, soit la covariance, la corrélation et la régression linéaire simple.

Dans ce chapitre, nous utilisons les packages suivants :

  • Pour créer des graphiques :
    • ggplot2, le seul, l’unique!
    • ggpubr pour combiner des graphiques et réaliser des diagrammes quantiles-quantiles.
  • Pour manipuler des données :
    • dplyr notamment pour les fonctions group_by, summarize et les pipes %>%.
  • Pour les corrélations :
    • boot pour réaliser des corrélations avec bootstrap.
    • correlation, de l’ensemble de packages easy_stats, offrant une large panoplie de mesures de corrélation.
    • corrplot pour créer des graphiques de matrices de corrélation.
    • Hmisc pour calculer des corrélations de Pearson et Spearman.
    • ppcor pour calculer des corrélations partielles.
    • psych pour obtenir une matrice de corrélation (Pearson, Spearman et Kendall), les intervalles de confiance et les valeurs de p.
    • stargazer pour créer de beaux tableaux d’une matrice de corrélation en HTML, en LaTeX ou en ASCII.
  • Autres packages :
    • foreign pour importer des fichiers externes.
    • MASS pour générer des échantillons normalement distribués.
    • stargazer pour imprimer des tableaux.

Deux variables continues varient-elles dans le même sens ou bien en sens contraire? Répondre à cette question est une démarche exploratoire classique en sciences sociales puisque les données socioéconomiques sont souvent associées linéairement. En d’autres termes, lorsque l’une des deux variables tant à augmenter, l’autre augmente également ou diminue systématiquement.

En études urbaines, nous pourrions vouloir vérifier si certaines variables socioéconomiques sont associées positivement ou négativement à des variables environnementales jugées positives (comme la couverture végétale ou des mesures d’accessibilité spatiale aux parcs) ou négatives (pollutions atmosphériques et sonores).

Par exemple, au niveau des secteurs de recensement d’une ville canadienne, nous pourrions vouloir vérifier si le revenu médian des ménages et le coût moyen du loyer varient dans le même sens que la couverture végétale; ou encore s’ils varient en sens inverse des niveaux moyens de dioxyde d’azote ou de bruit routier.

Pour évaluer la linéarité entre deux variables continues, deux statistiques descriptives sont utilisées : la covariance (section 4.2) et la corrélation (section 4.3).