Chapitre 4 Relation linéaire entre deux variables quantitatives
Dans le cadre de ce chapitre, nous présentons les trois principales méthodes permettant d’explorer la relation linéaire entre deux variables quantitatives, soit la covariance, la corrélation et la régression linéaire simple.
Dans ce chapitre, nous utilisons les packages suivants :
- Pour créer des graphiques :
ggplot2
, le seul, l’unique!ggpubr
pour combiner des graphiques et réaliser des diagrammes quantiles-quantiles.
- Pour manipuler des données :
dplyr
notamment pour les fonctionsgroup_by
,summarize
et les pipes %>%.
- Pour les corrélations :
boot
pour réaliser des corrélations avec bootstrap.correlation
, de l’ensemble de packageseasy_stats
, offrant une large panoplie de mesures de corrélation.corrplot
pour créer des graphiques de matrices de corrélation.Hmisc
pour calculer des corrélations de Pearson et Spearman.ppcor
pour calculer des corrélations partielles.psych
pour obtenir une matrice de corrélation (Pearson, Spearman et Kendall), les intervalles de confiance et les valeurs de p.stargazer
pour créer de beaux tableaux d’une matrice de corrélation en HTML, en LaTeX ou en ASCII.
- Autres packages :
foreign
pour importer des fichiers externes.MASS
pour générer des échantillons normalement distribués.stargazer
pour imprimer des tableaux.
Deux variables continues varient-elles dans le même sens ou bien en sens contraire? Répondre à cette question est une démarche exploratoire classique en sciences sociales puisque les données socioéconomiques sont souvent associées linéairement. En d’autres termes, lorsque l’une des deux variables tant à augmenter, l’autre augmente également ou diminue systématiquement.
En études urbaines, nous pourrions vouloir vérifier si certaines variables socioéconomiques sont associées positivement ou négativement à des variables environnementales jugées positives (comme la couverture végétale ou des mesures d’accessibilité spatiale aux parcs) ou négatives (pollutions atmosphériques et sonores).
Par exemple, au niveau des secteurs de recensement d’une ville canadienne, nous pourrions vouloir vérifier si le revenu médian des ménages et le coût moyen du loyer varient dans le même sens que la couverture végétale; ou encore s’ils varient en sens inverse des niveaux moyens de dioxyde d’azote ou de bruit routier.
Pour évaluer la linéarité entre deux variables continues, deux statistiques descriptives sont utilisées : la covariance (section 4.2) et la corrélation (section 4.3).