Chapitre 7 Régression linéaire multiple
Dans ce chapitre, nous présentons la méthode de régression certainement la plus utilisée en sciences sociales : la régression linéaire multiple. À titre de rappel, dans la section 4.4, nous avons vu que la régression linéaire simple, basée sur la méthode des moindres carrés ordinaires (MCO), permet d’expliquer et de prédire une variable continue en fonction d’une autre variable. Toutefois, quel que soit le domaine d’étude, il est rare que le recours à une seule variable explicative (X) permette de prédire efficacement une variable continue (Y). La régression linéaire multiple est simplement une extension de la régression linéaire simple : elle permet ainsi de prédire et d’expliquer une variable dépendante (Y) en fonction de plusieurs variables indépendantes (explicatives).
Plus spécifiquement, nous abordons ici les principes et les hypothèses de la régression linéaire multiple, comment mesurer la qualité d’ajustement du modèle, introduire des variables explicatives particulières (variable qualitative dichotomique ou polytomique, variable d’interaction, etc.), interpréter les sorties d’un modèle de régression et finalement la mettre en oeuvre dans R.
Dans ce chapitre, nous utilisons les packages suivants :
- Pour créer des graphiques :
ggplot2
, le seul, l’unique!ggpubr
pour combiner les graphiques
- Pour obtenir les coefficients standardisés :
QuantPsyc
avec la fonctionlm.beta
(section 7.4.2).
- Pour les effets marginaux des variables indépendantes :
ggeffects
avec la fonctionggpredict
(section 7.7.4).
- Pour vérifier la normalité des résidus :
DescTools
avec les fonctionsSkewness
etKurtosis
etJarqueBeraTest
(section 7.6.2).
- Pour vérifier l’homoscédasticité des résidus :
lmtest
avec la fonctionbptest
pour le test de Breusch-Pagan (section 7.7.3.3).
- Pour vérifier la multicolinéarité excessive :
car
avec la fonctionvif
(section 7.7.3.4).
- Autre package :
foreign
pour importer des fichiers externes.