Chapitre 7 Régression linéaire multiple

Dans ce chapitre, nous présentons la méthode de régression certainement la plus utilisée en sciences sociales : la régression linéaire multiple. À titre de rappel, dans la section 4.4, nous avons vu que la régression linéaire simple, basée sur la méthode des moindres carrés ordinaires (MCO), permet d’expliquer et de prédire une variable continue en fonction d’une autre variable. Toutefois, quel que soit le domaine d’étude, il est rare que le recours à une seule variable explicative (X) permette de prédire efficacement une variable continue (Y). La régression linéaire multiple est simplement une extension de la régression linéaire simple : elle permet ainsi de prédire et d’expliquer une variable dépendante (Y) en fonction de plusieurs variables indépendantes (explicatives).

Plus spécifiquement, nous abordons ici les principes et les hypothèses de la régression linéaire multiple, comment mesurer la qualité d’ajustement du modèle, introduire des variables explicatives particulières (variable qualitative dichotomique ou polytomique, variable d’interaction, etc.), interpréter les sorties d’un modèle de régression et finalement la mettre en oeuvre dans R.

Dans ce chapitre, nous utilisons les packages suivants :

Pour créer des graphiques :
- ggplot2, le seul, l’unique!
- ggpubr pour combiner les graphiques
Pour obtenir les coefficients standardisés :
- QuantPsyc avec la fonction lm.beta (section 7.4.2).
Pour les effets marginaux des variables indépendantes :
- ggeffects avec la fonction ggpredict (section 7.7.4).
Pour vérifier la normalité des résidus :
- DescTools avec les fonctions Skewness et Kurtosis et JarqueBeraTest (section 7.6.2).
Pour vérifier l’homoscédasticité des résidus :
- lmtest avec la fonction bptest pour le test de Breusch-Pagan (section 7.7.3.3).
Pour vérifier la multicolinéarité excessive :
- car avec la fonction vif (section 7.7.3.4).
Autre package :
- foreign pour importer des fichiers externes.