7.2 Principes de base de la régression linéaire multiple

7.2.1 Un peu d’équations…

La régression linéaire multiple vise à déterminer une équation qui résume le mieux les relations linéaires entre une variable dépendante (Y) et un ensemble de variables indépendantes (X). L’équation de régression s’écrit alors :

\[\begin{equation} y_i = \beta_{0} + \beta_{1}x_{1i} + \beta_{2}x_{2i} +\ldots+ \beta_{k}x_{ki} + \epsilon_{i} \tag{7.1} \end{equation}\]

avec :

  • \(y_i\), la valeur de la variable dépendante Y pour l’observation i
  • \(\beta_{0}\), la constante, soit la valeur prédite pour Y quand toutes les variables indépendantes sont égales à 0
  • \(k\) le nombre de variables indépendantes
  • \(\beta_{1}\) à \(\beta_{k}\), les coefficients de régression pour les variables indépendantes de 1 à k (\(X_{1}\) à \(X_{k}\))
  • \(\epsilon_{i}\), le résidu pour l’observation de i, soit la partie de la valeur de \(y_i\) qui n’est pas expliquée par le modèle de régression.

Notez qu’il existe plusieurs écritures simplifiées de cette équation. D’une part, il est possible de ne pas indiquer l’observation i et de remplacer les lettres grecques bêta et epsilon (\(\beta\) et \(\epsilon\)) par les lettres b et e :

\[\begin{equation} Y = b_{0} + b_{1}X_{1} + b_{2}X_{2} +\ldots+ b_{k}X_{k} + e \tag{7.2} \end{equation}\]

D’autre part, cette équation peut être présentée sous forme matricielle. Rappelez-vous que, pour chacune des n observations de l’échantillon, une équation est formulée :

\[\begin{equation} \left\{\begin{array}{l} y_{1}=\beta_{0}+\beta_{1} x_{1,1}+\ldots+\beta_{p} x_{1, k}+\varepsilon_{1} \\ y_{2}=\beta_{0}+\beta_{1} x_{2,1}+\ldots+\beta_{p} x_{2, k}+\varepsilon_{2} \\ \cdots \\ y_{n}=\beta_{0}+a_{1} x_{n, 1}+\ldots+\beta_{p} x_{n, k}+\varepsilon_{n} \end{array}\right. \tag{7.3} \end{equation}\]

Par conséquent, sous forme matricielle, l’équation s’écrit :

\[\begin{equation} \left(\begin{array}{c} y_{1} \\ \vdots \\ y_{n} \end{array}\right)=\left(\begin{array}{cccc} 1 & x_{1,1} & \cdots & x_{1, k} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & x_{n, 1} & \cdots & x_{n, k} \end{array}\right)\left(\begin{array}{c} \beta_{0} \\ \beta_{1} \\ \vdots \\ \beta_{k} \end{array}\right)+\left(\begin{array}{c} \varepsilon_{1} \\ \vdots \\ \varepsilon_{n} \end{array}\right) \tag{7.4} \end{equation}\]

ou tout simplement :

\[\begin{equation} Y = X\beta + \epsilon \tag{7.5} \end{equation}\]

avec :

  • \(Y\), un vecteur de dimension \(n \times 1\) pour la variable dépendante, soit une colonne avec n observations
  • \(X\), une matrice de dimension \(n \times (k + 1)\) pour les k variables indépendantes, incluant une autre colonne (avec la valeur de 1 pour les n observations) pour la constante d’où \(k + 1\)
  • \(\beta\), un vecteur de dimension \(k + 1\), soit les coefficients de régression pour les k variables et la constante
  • \(\epsilon\), un vecteur de dimension \(n \times 1\) pour les résidus.

Vous aurez compris que, comme pour la régression linéaire simple (section 4.4), l’équation de la régression linéaire multiple comprend aussi une partie expliquée et une autre non expliquée (stochastique) par le modèle :

\[\begin{equation} Y = \underbrace{\beta_{0} + \beta_{1}X_{i} + \beta_{2}X_{i} +\ldots+ \beta_{k}X_{k}}_{\mbox{partie expliquée par le modèle}}+ \underbrace{\epsilon}_{\mbox{partie non expliquée (stochastique)}} \tag{7.6} \end{equation}\]

\[\begin{equation} Y = \underbrace{X\beta}_{\mbox{partie expliquée par le modèle}}+ \underbrace{\epsilon}_{\mbox{partie non expliquée (stochastique)}} \tag{7.7} \end{equation}\]

7.2.2 Hypothèses de la régression linéaire multiple

Un modèle est bien construit s’il respecte plusieurs hypothèses liées à la régression, dont les principales étant :

  • Hypothèse 1. La variable dépendante doit être continue et non-bornée. Quant aux variables indépendantes (VI), elles peuvent être quantitatives (discrètes ou continues) et qualitatives (nominale ou ordinale).
  • Hypothèse 2. La variance de chaque VI doit être supérieure à 0. Autrement dit, toutes les observations ne peuvent avoir la même valeur.
  • Hypothèse 3. Indépendance des termes d’erreur. Les résidus des observations (\(\epsilon_{1}, \epsilon_{2}, \ldots, \epsilon_{n}\)) ne doivent pas être corrélés entre eux. Autrement dit, les observations doivent être indépendantes les unes des autres, ce qui n’est souvent pas le cas pour des mesures temporelles. Par exemple, l’application du cadre conceptuel sur la modélisation de l’exposition des cyclistes au bruit et à la pollution atmosphérique (figure 7.1) est basée sur des données primaires collectées lors de trajets réalisés à vélo dans une ville donnée. Par conséquent, deux observations qui se suivent ont bien plus de chances de se ressembler – du point de vue des mesures de pollution et des caractéristiques de l’environnement urbain – que deux observations tirées au hasard dans le jeu de données. Ce problème d’autocorrélation temporelle doit être contrôlé, sinon, les coefficients de régression seront biaisés.
  • Hypothèse 4. Normalité des résidus avec une moyenne centrée sur zéro.
  • Hypothèse 5. Absence de colinéarité parfaite entre les variables explicatives. Par exemple, dans un modèle, nous ne pouvons pas introduire à la fois les pourcentages de locataires et de propriétaires, car pour chaque observation, la somme des deux donne 100nbsp;%. Nous avons donc une corrélation parfaite entre ces deux variables : le coefficient de corrélation de Pearson entre ces deux variables est égal à 1. Par conséquent, le modèle ne peut pas être estimé avec ces deux variables et l’une des deux est automatiquement ôtée.
  • Hypothèse 6. Homoscédasticité des erreurs (ou absence d’hétéroscédasticité). Les résidus doivent avoir une variance constante, c’est-à-dire qu’elle doit être la même pour chaque observation. Il y a homoscédasticité lorsqu’il y a une absence de corrélation entre les résidus et les valeurs prédites. Si cette condition n’est pas respectée, nous parlons alors d’hétéroscédasticité.
  • Hypothèse 7. Le modèle est bien spécifié. Un modèle est mal spécifié (construit) quand « une ou plusieurs variables non pertinentes sont incluses dans le modèle » ou « qu’une ou plusieurs variables pertinentes sont exclues du modèle » (Bressoux 2010, 138‑139). Concrètement, l’inclusion d’une variable non pertinente ou l’omission d’une variable peut entraîner une mauvaise estimation des effets des variables explicatives du modèle.

Pour connaître les conséquences de la violation de chacune de ces hypothèses, vous pourrez notamment consulter l’excellent ouvrage de Bressoux (2010, 103‑110). Retenez ici que le non-respect de ces hypothèses produit des coefficients de régression biaisés.

Références

Bressoux, Pascal. 2010. Modélisation statistique appliquée aux sciences sociales. De boeck.