10.2 Différents types de modèles multiniveaux
10.2.1 Description du jeu de données utilisé
Dans le cadre de cette section, nous présentons uniquement les modèles à deux niveaux, soit celui pour modéliser un phénomène \(y_{ij}\). Pour ce faire, nous utilisons des données tirées d’une étude de Pham et al. (2017). Dans cet article, les auteurs souhaitent évaluer les effets des caractéristiques de la forme urbaine et des caractéristiques socioéconomiques sur la couverture des arbres de rue, et ce, à partir d’un modèle multiniveau. Ils disposent ainsi d’une structure hiérarchique de données avec deux niveaux : les tronçons de rue (niveau 1, n = 10 814) inclus dans un et un seul secteur de recensement (niveau 2, n = 312). La variable dépendante (\(y_{ij}\)) est le pourcentage de la superficie du tronçon de rue qui est couverte par des arbres, calculé à partir d’images satellites à haute résolution (Quickbird, 60 cm, septembre 2008). L’ensemble des variables utilisées pour les modèles sont reportées au tableau 10.1.
Sept variables indépendantes relatives à la forme urbaine sont mesurées pour les tronçons de rue, soit la largeur et la longueur de la rue, l’âge médian des bâtiments (introduit également au carré pour vérifier l’existence d’un effet curvilinéaire; voir la section 7.5.1.1), les pourcentages de bâtiments résidentiels, de duplex et de triplex, le nombre de bâtiments et finalement la distance moyenne entre le bâtiment et la rue. Les variables indépendantes pour les 312 secteurs de recensement (niveau 2) sont extraites du recensement canadien de 2006 (tableau 10.1).
Nom | Intitulé | Type | Niveau | Moy. | Écart type |
---|---|---|---|---|---|
PCTArb | Arbres sur le tronçon de rue (%) | VD | 1 | 7,2 | 10,7 |
Width | Largeur des rues | VI | 1 | 16,0 | 7,3 |
Length | Longueur de rues | VI | 1 | 136,0 | 87,8 |
AgeMed | Age médian des bâtiments | VI | 1 | 1 952,7 | 28,3 |
ResiPCT | Bâtiments résidentiels (%) | VI | 1 | 83,5 | 28,0 |
DuTriPct | Duplex ou triplex (%) | VI | 1 | 41,8 | 39,3 |
NoLog | Nombre de bâtiments | VI | 1 | 14,0 | 14,4 |
Setback | Distance entre le bâtiment et la rue | VI | 1 | 7,2 | 4,3 |
ValLog | Valeur moyenne des logements (milliers de dollars) | VI | 2 | 267,6 | 80,0 |
UDipPCT | Diplômés universitaires (%) | VI | 2 | 16,9 | 9,6 |
PCTFRAVI | Personnes à faible revenu (%) | VI | 2 | 30,3 | 11,5 |
PCTIMGRE | Immigrants récents (%) | VI | 2 | 10,0 | 7,3 |
AvecEnf | Ménages avec enfants (%) | VI | 2 | 34,8 | 12,6 |
FranPCT | Langue maternelle française (%) | VI | 2 | 66,9 | 24,1 |
10.2.2 Démarche classique pour les modèles multiniveaux
La démarche habituelle en analyse multiniveau est de réaliser plusieurs modèles, allant du plus simple au plus complexe. Cette stratégie permet habituellement de bien cerner la répartition de la variance entre les différents niveaux et l’apport des variables explicatives introduites aux différents niveaux. De la sorte, cinq types de modèles peuvent être construits :
- Le modèle vide (appelé aussi modèle inconditionnel) qui comprend des constantes aléatoires au niveau 2, mais aucune variable explicative.
- Le modèle avec uniquement les variables indépendantes au niveau 1 et des constantes aléatoires au niveau 2.
- Le modèle complet avec les variables indépendantes aux deux niveaux et des constantes aléatoires.
- Le modèle complet avec les variables indépendantes aux deux niveaux, incluant une interaction entre une variable indépendante mesurée au niveau 1 et une autre mesurée au niveau 2.
- Le modèle avec les variables indépendantes aux deux niveaux et des constantes et pentes aléatoires.
Dans les sous-sections suivantes, nous détaillons chacun de ces cinq modèles en prenant soin de montrer les similitudes qu’ils partagent avec les modèles à effets mixtes vus précédemment. Notez d’emblée que les trois premiers modèles sont les plus fréquemment utilisés.
10.2.2.1 Modèle vide
Comme son nom l’indique, le modèle vide ne comprend aucune variable explicative. Il consiste simplement à faire varier la constante du niveau 1 avec des effets aléatoires au niveau 2, ce qui explique qu’il est souvent comparé à une ANOVA avec des effets aléatoires. En d’autres termes, ce modèle correspond à un GLMM avec constantes aléatoires dans lequel aucune variable indépendante n’est incluse au niveau 1. D’ailleurs, si vous comparez l’équation (10.1) avec l’équation (9.2) au chapitre précédent, vous constaterez que seul le paramètre \(\beta_1 x_1\) a été ôté et qu’il comprend aussi deux variances : l’une fixe au niveau 1 (\(\sigma_e\)) et l’autre aléatoire (stochastique) au niveau 2 (\(\sigma_{\upsilon}\)).
\[\begin{equation} \begin{aligned} &Y \sim Normal(\mu,\sigma_e)\\ &g(\mu) = \beta_0 + \upsilon \\ &\upsilon \sim Normal(0, \sigma_{\upsilon}) \\ &g(x) = x \end{aligned} \tag{10.1} \end{equation}\]
Quel est alors l’intérêt de réaliser un modèle si simple? À partir des deux variances, il est possible de calculer le coefficient de corrélation intraclasse (intraclass-correlation (ICC) en anglais) qui est le rapport entre la variance aléatoire et la somme des variances des deux niveaux, soit fixe et aléatoire (équation (10.2)). Ce coefficient varie ainsi de 0 à 1 et indique la proportion de la variance de la variable dépendante qui est imputable au niveau 2. Tous(tes) les auteur(e)s s’entendent sur le fait qu’il est impératif de commencer une analyse de multiniveau en calculant ce modèle vide qui nous informe de la répartition de la variance entre les deux niveaux (Raudenbush et Bryk 2002; Gelman et Hill 2006; Tabachnick, Fidell et Ullman 2007; Bressoux 2010). Nous pourrons ensuite analyser l’évolution de ce coefficient dans les modèles subséquents.
\[\begin{equation} \rho = \frac{\sigma_{\upsilon}}{\sigma_{\upsilon} + \sigma_{e}} \tag{10.2} \end{equation}\]
Les résultats du modèle vide (inconditionnel) à partir des données de Pham et al. (2017) sont présentés au tableau 10.2. La variance du niveau 1 est de 92,93 contre 19,82 au niveau 2. Le coefficient de corrélation intraclasse vaut alors : \(\mbox{19,82} / \mbox{(19,82} + \mbox{92,93}) = \mbox{0,1758}\). Cela signifie que 18 % de la variance de la variable dépendante sont imputables au niveau 2 (des secteurs de recensement) et 82 % au niveau 1 (des tronçons). Nous verrons comment évolue ce coefficient dans les modèles subséquents.
Paramètre | Coefficient | Erreur type | Valeur de T |
---|---|---|---|
Effets fixes (niveau 1) | |||
Constante | 7,337 | 0,277 | 314,918 |
Répartition de la variance | |||
Variance (niveau 1) | 19,818 | ||
Variance (niveau 2) | 92,925 | ||
Coefficient de corrélation intraclasse | 0,176 | ||
Qualité d’ajustement du modèle | |||
AIC | 80 305,219 | ||
R2 marginal | 0,000 | ||
R2 conditionnel | 0,176 |
10.2.2.2 Modèle avec les variables indépendantes du niveau 1
Dans ce second modèle, nous introduisons uniquement les variables explicatives au niveau 1. Par conséquent, ce modèle est tout simplement un modèle à effets mixtes (GLMM) avec des constantes aléatoires largement décrit à la section 9.2.1). Si vous comparez l’équation du modèle vide (équation (10.2)) avec l’équation de ce modèle (équation (10.3)), vous constaterez que le paramètre \(\beta_1 x_1\) a été ajouté. Il correspond au coefficient pour la variable indépendante \(X_1\) mesurée au niveau 1 (effet fixe). Nous pourrions alors ajouter d’autres paramètres pour les autres variables indépendantes du modèle, soit \(\beta_1 x_1 + \beta_2 x_2+ \ldots + \beta_k x_k\) (\(k\) étant le nombre de variables explicatives mesurées au niveau 1, effets fixes).
\[\begin{equation} \begin{aligned} &Y \sim Normal(\mu,\sigma_e)\\ &g(\mu) = \beta_0 + \beta_1 x_1 + \upsilon \\ &\upsilon \sim Normal(0, \sigma_{\upsilon})) \\ &g(x) = x \end{aligned} \tag{10.3} \end{equation}\]
Les résultats du second modèle sont présentés au tableau 10.3.
La répartition de la variance entre les deux niveaux. La variance du niveau 1 est désormais de 15,263 contre 80,317 au niveau 2, ce qui permet d’obtenir un coefficient de corrélation intraclasse de 0,1597. Cela signifie que de 16 % de la variance de la variable dépendante sont imputables au niveau 2 (des secteurs de recensement), une fois contrôlées les caractéristiques des tronçons.
La qualité d’ajustement du modèle. Dans le chapitre précédent sur les GLMM, nous avons largement décrit plusieurs mesures de la qualité d’ajustement du modèle, notamment l’AIC et les R2 marginal et conditionnel. À titre de rappel, voici comment interpréter ces mesures :
Plus la valeur de l’AIC est faible, mieux le modèle est ajusté. En comparant les valeurs d’AIC du modèle vide et du modèle avec les variables explicatives du niveau 1 (80 305 versus 78 785), nous constatons, sans surprise, que ce dernier modèle est plus performant.
Le R2 marginal indique la proportion de la variance expliquée uniquement si les effets fixes sont pris en compte (ici, 0,129). Quant au R2 conditionnel, il indique la proportion de la variance expliquée à la fois par les effets fixes et aléatoires (ici, 0,268). L’écart important entre les deux R2 signale que les secteurs de recensement (effets aléatoires, niveau 2) jouent un rôle important dans le modèle.
Quelles informations peut-on tirer des coefficients de régression?
Les variables indépendantes relatives à la forme urbaine les plus importantes sont : le pourcentage de bâtiments résidentiels (ResiPCT
), la largeur de la rue (Width
) et le nombre de bâtiments (NoLog
). Aussi, la distance entre le bâtiment et la rue (Setback
) est associée positivement avec la variable dépendante. En effet, à chaque ajout d’un mètre de la distance moyenne entre les bâtiments et le tronçon de rue, la couverture des arbres sur le tronçon augmente de 0,202 point de pourcentage, toutes choses étant égales par ailleurs.
Paramètre | Coefficient | Erreur type | Valeur de T |
---|---|---|---|
Effets fixes (niveau 1) | |||
Constante | -1 028,618 | 179,736 | 10 801,62 |
Width | -0,129 | 0,013 | 10 754,96 |
Length | 0,011 | 0,002 | 10 733,36 |
AgeMed | 1,103 | 0,186 | 10 801,70 |
AgeMed2 | 0,000 | 0,000 | 10 801,55 |
ResiPCT | 0,047 | 0,003 | 10 804,92 |
DuTriPct | -0,013 | 0,003 | 10 703,76 |
NoLog | 0,147 | 0,011 | 10 797,85 |
Setback | 0,202 | 0,023 | 10 797,86 |
Répartition de la variance | |||
Variance (niveau 1) | 15,263 | ||
Variance (niveau 2) | 80,317 | ||
Coefficient de corrélation intraclasse | 0,160 | ||
Qualité d’ajustement du modèle | |||
AIC | 78 785,827 | ||
R2 marginal | 0,129 | ||
R2 conditionnel | 0,268 |
Remarquez la valeur de la constante : −1028,618. À titre de rappel, la constante est la valeur que prend la variable dépendante quand toutes les variables indépendantes sont égales à 0. Or, il est impossible qu’elles soient toutes égales à zéro.
Centrage des variables quantitatives mesurées au niveau 1
En analyse multiniveau, il est très courant et souvent recommandé de centrer les variables explicatives quantitatives au niveau 1. Deux options sont alors possibles :
- Pour une variable indépendante donnée, les observations sont centrées sur leur moyenne générale, c’est-à-dire la moyenne de l’ensemble des observations du jeu de données, soit \(X_{ij} - \bar{X}\). Dans ce cas, la constante est donc la valeur que prend la variable \(Y\) quand toutes les variables indépendantes sont égales à leur moyenne respective.
- Chaque observation est centrée sur la moyenne de son groupe respectif, soit \(X_{ij} - \bar{X}_{.j}\).
Tel que signalé par Bressoux (2010, 328), « dans le premier cas, la variance des pentes sera estimée pour l’individu moyen dans la distribution générale, tandis que dans le second elle est estimée pour l’individu moyen de chaque groupe ».
Autrement dit, comparativement à un modèle sans centrage, les valeurs des coefficients pour les variables indépendantes sont les mêmes dans le premier cas (seule la valeur de la constante va changer) tandis qu’elles sont différentes dans le second cas.
Attention, il ne faut pas appliquer de centrage sur une variable qualitative, qu’elle soit dichotomique, nominale ou ordinale.
Pourquoi la pratique du centrage en analyse multiniveau est si courante?
Dans la plupart des livres sur les régressions multiniveaux, le centrage est recommandé, notamment dans l’ouvrage classique de Raudenbush et Bryk (2002). Rappelons que ces modèles sont largement utilisés en éducation avec une structure hiérarchique classique élève/école/classe. Nous nous intéressons alors à l’individu moyen (l’élève), ce qui explique que le centrage est habituellement appliqué. Par exemple, ne pas centrer l’âge des élèves fait que la constante qui est obtenue est peu interprétable : difficile d’évaluer la note moyenne à un examen quand la variable âge de l’élève a la valeur de 0, tout comme les autres variables explicatives quantitatives relatives à l’élève.
Centrage et réduction de l’ensemble des variables du modèle
Il est à noter que certains auteurs centrent et réduisent l’ensemble des variables du modèle. À titre de rappel, le centrage consiste à soustraire à chaque valeur la moyenne de la variable; la réduction, à la diviser par l’écart-type de la variable (section 2.5.5.2). Pour chaque variable, la moyenne est alors égale à 0 et l’écart-type à 1. Les coefficients s’interprètent alors en termes d’augmentation d’une unité d’écart-type tant pour la VI que la VD. Ils correspondent alors à des coefficients de régression standardisés (abordés dans la section 7.4.2). Ce processus de centrage et de réduction des variables peut être motivé par des problèmes de convergence du modèle (lorsque l’algorithme d’optimisation n’arrive pas à trouver une solution pour produire les coefficients).
Par conséquent, nous vous proposons de centrer les variables du niveau 1 de notre jeu de données. Si vous comparez les tableaux 10.3 et 10.4, vous constaterez que les valeurs relatives aux coefficients, aux mesures de la répartition de la variance et à la qualité d’ajustement du modèle sont les mêmes. Seule la valeur de la constante change : elle passe de −1028,618 à 7,228. Elle s’interprète désormais de la façon suivante : si toutes les variables explicatives sont égales à leurs moyennes respectives, alors le pourcentage de la superficie du tronçon couverte par des arbres est égal à 7,228 %.
Paramètre | Coefficient | Erreur type | Valeur de T |
---|---|---|---|
Effets fixes (niveau 1) | |||
Constante | 7,228 | 0,248 | 318,313 |
Width.c | -0,129 | 0,013 | 10 754,961 |
Length.c | 0,011 | 0,002 | 10 733,361 |
AgeMed.c | 1,103 | 0,186 | 10 801,399 |
AgeMed2.c | 0,000 | 0,000 | 10 801,243 |
ResiPCT.c | 0,047 | 0,003 | 10 804,923 |
DuTriPct.c | -0,013 | 0,003 | 10 703,746 |
NoLog.c | 0,147 | 0,011 | 10 797,848 |
Setback.c | 0,202 | 0,023 | 10 797,856 |
Répartition de la variance | |||
Variance (niveau 1) | 15,263 | ||
Variance (niveau 2) | 80,317 | ||
Coefficient de corrélation intraclasse | 0,160 | ||
Qualité d’ajustement du modèle | |||
AIC | 78 785,827 | ||
R2 marginal | 0,129 | ||
R2 conditionnel | 0,268 |
10.2.2.3 Modèle complet avec les variables indépendantes aux niveaux 1 et 2
Le troisième type de modèle consiste à introduire à la fois les variables explicatives mesurées au niveau 1 et au niveau 2 (équation (10.4)). Il est communément appelé le modèle complet. Les variables explicatives du niveau 2 sont aussi considérées comme des effets fixes.
\[\begin{equation} \begin{aligned} &Y \sim Normal(\mu,\sigma_e)\\ &g(\mu) = \underbrace{\beta_0 + \beta_1 x_1}_{\mbox{effets fixes (niveau 1)}}+ \underbrace{\beta_2 z_2}_{\mbox{effets fixes (niveau 2)}}+\epsilon \\ &\upsilon \sim Normal(0, \sigma_{\upsilon}) \\ &g(x) = x \end{aligned} \tag{10.4} \end{equation}\]
Les résultats du troisième modèle sont présentés au tableau 10.5. Ce modèle permet d’évaluer les effets des caractéristiques socioéconomiques (mesurés au niveau des secteurs de recensement) sur la couverture des arbres des îlots, une fois contrôlées les caractéristiques de la forme urbaine des tronçons. Rappelons, que dans ce modèle, les constantes sont aléatoires et les variables indépendantes au niveau 1 sont centrées.
Quelles informations peut-on tirer des coefficients de régression du niveau 2? D’emblée, deux caractéristiques n’ont pas d’effet significatif sur la variable dépendante, soit les pourcentages de diplômés universitaires et de ménages avec enfants. Par contre, toutes choses étant égales par ailleurs, la valeur moyenne des logements et le pourcentage d’immigrants récents sont associés à une augmentation de la couverture végétale. À l’inverse, le pourcentage de personnes à faible revenu est associé à une diminution de la couverture végétale.
Paramètre | Coefficient | Erreur type | Valeur de T |
---|---|---|---|
Effets fixes (niveau 1 : tronçons) | |||
Constante | -0,518 | 3,227 | 313,586 |
Width.c | -0,132 | 0,013 | 10 762,184 |
Length.c | 0,011 | 0,002 | 10 728,713 |
AgeMed.c | 1,097 | 0,185 | 10 783,964 |
AgeMed2.c | 0,000 | 0,000 | 10 782,352 |
ResiPCT.c | 0,046 | 0,003 | 10 778,050 |
DuTriPct.c | -0,013 | 0,003 | 10 608,724 |
NoLog.c | 0,148 | 0,011 | 10 793,143 |
Setback.c | 0,194 | 0,023 | 10 793,303 |
Effets fixes (niveau 2 : secteurs de recensement) | |||
ValLog | 0,016 | 0,004 | 312,695 |
UDipPCT | 0,014 | 0,035 | 329,191 |
PCTFRAVI | -0,088 | 0,030 | 328,151 |
PCTIMGRE | 0,237 | 0,049 | 321,723 |
AvecEnf | 0,001 | 0,032 | 314,079 |
FranPCT | 0,052 | 0,016 | 316,295 |
Répartition de la variance | |||
Variance (niveau 1) | 12,121 | ||
Variance (niveau 2) | 80,347 | ||
Coefficient de corrélation intraclasse | 0,131 | ||
Qualité d’ajustement du modèle | |||
AIC | 78 776,845 | ||
R2 marginal | 0,160 | ||
R2 conditionnel | 0,270 |
10.2.2.4 Modèle avec une interaction entre deux niveaux
Dans la section 7.5.4, nous avons vu comment introduire des variables d’interaction dans une régression linéaire multiple, soit entre deux variables continues (section 7.5.4.1), soit entre une variable continue et une variable dichotomique (section 7.5.4.2), soit entre deux variables dichotomiques (section 7.5.4.3). En analyse multiniveau, il peut être pertinent d’introduire une interaction entre une variable mesurée au niveau 1 et une autre mesurée au niveau 2 (équation (10.5)).
\[\begin{equation} \begin{aligned} &Y \sim Normal(\mu,\sigma_e)\\ &g(\mu) = \underbrace{\beta_0 + \beta_1 x_1}_{\mbox{effets fixes (niv. 1)}}+ \underbrace{\beta_2 z_2}_{\mbox{effets fixes (niv. 2)}}+ \underbrace{\beta_3 (x_1 \times z_2)}_{\mbox{interaction (niv. 1 et 2)}}+ \epsilon \\ &\upsilon \sim Normal(0, \sigma_{\upsilon})) \\ &g(x) = x \end{aligned} \tag{10.5} \end{equation}\]
Dans le tableau 10.6, nous introduisons une variable d’interaction entre la distance entre le bâtiment et la rue (Setback.c
) et le pourcentage de personnes à faible revenu (PCTFRAVI
). On constate alors que PCTFRAVI
est associé négativement avec la variable dépendante (\(\beta =\) −0,079, t = −2,684). Toutefois, lorsqu’elle est mise en interaction avec la variable Setback.c
, cette variable est significative et positive (\(\beta =\) 0,008, t = 4,591).
Paramètre | Coefficient | Erreur type | Valeur de T |
---|---|---|---|
Effets fixes (niveau 1 : tronçons) | |||
Constante | -0,009 | 3,198 | 313,170 |
Width.c | -0,136 | 0,013 | 10 763,142 |
Length.c | 0,011 | 0,002 | 10 730,154 |
AgeMed.c | 1,092 | 0,185 | 10 781,042 |
AgeMed2.c | 0,000 | 0,000 | 10 779,197 |
ResiPCT.c | 0,046 | 0,003 | 10 778,148 |
DuTriPct.c | -0,013 | 0,003 | 10 592,140 |
NoLog.c | 0,145 | 0,011 | 10 793,158 |
Setback.c | 0,003 | 0,048 | 10 757,245 |
Effets fixes (niveau 2 : secteurs de recensement) | |||
ValLog | 0,016 | 0,004 | 311,944 |
UDipPCT | 0,009 | 0,035 | 328,840 |
PCTFRAVI | -0,079 | 0,029 | 332,194 |
PCTIMGRE | 0,219 | 0,048 | 326,135 |
AvecEnf | -0,007 | 0,032 | 313,551 |
FranPCT | 0,050 | 0,016 | 316,142 |
Variable d’interaction (niv. 1 et 2) | |||
Setback X PCTFRAVI | 0,008 | 0,002 | 10 470,185 |
Répartition de la variance | |||
Variance (niveau 1) | 11,829 | ||
Variance (niveau 2) | 80,239 | ||
Coefficient de corrélation intraclasse | 0,128 | ||
Qualité d’ajustement du modèle | |||
AIC | 78 768,659 | ||
R2 marginal | 0,163 | ||
R2 conditionnel | 0,270 |