10.2 Différents types de modèles multiniveaux

10.2.1 Description du jeu de données utilisé

Dans le cadre de cette section, nous présentons uniquement les modèles à deux niveaux, soit celui pour modéliser un phénomène \(y_{ij}\). Pour ce faire, nous utilisons des données tirées d’une étude de Pham et al. (2017). Dans cet article, les auteurs souhaitent évaluer les effets des caractéristiques de la forme urbaine et des caractéristiques socioéconomiques sur la couverture des arbres de rue, et ce, à partir d’un modèle multiniveau. Ils disposent ainsi d’une structure hiérarchique de données avec deux niveaux : les tronçons de rue (niveau 1, n = 10 814) inclus dans un et un seul secteur de recensement (niveau 2, n = 312). La variable dépendante (\(y_{ij}\)) est le pourcentage de la superficie du tronçon de rue qui est couverte par des arbres, calculé à partir d’images satellites à haute résolution (Quickbird, 60 cm, septembre 2008). L’ensemble des variables utilisées pour les modèles sont reportées au tableau 10.1.

Sept variables indépendantes relatives à la forme urbaine sont mesurées pour les tronçons de rue, soit la largeur et la longueur de la rue, l’âge médian des bâtiments (introduit également au carré pour vérifier l’existence d’un effet curvilinéaire; voir la section 7.5.1.1), les pourcentages de bâtiments résidentiels, de duplex et de triplex, le nombre de bâtiments et finalement la distance moyenne entre le bâtiment et la rue. Les variables indépendantes pour les 312 secteurs de recensement (niveau 2) sont extraites du recensement canadien de 2006 (tableau 10.1).

Tableau 10.1: Statistiques descriptives pour les variables des modèles multiniveaux
Nom Intitulé Type Niveau Moy. Écart type
PCTArb Arbres sur le tronçon de rue (%) VD 1 7,2 10,7
Width Largeur des rues VI 1 16,0 7,3
Length Longueur de rues VI 1 136,0 87,8
AgeMed Age médian des bâtiments VI 1 1 952,7 28,3
ResiPCT Bâtiments résidentiels (%) VI 1 83,5 28,0
DuTriPct Duplex ou triplex (%) VI 1 41,8 39,3
NoLog Nombre de bâtiments VI 1 14,0 14,4
Setback Distance entre le bâtiment et la rue VI 1 7,2 4,3
ValLog Valeur moyenne des logements (milliers de dollars) VI 2 267,6 80,0
UDipPCT Diplômés universitaires (%) VI 2 16,9 9,6
PCTFRAVI Personnes à faible revenu (%) VI 2 30,3 11,5
PCTIMGRE Immigrants récents (%) VI 2 10,0 7,3
AvecEnf Ménages avec enfants (%) VI 2 34,8 12,6
FranPCT Langue maternelle française (%) VI 2 66,9 24,1

10.2.2 Démarche classique pour les modèles multiniveaux

La démarche habituelle en analyse multiniveau est de réaliser plusieurs modèles, allant du plus simple au plus complexe. Cette stratégie permet habituellement de bien cerner la répartition de la variance entre les différents niveaux et l’apport des variables explicatives introduites aux différents niveaux. De la sorte, cinq types de modèles peuvent être construits :

  1. Le modèle vide (appelé aussi modèle inconditionnel) qui comprend des constantes aléatoires au niveau 2, mais aucune variable explicative.
  2. Le modèle avec uniquement les variables indépendantes au niveau 1 et des constantes aléatoires au niveau 2.
  3. Le modèle complet avec les variables indépendantes aux deux niveaux et des constantes aléatoires.
  4. Le modèle complet avec les variables indépendantes aux deux niveaux, incluant une interaction entre une variable indépendante mesurée au niveau 1 et une autre mesurée au niveau 2.
  5. Le modèle avec les variables indépendantes aux deux niveaux et des constantes et pentes aléatoires.

Dans les sous-sections suivantes, nous détaillons chacun de ces cinq modèles en prenant soin de montrer les similitudes qu’ils partagent avec les modèles à effets mixtes vus précédemment. Notez d’emblée que les trois premiers modèles sont les plus fréquemment utilisés.

10.2.2.1 Modèle vide

Comme son nom l’indique, le modèle vide ne comprend aucune variable explicative. Il consiste simplement à faire varier la constante du niveau 1 avec des effets aléatoires au niveau 2, ce qui explique qu’il est souvent comparé à une ANOVA avec des effets aléatoires. En d’autres termes, ce modèle correspond à un GLMM avec constantes aléatoires dans lequel aucune variable indépendante n’est incluse au niveau 1. D’ailleurs, si vous comparez l’équation (10.1) avec l’équation (9.2) au chapitre précédent, vous constaterez que seul le paramètre \(\beta_1 x_1\) a été ôté et qu’il comprend aussi deux variances : l’une fixe au niveau 1 (\(\sigma_e\)) et l’autre aléatoire (stochastique) au niveau 2 (\(\sigma_{\upsilon}\)).

\[\begin{equation} \begin{aligned} &Y \sim Normal(\mu,\sigma_e)\\ &g(\mu) = \beta_0 + \upsilon \\ &\upsilon \sim Normal(0, \sigma_{\upsilon}) \\ &g(x) = x \end{aligned} \tag{10.1} \end{equation}\]

Quel est alors l’intérêt de réaliser un modèle si simple? À partir des deux variances, il est possible de calculer le coefficient de corrélation intraclasse (intraclass-correlation (ICC) en anglais) qui est le rapport entre la variance aléatoire et la somme des variances des deux niveaux, soit fixe et aléatoire (équation (10.2)). Ce coefficient varie ainsi de 0 à 1 et indique la proportion de la variance de la variable dépendante qui est imputable au niveau 2. Tous(tes) les auteur(e)s s’entendent sur le fait qu’il est impératif de commencer une analyse de multiniveau en calculant ce modèle vide qui nous informe de la répartition de la variance entre les deux niveaux (Raudenbush et Bryk 2002; Gelman et Hill 2006; Tabachnick, Fidell et Ullman 2007; Bressoux 2010). Nous pourrons ensuite analyser l’évolution de ce coefficient dans les modèles subséquents.

\[\begin{equation} \rho = \frac{\sigma_{\upsilon}}{\sigma_{\upsilon} + \sigma_{e}} \tag{10.2} \end{equation}\]

Les résultats du modèle vide (inconditionnel) à partir des données de Pham et al. (2017) sont présentés au tableau 10.2. La variance du niveau 1 est de 92,93 contre 19,82 au niveau 2. Le coefficient de corrélation intraclasse vaut alors : \(\mbox{19,82} / \mbox{(19,82} + \mbox{92,93}) = \mbox{0,1758}\). Cela signifie que 18 % de la variance de la variable dépendante sont imputables au niveau 2 (des secteurs de recensement) et 82 % au niveau 1 (des tronçons). Nous verrons comment évolue ce coefficient dans les modèles subséquents.

Tableau 10.2: Résultats du modèle vide (modèle 1)
Paramètre Coefficient Erreur type Valeur de T
Effets fixes (niveau 1)
Constante 7,337 0,277 314,918
Répartition de la variance
Variance (niveau 1) 19,818
Variance (niveau 2) 92,925
Coefficient de corrélation intraclasse 0,176
Qualité d’ajustement du modèle
AIC 80 305,219
R2 marginal 0,000
R2 conditionnel 0,176

10.2.2.2 Modèle avec les variables indépendantes du niveau 1

Dans ce second modèle, nous introduisons uniquement les variables explicatives au niveau 1. Par conséquent, ce modèle est tout simplement un modèle à effets mixtes (GLMM) avec des constantes aléatoires largement décrit à la section 9.2.1). Si vous comparez l’équation du modèle vide (équation (10.2)) avec l’équation de ce modèle (équation (10.3)), vous constaterez que le paramètre \(\beta_1 x_1\) a été ajouté. Il correspond au coefficient pour la variable indépendante \(X_1\) mesurée au niveau 1 (effet fixe). Nous pourrions alors ajouter d’autres paramètres pour les autres variables indépendantes du modèle, soit \(\beta_1 x_1 + \beta_2 x_2+ \ldots + \beta_k x_k\) (\(k\) étant le nombre de variables explicatives mesurées au niveau 1, effets fixes).

\[\begin{equation} \begin{aligned} &Y \sim Normal(\mu,\sigma_e)\\ &g(\mu) = \beta_0 + \beta_1 x_1 + \upsilon \\ &\upsilon \sim Normal(0, \sigma_{\upsilon})) \\ &g(x) = x \end{aligned} \tag{10.3} \end{equation}\]

Les résultats du second modèle sont présentés au tableau 10.3.

La répartition de la variance entre les deux niveaux. La variance du niveau 1 est désormais de 15,263 contre 80,317 au niveau 2, ce qui permet d’obtenir un coefficient de corrélation intraclasse de 0,1597. Cela signifie que de 16 % de la variance de la variable dépendante sont imputables au niveau 2 (des secteurs de recensement), une fois contrôlées les caractéristiques des tronçons.

La qualité d’ajustement du modèle. Dans le chapitre précédent sur les GLMM, nous avons largement décrit plusieurs mesures de la qualité d’ajustement du modèle, notamment l’AIC et les R2 marginal et conditionnel. À titre de rappel, voici comment interpréter ces mesures :

  • Plus la valeur de l’AIC est faible, mieux le modèle est ajusté. En comparant les valeurs d’AIC du modèle vide et du modèle avec les variables explicatives du niveau 1 (80 305 versus 78 785), nous constatons, sans surprise, que ce dernier modèle est plus performant.

  • Le R2 marginal indique la proportion de la variance expliquée uniquement si les effets fixes sont pris en compte (ici, 0,129). Quant au R2 conditionnel, il indique la proportion de la variance expliquée à la fois par les effets fixes et aléatoires (ici, 0,268). L’écart important entre les deux R2 signale que les secteurs de recensement (effets aléatoires, niveau 2) jouent un rôle important dans le modèle.

Quelles informations peut-on tirer des coefficients de régression? Les variables indépendantes relatives à la forme urbaine les plus importantes sont : le pourcentage de bâtiments résidentiels (ResiPCT), la largeur de la rue (Width) et le nombre de bâtiments (NoLog). Aussi, la distance entre le bâtiment et la rue (Setback) est associée positivement avec la variable dépendante. En effet, à chaque ajout d’un mètre de la distance moyenne entre les bâtiments et le tronçon de rue, la couverture des arbres sur le tronçon augmente de 0,202 point de pourcentage, toutes choses étant égales par ailleurs.

Tableau 10.3: Résultats du modèle avec les variables indépendantes au niveau 1 (modèle 2)
Paramètre Coefficient Erreur type Valeur de T
Effets fixes (niveau 1)
Constante -1 028,618 179,736 10 801,62
Width -0,129 0,013 10 754,96
Length 0,011 0,002 10 733,36
AgeMed 1,103 0,186 10 801,70
AgeMed2 0,000 0,000 10 801,55
ResiPCT 0,047 0,003 10 804,92
DuTriPct -0,013 0,003 10 703,76
NoLog 0,147 0,011 10 797,85
Setback 0,202 0,023 10 797,86
Répartition de la variance
Variance (niveau 1) 15,263
Variance (niveau 2) 80,317
Coefficient de corrélation intraclasse 0,160
Qualité d’ajustement du modèle
AIC 78 785,827
R2 marginal 0,129
R2 conditionnel 0,268

Remarquez la valeur de la constante : −1028,618. À titre de rappel, la constante est la valeur que prend la variable dépendante quand toutes les variables indépendantes sont égales à 0. Or, il est impossible qu’elles soient toutes égales à zéro.

Centrage des variables quantitatives mesurées au niveau 1

En analyse multiniveau, il est très courant et souvent recommandé de centrer les variables explicatives quantitatives au niveau 1. Deux options sont alors possibles :

  1. Pour une variable indépendante donnée, les observations sont centrées sur leur moyenne générale, c’est-à-dire la moyenne de l’ensemble des observations du jeu de données, soit \(X_{ij} - \bar{X}\). Dans ce cas, la constante est donc la valeur que prend la variable \(Y\) quand toutes les variables indépendantes sont égales à leur moyenne respective.
  2. Chaque observation est centrée sur la moyenne de son groupe respectif, soit \(X_{ij} - \bar{X}_{.j}\).

Tel que signalé par Bressoux (2010, 328), « dans le premier cas, la variance des pentes sera estimée pour l’individu moyen dans la distribution générale, tandis que dans le second elle est estimée pour l’individu moyen de chaque groupe ».

Autrement dit, comparativement à un modèle sans centrage, les valeurs des coefficients pour les variables indépendantes sont les mêmes dans le premier cas (seule la valeur de la constante va changer) tandis qu’elles sont différentes dans le second cas.

Attention, il ne faut pas appliquer de centrage sur une variable qualitative, qu’elle soit dichotomique, nominale ou ordinale.

Pourquoi la pratique du centrage en analyse multiniveau est si courante?

Dans la plupart des livres sur les régressions multiniveaux, le centrage est recommandé, notamment dans l’ouvrage classique de Raudenbush et Bryk (2002). Rappelons que ces modèles sont largement utilisés en éducation avec une structure hiérarchique classique élève/école/classe. Nous nous intéressons alors à l’individu moyen (l’élève), ce qui explique que le centrage est habituellement appliqué. Par exemple, ne pas centrer l’âge des élèves fait que la constante qui est obtenue est peu interprétable : difficile d’évaluer la note moyenne à un examen quand la variable âge de l’élève a la valeur de 0, tout comme les autres variables explicatives quantitatives relatives à l’élève.

Centrage et réduction de l’ensemble des variables du modèle

Il est à noter que certains auteurs centrent et réduisent l’ensemble des variables du modèle. À titre de rappel, le centrage consiste à soustraire à chaque valeur la moyenne de la variable; la réduction, à la diviser par l’écart-type de la variable (section 2.5.5.2). Pour chaque variable, la moyenne est alors égale à 0 et l’écart-type à 1. Les coefficients s’interprètent alors en termes d’augmentation d’une unité d’écart-type tant pour la VI que la VD. Ils correspondent alors à des coefficients de régression standardisés (abordés dans la section 7.4.2). Ce processus de centrage et de réduction des variables peut être motivé par des problèmes de convergence du modèle (lorsque l’algorithme d’optimisation n’arrive pas à trouver une solution pour produire les coefficients).

Par conséquent, nous vous proposons de centrer les variables du niveau 1 de notre jeu de données. Si vous comparez les tableaux 10.3 et 10.4, vous constaterez que les valeurs relatives aux coefficients, aux mesures de la répartition de la variance et à la qualité d’ajustement du modèle sont les mêmes. Seule la valeur de la constante change : elle passe de −1028,618 à 7,228. Elle s’interprète désormais de la façon suivante : si toutes les variables explicatives sont égales à leurs moyennes respectives, alors le pourcentage de la superficie du tronçon couverte par des arbres est égal à 7,228 %.

Tableau 10.4: Résultats du modèle avec les variables indépendantes centrées au niveau 1 (modèle 2)
Paramètre Coefficient Erreur type Valeur de T
Effets fixes (niveau 1)
Constante 7,228 0,248 318,313
Width.c -0,129 0,013 10 754,961
Length.c 0,011 0,002 10 733,361
AgeMed.c 1,103 0,186 10 801,399
AgeMed2.c 0,000 0,000 10 801,243
ResiPCT.c 0,047 0,003 10 804,923
DuTriPct.c -0,013 0,003 10 703,746
NoLog.c 0,147 0,011 10 797,848
Setback.c 0,202 0,023 10 797,856
Répartition de la variance
Variance (niveau 1) 15,263
Variance (niveau 2) 80,317
Coefficient de corrélation intraclasse 0,160
Qualité d’ajustement du modèle
AIC 78 785,827
R2 marginal 0,129
R2 conditionnel 0,268

10.2.2.3 Modèle complet avec les variables indépendantes aux niveaux 1 et 2

Le troisième type de modèle consiste à introduire à la fois les variables explicatives mesurées au niveau 1 et au niveau 2 (équation (10.4)). Il est communément appelé le modèle complet. Les variables explicatives du niveau 2 sont aussi considérées comme des effets fixes.

\[\begin{equation} \begin{aligned} &Y \sim Normal(\mu,\sigma_e)\\ &g(\mu) = \underbrace{\beta_0 + \beta_1 x_1}_{\mbox{effets fixes (niveau 1)}}+ \underbrace{\beta_2 z_2}_{\mbox{effets fixes (niveau 2)}}+\epsilon \\ &\upsilon \sim Normal(0, \sigma_{\upsilon}) \\ &g(x) = x \end{aligned} \tag{10.4} \end{equation}\]

Les résultats du troisième modèle sont présentés au tableau 10.5. Ce modèle permet d’évaluer les effets des caractéristiques socioéconomiques (mesurés au niveau des secteurs de recensement) sur la couverture des arbres des îlots, une fois contrôlées les caractéristiques de la forme urbaine des tronçons. Rappelons, que dans ce modèle, les constantes sont aléatoires et les variables indépendantes au niveau 1 sont centrées.

Quelles informations peut-on tirer des coefficients de régression du niveau 2? D’emblée, deux caractéristiques n’ont pas d’effet significatif sur la variable dépendante, soit les pourcentages de diplômés universitaires et de ménages avec enfants. Par contre, toutes choses étant égales par ailleurs, la valeur moyenne des logements et le pourcentage d’immigrants récents sont associés à une augmentation de la couverture végétale. À l’inverse, le pourcentage de personnes à faible revenu est associé à une diminution de la couverture végétale.

Tableau 10.5: Résultats du modèle avec les variables indépendantes aux niveaux 1 et 2 (modèle 3)
Paramètre Coefficient Erreur type Valeur de T
Effets fixes (niveau 1 : tronçons)
Constante -0,518 3,227 313,586
Width.c -0,132 0,013 10 762,184
Length.c 0,011 0,002 10 728,713
AgeMed.c 1,097 0,185 10 783,964
AgeMed2.c 0,000 0,000 10 782,352
ResiPCT.c 0,046 0,003 10 778,050
DuTriPct.c -0,013 0,003 10 608,724
NoLog.c 0,148 0,011 10 793,143
Setback.c 0,194 0,023 10 793,303
Effets fixes (niveau 2 : secteurs de recensement)
ValLog 0,016 0,004 312,695
UDipPCT 0,014 0,035 329,191
PCTFRAVI -0,088 0,030 328,151
PCTIMGRE 0,237 0,049 321,723
AvecEnf 0,001 0,032 314,079
FranPCT 0,052 0,016 316,295
Répartition de la variance
Variance (niveau 1) 12,121
Variance (niveau 2) 80,347
Coefficient de corrélation intraclasse 0,131
Qualité d’ajustement du modèle
AIC 78 776,845
R2 marginal 0,160
R2 conditionnel 0,270

10.2.2.4 Modèle avec une interaction entre deux niveaux

Dans la section 7.5.4, nous avons vu comment introduire des variables d’interaction dans une régression linéaire multiple, soit entre deux variables continues (section 7.5.4.1), soit entre une variable continue et une variable dichotomique (section 7.5.4.2), soit entre deux variables dichotomiques (section 7.5.4.3). En analyse multiniveau, il peut être pertinent d’introduire une interaction entre une variable mesurée au niveau 1 et une autre mesurée au niveau 2 (équation (10.5)).

\[\begin{equation} \begin{aligned} &Y \sim Normal(\mu,\sigma_e)\\ &g(\mu) = \underbrace{\beta_0 + \beta_1 x_1}_{\mbox{effets fixes (niv. 1)}}+ \underbrace{\beta_2 z_2}_{\mbox{effets fixes (niv. 2)}}+ \underbrace{\beta_3 (x_1 \times z_2)}_{\mbox{interaction (niv. 1 et 2)}}+ \epsilon \\ &\upsilon \sim Normal(0, \sigma_{\upsilon})) \\ &g(x) = x \end{aligned} \tag{10.5} \end{equation}\]

Dans le tableau 10.6, nous introduisons une variable d’interaction entre la distance entre le bâtiment et la rue (Setback.c) et le pourcentage de personnes à faible revenu (PCTFRAVI). On constate alors que PCTFRAVI est associé négativement avec la variable dépendante (\(\beta =\) −0,079, t = −2,684). Toutefois, lorsqu’elle est mise en interaction avec la variable Setback.c, cette variable est significative et positive (\(\beta =\) 0,008, t = 4,591).

Tableau 10.6: Résultats du modèle avec une variable d’interaction entre les deux niveaux 1 et 2 (modèle 4)
Paramètre Coefficient Erreur type Valeur de T
Effets fixes (niveau 1 : tronçons)
Constante -0,009 3,198 313,170
Width.c -0,136 0,013 10 763,142
Length.c 0,011 0,002 10 730,154
AgeMed.c 1,092 0,185 10 781,042
AgeMed2.c 0,000 0,000 10 779,197
ResiPCT.c 0,046 0,003 10 778,148
DuTriPct.c -0,013 0,003 10 592,140
NoLog.c 0,145 0,011 10 793,158
Setback.c 0,003 0,048 10 757,245
Effets fixes (niveau 2 : secteurs de recensement)
ValLog 0,016 0,004 311,944
UDipPCT 0,009 0,035 328,840
PCTFRAVI -0,079 0,029 332,194
PCTIMGRE 0,219 0,048 326,135
AvecEnf -0,007 0,032 313,551
FranPCT 0,050 0,016 316,142
Variable d’interaction (niv. 1 et 2)
Setback X PCTFRAVI 0,008 0,002 10 470,185
Répartition de la variance
Variance (niveau 1) 11,829
Variance (niveau 2) 80,239
Coefficient de corrélation intraclasse 0,128
Qualité d’ajustement du modèle
AIC 78 768,659
R2 marginal 0,163
R2 conditionnel 0,270

Références

Bressoux, Pascal. 2010. Modélisation statistique appliquée aux sciences sociales. De boeck.
Gelman, Andrew et Jennifer Hill. 2006. Data analysis using regression and multilevel/hierarchical models. Cambridge university press.
Pham, Thi-Thanh-Hien, Philippe Apparicio, Shawn Landry et Joseph Lewnard. 2017. « Disentangling the effects of urban form and socio-demographic context on street tree cover: A multi-level analysis from Montréal. » Landscape and Urban Planning 157: 422‑433. http://dx.doi.org/10.1016/j.landurbplan.2016.09.001.
Raudenbush, Stephen W et Anthony S Bryk. 2002. Hierarchical linear models: Applications and data analysis methods. Vol. 1. Sage.
Tabachnick, Barbara G, Linda S Fidell et Jodie B Ullman. 2007. Using multivariate statistics. Pearson.