7.4 Différentes mesures pour les coefficients de régression

La fonction summary(nom du modèle) permet d’obtenir les résultats du modèle de régression. D’emblée, signalons que le modèle est globalement significatif (F(6,10203) = 1123, p = 0,000) avec un R2 de 0,4182 indiquant que les variables indépendantes du modèle expliquent 41,82nbsp;% de la variance du pourcentage de végétation dans les îlots de l’île de Montréal.

modelereg <- lm(VegPct ~ HABHA+AgeMedian+Pct_014+Pct_65P+Pct_MV+Pct_FR, data = DataFinal)
summary(modelereg)
## 
## Call:
## lm(formula = VegPct ~ HABHA + AgeMedian + Pct_014 + Pct_65P + 
##     Pct_MV + Pct_FR, data = DataFinal)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -48.876  -9.757  -0.232   9.499 103.830 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 26.355774   0.882235  29.874   <2e-16 ***
## HABHA       -0.070401   0.002202 -31.975   <2e-16 ***
## AgeMedian    0.010790   0.006369   1.694   0.0902 .  
## Pct_014      1.084478   0.032179  33.702   <2e-16 ***
## Pct_65P      0.400531   0.018835  21.265   <2e-16 ***
## Pct_MV      -0.031112   0.010406  -2.990   0.0028 ** 
## Pct_FR      -0.348256   0.011640 -29.918   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 14.16 on 10203 degrees of freedom
## Multiple R-squared:  0.4182, Adjusted R-squared:  0.4179 
## F-statistic:  1223 on 6 and 10203 DF,  p-value: < 2.2e-16

7.4.1 Coefficients de régression : évaluer l’effet des variables indépendantes

Les différents résultats pour les coefficients sont reportés au tableau 7.2.

La constante (\(\beta_0\)) est la valeur attendue de la variable dépendante (Y) quand les valeurs de toutes les variables indépendantes sont égales à 0. Pour ce modèle, quand les variables indépendantes sont égales à 0, plus du quart de la superficie des îlots serait en moyenne couverte par de la végétation (\(\beta_0\) = 26,36). Notez que la constante n’a pas toujours une interprétation pratique. Il est par exemple très invraisemblable de trouver un îlot avec de la population dans lequel il n’y aurait aucune personne à faible revenu, aucune personne ne déclarant appartenir à une minorité visible, aucun enfant de moins de 15 ans et aucune personne âgée 65 ans et plus. La constante a donc avant tout un rôle mathématique dans le modèle.

Le coefficient de régression (\(\beta_1\) à \(\beta_k\)) indique le changement de la variable dépendante (Y) lorsque la variable indépendante augmente d’une unité, toutes choses étant égales par ailleurs. Il permet ainsi d’évaluer l’effet d’une augmentation d’une unité dans laquelle est mesurée la VI sur la VD.

Que signifie l’expression toutes choses étant égales par ailleurs pour un coefficient de régression?

Après l’apprentissage du grec, grâce aux nombreuses équations intégrées au livre, passons au latin! L’expression toutes choses étant égales par ailleurs vient du latin ceteris paribus, à ne pas confondre avec c’est terrible Paris en bus (petite blague formulée par un étudiant ayant suivi le cours Méthodes quantitatives appliquées en études urbaines à l’INRS il y a quelques années)! Certains auteurs emploient encore ceteris paribus : il est donc possible que vous la retrouviez dans un article scientifique…

Plus sérieusement, l’expression toutes choses étant égales par ailleurs signifie que l’on estime l’effet de la variable indépendante sur la variable dépendante, si toutes les autres variables indépendantes restent constantes ou autrement dit, une fois contrôlés tous les autres prédicteurs.

Tableau 7.2: Différentes mesures pour les coefficients
Variable Coef. Erreur type Valeur de T P coef. 2,5 % coef. 97,5 %
Constante 26,356 0,882 29,870 0,000 24,626 28,085 ***
HABHA -0,070 0,002 -31,970 0,000 -0,075 -0,066 ***
AgeMedian 0,011 0,006 1,690 0,090 -0,002 0,023 .
Pct_014 1,084 0,032 33,700 0,000 1,021 1,148 ***
Pct_65P 0,401 0,019 21,260 0,000 0,364 0,437 ***
Pct_MV -0,031 0,010 -2,990 0,003 -0,052 -0,011 **
Pct_FR -0,348 0,012 -29,920 0,000 -0,371 -0,325 ***

À partir des coefficients du tableau 7.2, l’équation du modèle de régression s’écrit alors comme suit :

VegPct = 26,356 − 0,070 HABHA + 0,011 AgeMedian + 1,084 Pct_014 + 0,401 Pct_65P −0,031 Pct_MV − 0,348 Pct_FR + e

Comment interpréter un coefficient de régression pour une variable indépendante?

Le signe du coefficient de régression indique si la variable indépendante est associée positivement ou négativement avec la variable dépendante. Par exemple, plus la densité de population est importante à travers les îlots de l’île de Montréal, plus la couverture végétale diminue.

Quant à la valeur absolue du coefficient, elle indique la taille de l’effet du prédicteur. Par exemple, 1,084 signifie que si toutes les autres variables indépendantes restent constantes, alors le pourcentage de végétation dans l’îlot augmente de 1,084 points de pourcentage pour chaque différence d’un point de pourcentage d’enfants de moins de 15 ans. Toutes choses étant égales par ailleurs, une augmentation de 10nbsp;% d’enfants dans un îlot entraîne alors une hausse de 10,8nbsp;% de la couverture végétale dans l’îlot.

L’analyse des coefficients montre ainsi qu’une fois contrôlées les deux caractéristiques relatives à la forme urbaine (densité de population et âge médian des bâtiments), plus les pourcentages d’enfants et de personnes âgées sont élevés, plus la couverture végétale de l’îlot est importante (B = 1,084 et 0,401), toutes choses étant égales par ailleurs. À l’inverse, de plus grands pourcentages de personnes à faible revenu et de minorités sont associés à une plus faible couverture végétale (B = −0,348 et −0,031).

L’erreur type du coefficient de régression

L’erreur type d’un coefficient permet d’évaluer son niveau de précision, soit le degré d’incertitude vis-à-vis du coefficient. Succinctement, elle correspond à l’écart-type de l’estimation (coefficient); elle est ainsi toujours positive. Plus la valeur de l’erreur type est faible, plus l’estimation du coefficient est précise. Notez toutefois qu’il n’est pas judicieux de comparer les erreurs types des coefficients pour des variables exprimées dans des unités de mesure différentes.

Comme nous le verrons plus loin, l’utilité principale de l’erreur type est qu’elle permet de calculer la valeur de t et l’intervalle de confiance du coefficient de régression.

7.4.2 Coefficients de régression standardisés : repérer les variables les plus importantes du modèle

Un coefficient de régression est exprimé dans les unités de mesure des variables indépendante (VI) et dépendante (VD) : une augmentation d’une unité de la VI a un effet de \(\beta\) (valeur de coefficient) unité de mesure sur la VD, toutes choses étant égales par ailleurs. Prenons l’exemple d’un modèle fictif dans lequel une variable indépendante mesurée en mètres obtient un coefficient de régression de 0,000502. Si cette variable était exprimée en kilomètres et non en mètres, son coefficient serait alors de 0,502 (\(0,000502 \times 1000 = 0,502\)). Cela explique que pour certaines variables, il est souvent préférable de modifier l’unité de mesure, particulièrement pour les variables de distance ou de revenu. Par exemple, dans un modèle de régression, nous introduisons habituellement une variable de revenu par tranche de mille dollars ou le loyer mensuel par tranche de cent dollars, puisque les coefficients du revenu ou de loyer exprimé en dollars risquent d’être extrêmement faibles. Concrètement, cela signifie que nous divisons la variable revenu par 1000 et celle du loyer par 100 avant de l’introduire dans le modèle.

Du fait de leur unités de mesure souvent différentes, vous aurez compris que nous ne pouvons pas comparer directement les coefficients de régression afin de repérer la ou les variables indépendantes (X) qui ont les effets (impacts) les plus importants sur la variable dépendante (Y). Pour remédier à ce problème, nous utilisons les coefficients de régression standardisés. Ces coefficients standardisés sont simplement les valeurs de coefficients de régression qui seraient obtenus si toutes les variables du modèle (VD et VI) étaient préalablement centrées réduites (soit avec une moyenne égale à 0 et un écart-type égal à 1; consultez la section 2.5.5.2 pour un rappel). Puisque toutes les variables du modèle sont exprimées en écarts-types, les coefficients standardisés permettent ainsi d’évaluer l’effet relatif des VI sur la VD. Cela permet ainsi de repérer la ou les variables les plus « importantes » du modèle.

L’interprétation d’un coefficient de régression standardisé est donc la suivante : il indique le changement en termes d’unités d’écart-type de la variable dépendante (Y) à chaque ajout d’un écart-type de la variable indépendante, toutes choses étant égales par ailleurs.

Le coefficient de régression standardisé peut être aussi facilement calculé en utilisant les écarts-types des deux variables VI et VD :

\[\begin{equation} \beta_{z}= \beta \frac{s_x}{s_y} \tag{7.14} \end{equation}\]

La syntaxe R ci-dessous illustre trois façons d’obtenir les coefficients standardisés :

  • en centrant et réduisant préalablement les variables avec la fonction scale avant de construire le modèle avec la fonction lm;
  • en calculant les écarts-types de VD et de VI et en appliquant l’équation (7.14);
  • avec la fonction lm.beta du package QuantPsyc. Cette dernière méthode est moins « verbeuse » (deux lignes de code uniquement), mais nécessite de charger un package supplémentaire.
# Modèle de régression
Modele1 <- lm(VegPct ~ HABHA+AgeMedian+Pct_014+Pct_65P+Pct_MV+Pct_FR, data = DataFinal)

#  Méthode 1 : lm sur des variables centrées réduites
ModeleZ <- lm(scale(VegPct) ~ scale(HABHA)+scale(AgeMedian)+
                           scale(Pct_014)+scale(Pct_65P)+
                           scale(Pct_MV)+scale(Pct_FR), data = DataFinal)
coefs <- ModeleZ$coefficients
coefs[1:length(coefs)]
##      (Intercept)     scale(HABHA) scale(AgeMedian)   scale(Pct_014)   scale(Pct_65P)    scale(Pct_MV) 
##     3.721649e-16    -2.806891e-01     1.467299e-02     3.093456e-01     1.788453e-01    -2.755087e-02 
##    scale(Pct_FR) 
##    -3.004544e-01
#  Méthode 2 : à partir de l'équation
# Écart-type de la variable dépendante
VDet <- sd(DataFinal$VegPct)
cat("Écart-type de Y =", round(VDet,3))
## Écart-type de Y = 18.562
# Écarts-types des variables indépendantes
VI <- c("HABHA","AgeMedian","Pct_014","Pct_65P","Pct_MV","Pct_FR")
VIet <- sapply(DataFinal[VI], sd)
# Coefficients de régression du modèle sans la constante
coefs <- Modele1$coefficients[1:length(VIet)+1]
# Coefficients de régression du modèle
coefstand <- coefs * (VIet / VDet)
coefstand
##       HABHA   AgeMedian     Pct_014     Pct_65P      Pct_MV      Pct_FR 
## -0.28068906  0.01467299  0.30934560  0.17884535 -0.02755087 -0.30045437
#  Méthode 3 : avec la fonction lm.beta du package QuantPsyc
library(QuantPsyc)
lm.beta(lm(VegPct ~ HABHA+AgeMedian+Pct_014+Pct_65P+Pct_MV+Pct_FR, data = DataFinal))
##       HABHA   AgeMedian     Pct_014     Pct_65P      Pct_MV      Pct_FR 
## -0.28068906  0.01467299  0.30934560  0.17884535 -0.02755087 -0.30045437
Tableau 7.3: Calcul des coefficients standardisés
Variable dépendante Écart-type Coef. Coef. standardisé
HABHA 74,008 -0,070 -0,281
AgeMedian 25,241 0,011 0,015
Pct_014 5,295 1,084 0,309
Pct_65P 8,289 0,401 0,179
Pct_MV 16,438 -0,031 -0,028
Pct_FR 16,015 -0,348 -0,300

Par exemple, pour la variable Pct_014, le coefficient de régression standardisé est égal à :

\[\begin{equation} \beta_{z}= 1,084 \times \frac{5,295}{18,562}=0,309 \tag{7.15} \end{equation}\]

avec 1,084 étant le coefficient de régression de Pct_014, 5,295 et 18,562 étant respectivement les écarts-types de Pct_014 (variable indépendante) et de VegPct (variable dépendante).

Au tableau 7.3, nous constatons que la valeur absolue du coefficient de régression pour HABHA est inférieure à celle de Pct_65P (−0,070 versus 0,401), ce qui n’est pas le cas pour leur coefficient standardisé (−0,281 versus 0,179). Rappelez-vous aussi que nous ne pouvons pas directement comparer les effets de ces deux variables à partir des coefficients de régression puisqu’elles sont exprimées dans des unités de mesure différentes : HABHA est exprimée en habitants par hectare et Pct_65P en pourcentage. À la lecture des coefficients standardisés, nous pouvons en conclure que la variable HABHA a un effet relatif plus important que Pct_65P (−0,281 versus 0,179).

7.4.3 Significativité des coefficients de régression : valeurs de t et de p

Une fois les coefficients de régression obtenus, il convient de vérifier s’ils sont ou non significativement différents de 0. Si le coefficient de régression d’une variable indépendante est significativement différent de 0, nous concluons que la variable a un effet significatif sur la variable dépendante, toutes choses étant égales par ailleurs. Pour ce faire, il suffit de calculer la valeur de t qui est simplement le coefficient de régression divisé par son erreur type.

\[\begin{equation} t=\frac{\beta_k - 0}{s(\beta_k)} \tag{7.16} \end{equation}\]

avec \(s(\beta_k)\) étant l’erreur type du coefficient de régression. Notez que dans l’équation (7.16), nous indiquons habituellement \(-0\), pour signaler que l’on veut vérifier si le coefficient est différent de 0. En guise d’exemple, au tableau 7.2, la valeur de t de la variable HABHA est bien égale à :

\(\mbox{−0,070401 / 0,002202 = −31,975}\).

Démarche pour vérifier si un coefficient est significativement différent de 0 avec un seuil de confiance

  1. Poser l’hypothèse nulle (H0) stipulant que le coefficient est égal à 0, soit \(H_0 : \beta_k = 0\). L’hypothèse alternative (H1) est que le coefficient est différent de 0, soit \(H_1 : B_k \neq 0\).
  2. Calculer la valeur de t, soit le coefficient de régression divisé par son erreur type (équation (7.16)).
  3. Calculer le nombre de degrés de liberté, soit \(dl = n − k - 1\), n et k étant respectivement les nombres d’observations et de variables indépendantes.
  4. Choisir un seuil de signification alpha (5 %, 1 % ou 0,1 %, soit p = 0,05, 0,01 ou 0,01).
  5. Trouver la valeur critique de t dans la table T de Student (16) avec p et le nombre de degrés de liberté (dl).
  6. Valider ou réfuter l’hypothèse nulle (H0) :
  • si la valeur de t est inférieure à la valeur critique de t avec dl et le seuil choisi, nous confirmons H0 : le coefficient n’est pas significativement différent de 0.
  • si la valeur de t est supérieure à la valeur critique de t avec dl et le seuil choisi, nous réfutons l’hypothèse nulle, et choisissons l’hypothèse alternative (H1) stipulant que le coefficient est significativement différent de 0.

Valeurs critiques de la valeur de t à retenir!

Lorsque le nombre de degrés de liberté (n − k - 1) est très important (supérieur à 2500), et donc le nombre d’observations de votre jeu de données, nous retenons habituellement les valeurs critiques suivantes : 1,65 (p = 0,10), 1,96 (p = 0,05), 2,58 (p = 0,01) et 3,29 (p=0,001). Concrètement, cela signifie que :

  • une valeur de t supérieure à 1,96 ou inférieure à -1,96 nous informe que la relation entre la variable indépendante et la variable dépendante est significative positivement ou négativement au seuil de 5 %. Autrement dit, vous avez moins de 5 % de chances de vous tromper en affirmant que le coefficient de régression est bien significativement différent de 0.

  • une valeur de t supérieure à 2,58 ou inférieure à -2,58 nous informe que la relation entre la variable indépendante et la variable dépendante est significative positivement ou négativement au seuil de 5 %. Autrement dit, vous avez moins de 1 % de chances de vous tromper en affirmant que le coefficient de régression est bien significativement différent de 0.

  • une valeur de t supérieure à 3,29 ou inférieure à -3,29 nous informe que la relation entre la variable indépendante et la variable dépendante est significative positivement ou négativement au seuil de 5 %. Autrement dit, vous avez moins de 0,1 % de chances de vous tromper en affirmant que le coefficient de régression est bien significativement différent de 0.

Concrètement, retenez et utilisez les seuils de \(\pm\mbox{1,96}\), \(\pm\mbox{2,58}\) et \(\pm\mbox{3,29}\) pour repérer les variables significatives positivement ou négativement aux seuils respectifs de 0,5, 0,1 et 0,001.

Que signifient les seuils 0,10, 0,05 et 0,001?

L’interprétation exacte des seuils de significativité des coefficients d’une régression est quelque peu alambiquée, mais mérite de s’y attarder. En effet, indiquer qu’un coefficient est significatif est souvent perçu comme un argument fort pour une théorie, il est donc nécessaire d’avoir du recul et de bien comprendre ce que l’on entend par significatif.

Si un coefficient est significatif au seuil de 5 % dans notre modèle, cela signifie que si, pour l’ensemble d’une population, la valeur du coefficient est de 0 en réalité, alors nous avions moins de 5 % de chances de collecter un échantillon (pour cette population) ayant produit un coefficient aussi fort que celui que nous observons dans notre propre échantillon. Par conséquent, il serait très invraisemblable que le coefficient soit 0 puisque nous avons effectivement collecté un tel échantillon. Il s’agit d’une forme d’argumentation par l’absurde propre à la statistique fréquentiste.

Notez que si 100 études étaient conduites sur le même sujet et dans les mêmes conditions, nous nous attendrions à ce que 5 d’entre elles trouvent un coefficient significatif, du fait de la variation des échantillons. Ce constat souligne le fait que la recherche est un effort collectif et qu’une seule étude n’est pas suffisante pour trancher sur un sujet. Les revues systématiques de la littérature sont donc des travaux particulièrement importants pour la construction du consensus scientifique.

Ne pas confondre significativité et effet de la variable indépendante

Attention, un coefficient significatif n’est pas toujours intéressant! Autrement dit, bien qu’il soit significatif à un seuil donné (par exemple, p = 0,05), cela ne veut pas dire pour autant qu’il ait un effet important sur la variable dépendante. Il faut donc analyser simultanément les valeurs de p et des coefficients de régression. Afin de mieux saisir l’effet d’un coefficient significatif, il est intéressant de représenter graphiquement l’effet marginal d’une variable indépendante (VI) sur une variable dépendante (VD), une fois contrôlées les autres VI du modèle de régression (section 7.7.4).

Prenons deux variables indépendantes du tableau 7.2HABHA et AgeMedian – et vérifions si leurs coefficients de régression respectifs (−0,070 et 0,011) sont significatifs. Appliquons la démarche décrite dans l’encadré ci-dessus :

  1. Nous posons l’hypothèse nulle stipulant que la valeur de ces deux coefficients est égale à 0, soit \(H_0 : \beta_k = 0\).
  2. La valeur de t est égale à −0,070401 / 0,002202 = −31,97139 pour HABHA et à 0,010790 / 0,006369 = 1,694144 pour AgeMedian.
  3. Le nombre de degrés de liberté est égal à \(\mbox{dl} = \mbox{n}-\mbox{k}-\mbox{1} = \mbox{10 210} − \mbox{6} - \mbox{1} = \mbox{10 203}\).
  4. Nous choisissons respectivement les seuils \(\alpha\) de 0,10, 0,05, 0,01 ou 0,001.
  5. Avec 10210 degrés de liberté, les valeurs critiques de la table T de Student (section 16) sont de 1,65 (p = 0,10), 1,96 (p = 0,05), 2,58 (p = 0,01), 3,29 (p = 0,001).
  6. Il reste à valider ou réfuter l’hypothèse nulle (H0) :
  • pour HABHA, la valeur absolue de t (−31,975) est supérieure à la valeur critique de 3,29. Son coefficient de régression est donc significativement différent de 0. Autrement dit, ce prédicteur a un effet significatif et négatif sur la variable dépendante.

  • pour AgeMedian, la valeur absolue de t (1,694) est supérieure à 1,65 (p = 0,10), mais inférieure à 1,96 (p = 0,05), à 2,58 (p = 0,01), à 3,29 (p = 0,001). Par conséquent, ce coefficient est différent de 0 uniquement au seuil de p = 0,10 et non au seuil de p = 0,05. Cela signifie que bous avons un peu moins de 10 % de chances de se tromper en affirmant que cette variable a un effet significatif sur la variable dépendante.

Calculer et obtenir des valeurs de p dans R

Il est très rare que d’utiliser directement la table T de Student pour obtenir un seuil de significativité.

D’une part, il est possible de calculer directement la valeur de p à partir de la valeur de t et du nombre de degrés de liberté avec la fonction pt avec les paramètres suivants :

pt(q= abs(valeur de T), df= nombre de degrés de liberté, lower.tail = F) *2

# Degrés de liberté
dl <- nrow(DataFinal) - (length(Modele1$coefficients) - 1) + 1

# Valeurs de T
ValeurT <- summary(Modele1)$coefficients[,3]

# Calcul des valeurs de P
ValeurP <- pt(q= abs(ValeurT), df= dl, lower.tail = F) *2

df_tp <- data.frame(
                ValeurT = round(ValeurT,3), 
                ValeurP = round(ValeurP,3)
)
print(df_tp)
##             ValeurT ValeurP
## (Intercept)  29.874   0.000
## HABHA       -31.975   0.000
## AgeMedian     1.694   0.090
## Pct_014      33.702   0.000
## Pct_65P      21.265   0.000
## Pct_MV       -2.990   0.003
## Pct_FR      -29.918   0.000

D’autre part, la fonction summary renvoie d’emblée les valeurs de t et de p. Par convention, R, comme la plupart des logiciels d’analyses statistiques, utilise aussi des symboles pour indiquer le seuil de signification du coefficient (voir tableau 7.3) :

’***’ p <= 0,001

’**’ p <= 0,01

’*’ p <= 0,05

‘.’ p <= 0,10

7.4.4 Intervalle de confiance des coefficients

Finalement, il est possible de calculer l’intervalle de confiance d’un coefficient à partir d’un niveau de signification (habituellement 0,95 ou encore 0,99). Pour ce faire, la fonction confint(nom du modèle, level=.95) est très utile. L’intérêt de ces intervalles de confiance pour les coefficients de régression est double :

  • il permet de vérifier si le coefficient est ou non significatif au seuil retenu. Pour cela, la borne inférieure et la borne supérieure du coefficient doivent être toutes deux négatives ou positives. À l’inverse, un intervalle à cheval sur 0, soit avec une borne inférieure négative et une borne supérieure positive, n’est pas significatif.
  • il permet d’estimer la précision de l’estimation; plus l’intervalle du coefficient est réduit, plus l’estimation de l’effet de la variable indépendante est précise. Inversement, un intervalle large signale que le coefficient est incertain.

Cela explique que de nombreux auteurs reportent les intervalles de confiance dans les articles scientifiques (habituellement à 95 %). Dans le modèle présenté ici, il est alors possible d’écrire : toutes choses étant égales par ailleurs, le pourcentage d’enfants de moins de 15 ans est positivement et significativement associé avec le pourcentage de la couverture végétale dans l’îlot (B = 1,084; IC 95 % = [1,021 - 1,148], p < 0,001).

En guise d’exemple, à la lecture de la sortie R ci-dessous, l’estimation de l’effet de la variable indépendante AgeMedian sur la variable VegPct se situe dans l’intervalle -0,002 à 0,023 qui est à cheval sur 0. Contrairement aux autres variables, nous ne pouvons donc pas en conclure que cet effet est significatif avec p = 0,05.

# Intervalle de confiance à 95 % des coefficients
round(confint(Modele1, level=.95),3)
##              2.5 % 97.5 %
## (Intercept) 24.626 28.085
## HABHA       -0.075 -0.066
## AgeMedian   -0.002  0.023
## Pct_014      1.021  1.148
## Pct_65P      0.364  0.437
## Pct_MV      -0.052 -0.011
## Pct_FR      -0.371 -0.325

Comment est calculé un intervalle de confiance?

L’intervalle du coefficient est obtenu à partir de :

  1. la valeur du coefficient (\(\beta_k\)),
  2. la valeur de son erreur type \(s(\beta_k)\) et
  3. la valeur critique de T (\(t_{\alpha/2}\)) obtenue avec \(n-k-1\) degrés de liberté et le niveau de significativité retenu (95 %, 99 % ou 99,9 %).

\[\begin{equation} IC_{\beta_k}= \left[ \beta_k - t_{\alpha/2} \times s(\beta_k) ; \beta_k + t_{\alpha/2} \times s(\beta_k) \right] \tag{7.17} \end{equation}\]

Autrement dit, lorsque vous disposez d’un nombre très important d’observations, les intervalles de confiance s’écrivent simplement avec les fameuses valeurs critiques de T de 1,96, 2,58, 3,29 :

\[\begin{equation} \mbox{Intervalle à 95 \%\: } IC_{\beta_k}= \left[ \beta_k - 1,96 \times s(\beta_k) ; \beta_k + 1,96 \times s(\beta_k) \right] \tag{7.18} \end{equation}\]

\[\begin{equation} \mbox{Intervalle à 99 \%\: } IC_{\beta_k}= \left[ \beta_k - 2,58 \times s(\beta_k) ; \beta_k + 2,58 \times s(\beta_k) \right] \tag{7.19} \end{equation}\]

\[\begin{equation} \mbox{Intervalle à 99,9 \%\: } IC_{\beta_k}= \left[ \beta_k - 3,29 \times s(\beta_k) ; \beta_k + 3,29 \times s(\beta_k) \right] \tag{7.20} \end{equation}\]

La syntaxe R ci-dessous illustre comment calculer les intervalles de confiance à 95 % à partir de l’équation (7.17). Rappelez-vous toutefois qu’il est bien plus simple d’utiliser la fonction confint:

  • round(confint(Modele1, level=.95),3)
  • round(confint(Modele1, level=.99),3)
  • round(confint(Modele1, level=.999),3)
# Coeffients de régression
coefs <- Modele1$coefficients

# Erreur type des coef.
coefs_se <- summary(Modele1)$coefficients[,2]

# Nombre de degrés de liberté
n <- length(Modele1$fitted.values)
k <- length(Modele1$coefficients)-1
dl <- n-k-1

# valeurs critiques de T
t95 <-  qt(p=1 - (0.05/2),  df=dl)
t99 <-  qt(p=1 - (0.01/2),  df=dl)
t99.9 <-  qt(p=1 - (0.001/2),  df=dl)
cat("Valeurs critiques de T en fonction du niveau de confiance",
    "\n et du nombre de degrés de liberté",
    "\n95 % : ", t95,
    "\n99 % : ", t99,
    "\n99,9 % : ", t99.9
    )
## Valeurs critiques de T en fonction du niveau de confiance 
##  et du nombre de degrés de liberté 
## 95 % :  1.960197 
## 99 % :  2.576311 
## 99,9 % :  3.291481
# Intervalle de confiance à 95

data.frame(
  IC2.5  = round(coefs-t95*coefs_se,3),
  IC97.5 = round(coefs+t95*coefs_se,3)
  )
##              IC2.5 IC97.5
## (Intercept) 24.626 28.085
## HABHA       -0.075 -0.066
## AgeMedian   -0.002  0.023
## Pct_014      1.021  1.148
## Pct_65P      0.364  0.437
## Pct_MV      -0.052 -0.011
## Pct_FR      -0.371 -0.325
# Intervalle de confiance à 99

data.frame(
  IC0.5 = round(coefs-t99*coefs_se,3),
  IC99.5 = round(coefs+t99*coefs_se,3)
)
##              IC0.5 IC99.5
## (Intercept) 24.083 28.629
## HABHA       -0.076 -0.065
## AgeMedian   -0.006  0.027
## Pct_014      1.002  1.167
## Pct_65P      0.352  0.449
## Pct_MV      -0.058 -0.004
## Pct_FR      -0.378 -0.318
# Intervalle de confiance à 99.9
data.frame(
  IC0.05 = round(coefs-t99.9*coefs_se,3),
  IC99.95 = round(coefs+t99.9*coefs_se,3)
  )
##             IC0.05 IC99.95
## (Intercept) 23.452  29.260
## HABHA       -0.078  -0.063
## AgeMedian   -0.010   0.032
## Pct_014      0.979   1.190
## Pct_65P      0.339   0.463
## Pct_MV      -0.065   0.003
## Pct_FR      -0.387  -0.310