Méthodes quantitatives en sciences sociales : un grand bol d'R
Bienvenue
Préface
Un manuel sous la forme d’une ressource éducative libre
Un manuel conçu comme un projet collaboratif
Comment lire ce livre?
Comment utiliser les données du livre pour reproduire les exemples?
Structure du livre
Pourquoi faut-il programmer en sciences sociales?
Remerciements
Dédicace toute spéciale à Cargo et Ambrée
À propos des auteurs
I Découverte de R
1
Prise en main de R
1.1
Histoire et philosophie de R
1.2
Environnement de travail
1.2.1
Installation de R
1.2.2
Environnement RStudio
1.2.3
Installation et chargement un
package
1.2.4
Aide disponible
1.3
Bases du langage R
1.3.1
Hello World
!
1.3.2
Objets et expressions
1.3.3
Fonctions et arguments
1.3.4
Principaux types de données
1.3.5
Opérateurs
1.3.6
Structures de données
1.4
Manipulation de données
1.4.1
Chargement d’un
DataFrame
depuis un fichier
1.4.2
Manipulation d’un
DataFrame
1.5
Code R bien structuré
1.6
Enregistrement des résultats
1.7
Session de travail
1.8
Conclusion et ressources pertinentes
1.9
Quiz de révision du chapitre
II Analyses univariées et graphiques dans R
2
Statistiques descriptives univariées
2.1
Notion et types de variable
2.1.1
Notion de variable
2.1.2
Types de variables
2.2
Types de données
2.2.1
Données secondaires
versus
données primaires
2.2.2
Données transversales
versus
données longitudinales
2.2.3
Données spatiales versus données aspatiales
2.2.4
Données individuelles
versus
données agrégées
2.3
Statistique descriptive et statistique inférentielle
2.3.1
Population, échantillon et inférence
2.3.2
Deux grandes familles de méthodes statistiques
2.4
Notion de distribution
2.4.1
Définition générale
2.4.2
Anatomie d’une distribution
2.4.3
Principales distributions
2.4.4
Conclusion sur les distributions
2.5
Statistiques descriptives sur des variables quantitatives
2.5.1
Paramètres de tendance centrale
2.5.2
Paramètres de position
2.5.3
Paramètres de dispersion
2.5.4
Paramètres de forme
2.5.5
Transformation des variables
2.5.6
Mise en œuvre dans R
2.6
Statistiques descriptives sur des variables qualitatives et semi-qualitatives
2.6.1
Fréquences
2.6.2
Mise en œuvre dans R
2.7
Statistiques descriptives pondérées : pour aller plus loin
2.8
Quiz de révision du chapitre
3
Magie des graphiques
3.1
Philosophie du ggplot2
3.1.1
Grammaire
3.1.2
Types de géométries
3.1.3
Habillage
3.1.4
Utilisation des thèmes
3.1.5
Composition d’une figure avec plusieurs graphiques
3.1.6
Couleur
3.2
Principaux graphiques
3.2.1
Histogramme
3.2.2
Graphique de densité
3.2.3
Nuage de points
3.2.4
Graphique en ligne
3.2.5
Boîte à moustaches
3.2.6
Graphique en violon
3.2.7
Graphique en barre
3.2.8
Graphique circulaire
3.3
Graphiques spéciaux
3.3.1
Graphique en radar
3.3.2
Diagramme d’accord
3.3.3
Nuage de mots
3.3.4
Carte proportionnelle
3.4
Cartes
3.5
Exportation des graphiques
3.6
Conclusion sur les graphiques
III Analyses bivariées
4
Relation linéaire entre deux variables quantitatives
4.1
Bref retour sur le postulat de la relation linéaire
4.2
Covariance
4.2.1
Formulation
4.2.2
Interprétation
4.3
Corrélation
4.3.1
Formulation
4.3.2
Interprétation
4.3.3
Corrélations pour des variables anormalement distribuées (coefficient de Spearman, tau de Kendall)
4.3.4
Corrélations robustes (
Biweight midcorrelation
,
Percentage bend correlation
et la corrélation
pi
de Shepherd)
4.3.5
Significativité des coefficients de corrélation
4.3.6
Corrélation partielle
4.3.7
Mise en œuvre dans R
4.3.8
Comment rapporter des valeurs de corrélations?
4.4
Régression linéaire simple
4.4.1
Principe de base de la régression linéaire simple
4.4.2
Formulation de la droite de régression des moindres carrés ordinaires
4.4.3
Mesure de la qualité d’ajustement du modèle
4.4.4
Mise en œuvre dans R
4.4.5
Comment rapporter une régression linéaire simple
4.5
Quiz de révision du chapitre
5
Relation entre deux variables qualitatives
5.1
Construction de tableau de contingence
5.2
Test du khi-deux
5.3
Mise en œuvre dans R
5.4
Interprétation d’un tableau de contingence
5.5
Quiz de révision du chapitre
6
Relation entre une variable qualitative et une variable quantitative
6.1
Relation entre une variable quantitative et une variable qualitative à deux modalités
6.1.1
Test
t
et ses différentes variantes
6.1.2
Test non paramétrique de Wilcoxon
6.2
Relation entre une variable quantitative et une variable qualitative à plus de deux modalités
6.2.1
Analyse de variance
6.2.2
Test non paramétrique de Kruskal-Wallis
6.2.3
Mise en œuvre dans R
6.2.4
Comment rapporter les résultats d’une ANOVA et du test de Kruskal-Wallis
6.3
Conclusion sur la troisième partie
6.4
Quiz de révision du chapitre
IV Modèles de régression
7
Régression linéaire multiple
7.1
Objectifs de la régression linéaire multiple et construction d’un modèle de régression
7.2
Principes de base de la régression linéaire multiple
7.2.1
Un peu d’équations…
7.2.2
Hypothèses de la régression linéaire multiple
7.3
Évaluation de la qualité d’ajustement du modèle
7.3.1
Mesures de la qualité d’un modèle
7.3.2
Comparaison des modèles incrémentiels
7.4
Différentes mesures pour les coefficients de régression
7.4.1
Coefficients de régression : évaluer l’effet des variables indépendantes
7.4.2
Coefficients de régression standardisés : repérer les variables les plus importantes du modèle
7.4.3
Significativité des coefficients de régression : valeurs de
t
et de
p
7.4.4
Intervalle de confiance des coefficients
7.5
Introduction de variables explicatives particulières
7.5.1
Exploration des relations non linéaires
7.5.2
Variable indépendante qualitative dichotomique
7.5.3
Variable indépendante qualitative polytomique
7.5.4
Variables d’interaction
7.6
Diagnostics de la régression
7.6.1
Nombre d’observations
7.6.2
Normalité des résidus
7.6.3
Linéarité et homoscédasticité des résidus
7.6.4
Absence de multicolinéarité excessive
7.6.5
Absence d’observations aberrantes
7.7
Mise en œuvre dans R
7.7.1
Fonctions
lm
,
summary()
et
confint()
7.7.2
Comparaison des modèles
7.7.3
Diagnostic sur un modèle
7.7.4
Graphiques pour les effets marginaux
7.8
Quiz de révision du chapitre
8
Régressions linéaires généralisées (GLM)
8.1
Qu’est qu’un modèle GLM?
8.1.1
Formulation d’un GLM
8.1.2
Autres distributions et rôle de la fonction de lien
8.1.3
Conditions d’application
8.1.4
Résidus et déviance
8.1.5
Vérification l’ajustement
8.1.6
Comparaison de deux modèles GLM
8.2
Modèles GLM pour des variables qualitatives
8.2.1
Modèle logistique binomial
8.2.2
Modèle probit binomial
8.2.3
Modèle logistique des cotes proportionnelles
8.2.4
Modèle logistique multinomial
8.2.5
Conclusion sur les modèles pour des variables qualitatives
8.3
Modèles GLM pour des variables de comptage
8.3.1
Modèle de Poisson
8.3.2
Modèle binomial négatif
8.3.3
Modèle de Poisson avec excès fixe de zéros
8.3.4
Modèle de Poisson avec excès ajusté de zéros
8.3.5
Conclusion sur les modèles destinés à des variables de comptage
8.4
Modèles GLM pour des variables continues
8.4.1
Modèle GLM gaussien
8.4.2
Modèle GLM avec une distribution de Student
8.4.3
Modèle GLM avec distribution Gamma
8.4.4
Modèle GLM avec une distribution bêta
8.5
Conclusion sur les modèles linéaires généralisés
8.6
Quiz de révision du chapitre
9
Régressions à effets mixtes (GLMM)
9.1
Introduction
9.1.1
Indépendance des observations et effets de groupes
9.1.2
Terminologie: effets fixes et effets aléatoires
9.2
Principes de base des GLMM
9.2.1
GLMM avec constantes aléatoires
9.2.2
GLMM avec pentes aléatoires
9.2.3
GLMM avec constantes et pentes aléatoires
9.3
Conditions d’application des GLMM
9.3.1
Vérification de la distribution des effets aléatoires
9.3.2
Homogénéité des variances au sein des groupes
9.4
Inférence dans les modèles GLMM
9.4.1
Inférence pour les effets fixes
9.4.2
Inférence pour les effets aléatoires, effet global
9.4.3
Inférence pour les effets aléatoires, des constantes et des pentes
9.5
Conclusion sur les GLMM
9.6
Mise en œuvre des GLMM dans R
9.6.1
Ajustement du modèle avec uniquement une constante aléatoire
9.6.2
Ajustement du modèle avec constantes et pentes aléatoires
9.7
Quiz de révision du chapitre
10
Régressions multiniveaux
10.1
Modèles multiniveaux : deux intérêts majeurs
10.1.1
Répartition de la variance entre les différents niveaux
10.1.2
Estimation des coefficients aux différents niveaux
10.2
Différents types de modèles multiniveaux
10.2.1
Description du jeu de données utilisé
10.2.2
Démarche classique pour les modèles multiniveaux
10.3
Conditions d’application des régressions multiniveaux
10.4
Mise en œuvre dans R
10.4.1
Le modèle vide
10.4.2
Modèle avec les variables indépendantes du niveau 1
10.4.3
Modèle avec les variables indépendantes aux niveaux 1 et 2
10.4.4
Modèle complet avec une interaction
10.4.5
Comparaison des quatre modèles
10.5
Quiz de révision du chapitre
11
Modèles généralisés additifs
11.1
Introduction
11.1.1
Non linéarité fonctionnelle
11.1.2
Non linéarité avec des polynomiales
11.1.3
Non linéarité par segments
11.1.4
Non linéarité avec des
splines
11.2
Spline
de régression et
spline
de lissage
11.3
Interprétation d’une
spline
11.4
Multicolinéarité non linéaire
11.5
Splines
avancées
11.5.1
Splines
cycliques
11.5.2
Splines par groupe
11.5.3
Splines
multivariées et
splines
d’interaction
11.6
Mise en oeuvre dans R
11.7
GAMM
11.8
Quiz de révision du chapitre
V Analyses exploratoires multivariées
12
Méthodes factorielles
12.1
Aperçu des méthodes factorielles
12.1.1
Méthodes factorielles et types de données
12.1.2
Bref historique des méthodes factorielles
12.2
Analyses en composantes principales (ACP)
12.2.1
Recherche d’une simplification
12.2.2
Aides à l’interprétation
12.2.3
Mise en œuvre dans R
12.3
Analyse factorielle des correspondances (AFC)
12.3.1
Recherche d’une simplification basée sur la distance du khi-deux
12.3.2
Aides à l’interprétation
12.3.3
Mise en œuvre dans R
12.4
Analyse de correspondances multiples (ACM)
12.4.1
Aides à l’interprétation
12.4.2
Mise en œuvre dans R
12.5
Quiz de révision du chapitre
13
Méthodes de classification non supervisée
13.1
Méthodes de classification : un aperçu
13.2
Notions essentielles en classification
13.2.1
Distance
13.2.2
Inertie
13.3
Classification ascendante hiérarchique
13.3.1
Fonctionnement de l’algorithme
13.3.2
Choisir le bon nombre de groupes
13.3.3
Limites de la classification ascendante hiérarchique
13.3.4
Mise en oeuvre dans R
13.4
Nuées dynamiques
13.4.1
K-means
13.4.2
K-médianes
13.4.3
K-médoïds
13.4.4
Mise en oeuvre dans R
13.4.5
Extensions en logique floue :
c-means
,
c-medoids
13.5
Conclusion sur la cinquième partie
13.6
Quiz de révision du chapitre
14
Annexes
14.1
Table des valeurs critiques de khi-deux
14.2
Table des valeurs critiques de Fisher
14.3
Table des valeurs critiques de
t
Méthodes quantitatives en sciences sociales : un grand bol d’R
Chapitre 14
Annexes