Chapitre 12 Méthodes factorielles
Dans le cadre de ce chapitre, nous présentons les trois méthodes factorielles les plus utilisées en sciences sociales : l’analyse en composantes principales (ACP, section 12.2), l’analyse factorielle des correspondances (AFC, section 12.3) et l’analyse factorielle des correspondances multiples (ACM, section 12.4). Ces méthodes, qui permettent d’explorer et de synthétiser l’information de différents tableaux de données, relèvent de la statistique exploratoire multidimensionnelle.
Dans ce chapitre, nous utilisons les packages suivants :
- Pour créer des graphiques :
ggplot2
, le seul, l’unique!ggpubr
pour combiner des graphiques.
- Pour les analyses factorielles :
FactoMineR
pour réaliser une ACP, une AFC et une ACM.factoextra
pour réaliser des graphiques à partir des résultats d’une analyse factorielle.explor
pour les résultats d’une ACP, d’une AFC ou d’une ACM avec une interface Web interactive.
- Autres packages :
geocmeans
pour un jeu de données utilisé pour calculer une ACP.ggplot2
,ggpubr
,stringr
etcorrplot
pour réaliser des graphiques personnalisés sur les résultats d’une analyse factorielle.tmap
etRColorBrewer
pour cartographier les coordonnées factorielles.Hmisc
pour l’obtention d’une matrice de corrélation.
Réduction de données et identification de variables latentes
Les méthodes factorielles sont souvent dénommées des méthodes de réduction de données, en raison de leur objectif principal : résumer l’information d’un tableau en quelques nouvelles variables synthétiques (figure 12.1). Ainsi, elles permettent de réduire l’information d’un tableau volumineux — comprenant par exemple 1000 observations et 100 variables — en p nouvelles variables (par exemple cinq avec toujours 1000 observations) résumant X % de l’information contenue dans le tableau initial. Formulée plus mathématiquement, Lebart et al. (1995, 13) en donnent une formulation plus mathématique : ils signalent qu’avec les méthodes factorielles, « on cherche à réduire les dimensions du tableau de données en représentant les associations entre individus et entre variables dans des espaces de faibles dimensions ».
Ces nouvelles variables synthétiques peuvent être considérées comme des variables latentes puisqu’elles ne sont pas directement observées; elles sont plutôt produites par la méthode factorielle utilisée afin de résumer les relations/associations entre plusieurs variables mesurées initialement.