Chapitre 12 Méthodes factorielles

Dans le cadre de ce chapitre, nous présentons les trois méthodes factorielles les plus utilisées en sciences sociales : l’analyse en composantes principales (ACP, section 12.2), l’analyse factorielle des correspondances (AFC, section 12.3) et l’analyse factorielle des correspondances multiples (ACM, section 12.4). Ces méthodes, qui permettent d’explorer et de synthétiser l’information de différents tableaux de données, relèvent de la statistique exploratoire multidimensionnelle.

Dans ce chapitre, nous utilisons les packages suivants :

Pour créer des graphiques :
- ggplot2, le seul, l’unique!
- ggpubr pour combiner des graphiques.
Pour les analyses factorielles :
- FactoMineR pour réaliser une ACP, une AFC et une ACM.
- factoextra pour réaliser des graphiques à partir des résultats d’une analyse factorielle.
- explor pour les résultats d’une ACP, d’une AFC ou d’une ACM avec une interface Web interactive.
Autres packages :
- geocmeans pour un jeu de données utilisé pour calculer une ACP.
- ggplot2, ggpubr, stringr et corrplot pour réaliser des graphiques personnalisés sur les résultats d’une analyse factorielle.
- tmap et RColorBrewer pour cartographier les coordonnées factorielles.
- Hmisc pour l’obtention d’une matrice de corrélation.

Réduction de données et identification de variables latentes

Les méthodes factorielles sont souvent dénommées des méthodes de réduction de données, en raison de leur objectif principal : résumer l’information d’un tableau en quelques nouvelles variables synthétiques (figure 12.1). Ainsi, elles permettent de réduire l’information d’un tableau volumineux — comprenant par exemple 1000 observations et 100 variables — en p nouvelles variables (par exemple cinq avec toujours 1000 observations) résumant X % de l’information contenue dans le tableau initial. Formulée plus mathématiquement, Lebart et al. (1995, 13) en donnent une formulation plus mathématique : ils signalent qu’avec les méthodes factorielles, « on cherche à réduire les dimensions du tableau de données en représentant les associations entre individus et entre variables dans des espaces de faibles dimensions ».

Figure 12.1: Principe de base des analyses factorielles

Ces nouvelles variables synthétiques peuvent être considérées comme des variables latentes puisqu’elles ne sont pas directement observées; elles sont plutôt produites par la méthode factorielle utilisée afin de résumer les relations/associations entre plusieurs variables mesurées initialement.

Références

Lebart, Ludovic, Alain Morineau et Marie Piron. 1995. Statistique exploratoire multidimensionnelle. Dunod.