Chapitre 3 Magie des graphiques

Dans ce chapitre, nous découvrons les incroyables capacités graphiques de R. Pour ce faire, nous couvrons en profondeur les fonctionnalités du package ggplot2 du tidyverse. Selon nous, il s’agit de loin du meilleur package pour réaliser des graphiques.

Dans ce chapitre, nous utilisons les packages suivants :

  • Pour créer des graphiques :
    • ggplot2, le seul, l’unique!
    • ggpubr pour combiner des graphiques.
    • ggthemes pour utiliser des thèmes complémentaires pour les graphiques.
  • Pour les couleurs :
    • RColorBrewer pour accéder à des palettes de couleurs.
  • Pour les graphiques spéciaux :
    • chorddiag pour construire des graphiques d’accord.
    • fmsb pour construire des graphiques en radar.
    • treemap pour construire une carte proportionnelle.
    • wordcloud2 et textrank pour construire un nuage de mots.
  • Pour les cartes :
    • classInt pour calculer les intervalles des classes.
    • ggsn pour afficher une échelle.
    • tmap pour la cartographie.
  • Autres packages :
    • dplyr et reshape2 pour manipuler des données.
    • pdftools pour extraire les textes des fichiers pdf.
    • udpipe pour obtenir des dictionnaires linguistiques.
    • sf pour manipuler des simple feature collections.

Qu’est-ce que la visualisation de données?

La représentation visuelle de données consiste à transposer des informations en une représentation graphique facilitant la lecture de ces dernières. Il s’agit autant d’un ensemble de méthodes, d’un art que d’un moyen de communication. Voici deux exemples marquants avant de détailler ce propos.

La première illustration permet de visualiser le volume de plastique que représente la consommation d’eau en bouteille : 480 milliards de bouteilles vendues en 10 ans! Ce chiffre astronomique est inimaginable. En revanche, une montagne de plastique de 2400 mètres surplombant Manhattan marque davantage les esprits.

Le second graphique représente quatre informations pour 234 villes à travers le monde :

  • la croissance démographique (axe des abscisses),
  • la vulnérabilité au changement climatique (axe des ordonnées),
  • la taille des villes (taille des cercles),
  • le continent sur lequel est localisée chaque ville (couleur des cercles).

Le graphique est à la fois très accrocheur et esthétique. En un coup d’œil, nous constatons que les villes avec une forte croissance démographique sont aussi les plus vénérables (lecture des deux axes) et qu’elles sont surtout localisées en Afrique et secondairement en Asie (en rouge et orange), quelle que soit leur taille (taille du cercle). À l’inverse, les villes européennes et américaines (en bleu) sont beaucoup moins vulnérables aux changements climatiques et une croissance démographique plus faible, qu’elles soient de petites, de moyennes ou de grandes villes.

Souvent négligée, la visualisation de données est perçue comme une tâche triviale : il s’agit simplement de représenter une donnée sous forme d’un graphique, car c’est l’option la plus pratique ou qui prend le moins d’espace. Pourtant, les avantages de la visualisation des données sont nombreux. Par exemple, la visualisation de données intègre aujourd’hui des supports dynamiques comme des animations, des figures interactives ou des applications web. R offre d’ailleurs des possibilités très intéressantes en la matière avec des packages comme shiny, plotly ou leaflet. Toutefois, nous ne couvrons pas ici ces méthodes plus récentes en visualisation des données qui devraient faire l’objet d’un autre livre.

Les principaux avantages de la visualisation des données :

  • Analyse exploratoire des données (exploratory data analysis - EDA en anglais). Visualiser des données est crucial pour détecter des problèmes en tout genre (données manquantes, valeurs extrêmes ou aberrantes, non-respect de conditions d’application de tests statistiques, etc.), mais aussi pour repérer de nouvelles associations entre les variables.
  • Communication de vos résultats. La raison d’être d’un graphique est de livrer un message clair relatif à un résultat obtenu suite à une analyse rigoureuse de vos données. Si votre graphique n’apporte aucune information claire, il vaut mieux ne pas le présenter, ni le diffuser. Les représentations ne sont pas neutres. Les couleurs et les formes ont des significations particulières en fonction de la culture et du contexte. Posez-vous donc toujours la question : à quel public est destiné le message? Évitez de surcharger vos visualisations de données, sinon l’essence du message sera perdue.
  • Aide à la décision. Une illustration (graphique ou carte) peut être un outil facilitant la prise de décisions.