Licence CC BY-NC-SA

Traiter l’information géographique

Les données géographiques ne sont pas fournies par Dieu, mais par tel géographe qui, non content de les appréhender à une certaine échelle, les a choisies et classées dans un certain ordre ; un autre géographe étudiant la même région ou abordant le même problème à une autre échelle fournirait probablement des données différentes. – Yves Lacoste

Pour réaliser des cartes statistiques, il faut pouvoir utiliser des données : le but de ce chapitre est d’apprendre à récolter, trier, exploiter ces données. Bref, penser le travail en amont de la cartographie à proprement parler !

Information géographique : une valeur couplée à une localisation géographique. Exemple, le PIB par pays.

Une grosse partie du traitement de l’information se base sur des notions de statistiques (maximum, minimum, moyenne, médiane, écart-type, quartiles…). Je ne souhaite pas faire un cours dessus : si vous souhaitez mieux vous documenter, je vous conseille le livre de Béguin et Pumain (cf Bibliographie) ou même n’importe quel cours sur le traitement de données. Ci-dessous, vous trouverez uniquement quelques éléments de base pour vous aider dans votre travail cartographique !

Une donnée n’est pas neutre, elle ne tombe pas du ciel. Restez critique !

Résumer et analyser des données

Comment avoir une vue d’ensemble des données ? En les résumant. On va donc faire connaissance avec nos valeurs en cherchant un certain nombre d’informations, afin d’en tirer des caractéristiques.

Ainsi, on va voir les paramètres de position, pour voir des valeurs. Usuellement, les valeurs sont classées en 2 types : les valeurs spécifiques (minimum, maximum…), représentatives dans un domaine (quota ou seuil par exemple1) et les valeurs centrales, permettant de voir la série. Elles sont de trois ordres :

  • La moyenne se calcule par la somme des valeurs divisée par le nombre de valeurs (unité géographique dans notre cas). Prenons un exemple : je cherche à obtenir une moyenne de l’âge d’une population : 67, 38, 12, 18, 55, 82, 28. Je vais donc additionner les différents âges, 300, que je divise par le nombre de personnes, 7, nous donnant en arrondissant à 43 ans. La moyenne d’âge est donc de 43 ans. Ce système montre ses limites. En effet, si on a une population de 30 souris de 30g et un éléphant de 1T, on aura une moyenne de 3255g, soit une souris de 3kg, ce qui est absurde : le résultat est faussé en présence de valeurs extrêmes. Pour résoudre ce problème, on va utiliser une médiane.
  • La médiane (ou Q2), c’est quand on partage une série de chiffres en deux parties avec le même nombre d’éléments. Ainsi, en dessous de ce chiffre, 50% des individus s’y retrouvent. On va trier dans l’ordre nos données, et diviser en deux la série : 12, 18, 28, 38, 55, 67, 82. Ici, on voit que la médiane est de 38 : on rectifie les valeurs extrêmes causées par les retraités. Ou les enfants. Les quartiles utilisent le même principe : Q1 a pour limite le premier quart et Q3 la délimitation est au troisième quart.
  • Le mode, c’est la valeur dominante, la plus récurrente dans une série. Par exemple, si je vous donne la série suivante : 9, 12, 29, 33, 33, 33, 45, 45, 67, 34, notre mode est 33, car on le retrouve trois fois. Elle peut être unimodale, c’est-à-dire que l’on retrouve essentiellement qu’une valeur récurrente, ou multimodale, car on retrouve plusieurs modes. Ici, on retrouve un second mode, avec 45 apparaissant deux fois. Le mode est très pratique pour voir une surreprésentation de valeurs, et de ce fait se demander pourquoi elle est représentée.

On regarde aussi les paramètres de dispersion, c’est-à-dire la l’étalement par rapport à une valeur centrale (moyenne, médiane, mode). Pour cela on va utiliser :

  • l’écart-type pour voir la dispersion liée à une moyenne : si l’écart-type est supérieur à la moyenne, on retrouve avec une dispersion forte. Dit autrement, on ne voit pas de concentration de données sur une valeur précise, la répartition étant de ce fait aléatoire. Dit autrement, l’écart-type mesure le désordre : plus l’écart est grand, et plus c’est le bazar !
  • l’Écart interquartile, calculé à partir des quartiles, sert à observer une dispersion liée à la médiane : Son calcul est très simple : ÉI = Q3 - Q1.

Une fois ces calculs réalisés (sur un tableur généralement), on va faire un diagramme de distribution, pour voir la répartition des données. Autrement dit, on compare la valeur de la médiane par rapport à la moyenne, pour voir si on trouve une symétrie. La forme de la distribution permet de trouver la meilleure manière de discrétiser.


  1. Typiquement, si on étudie la production laitière au sein de l’Union européenne, on va se baser sur les quotas laitiers.

Les méthodes de discrétisation

Pour réaliser une carte, on a souvent besoin de créer des classes : le fait de passer à une série de nombres à un regroupement en classes s’appelle justement une discrétisation. Plusieurs méthodes existent et comportent chacun des avantages et des inconvénients ; le choix est important, car il contribue à la qualité de l’information.

Par commodité graphique, on essaye d’avoir 6 à 9 classes maximum. Pour calculer le nombre de classes nécessaires, deux formules peuvent nous aider, où N est le nombre de valeurs que l’on possède : k1=1+3,3log10(N)k_1 = 1 + 3,3 log^{10}(N) et k2<5log10(N)k_2 < 5log^{10}(N)

Le scalogramme ou discrétisation avec seuils naturels/discontinuité

Objectif Méthodologie
Faire un regroupement « naturel », en se basant sur les discontinuités On trace une droite graduée avec notre valeur minimale et maximale. On marque les points correspondants à nos valeurs. On regroupe ensuite par « paquet » selon les discontinuités qui apparaît. Utile dans distribution des zones ont leur dispersion caractéristique Méthode très incertaine, pas toujours pertinente, comparaison difficile.

Discrétisation en classes d’amplitude égale

Objectif Méthodologie
Valoriser les valeurs extrêmes Étendue de l’échantillon : valeur maximale – valeur minimalenombre de classes\dfrac{\text{valeur maximale – valeur minimale}}{\text{nombre de classes}} Simple à réaliser. Très courant, facilement interprétable Idéal pour des distributions uniformes, mais inefficaces pour des effectifs déséquilibrés

Discrétisation avec moyenne et écart type

Objectif Méthodologie
Utile pour comparer plusieurs cartes La moyenne est la classe centrale. L’étendue est un écart type. Ainsi, la classe 1 est le premier quartile, la classe 2 le second quartile… Méthode efficace pour comparer, et simple à mettre en œuvre Adaptation mal aux distributions dissymétriques (« poids » d’un extrême)

Discrétisation en progression géométrique

Objectif Méthodologie
Traiter la distribution comme une suite géométrique On détermine le nombre de classes : raison=logmaxlogminnombre de classes\text{raison} = \dfrac{log{max}-log{min}}{\text{nombre de classes}} puis classe1=valeur minimale×raisonclasse1 = \text{valeur minimale} \times \text{raison}, classe2=classe1×raisonclasse2 = \text{classe1} \times \text{raison}, classe3=classe2×raisonclasse3 = \text{classe2} \times \text{raison} Adaptation aux distributions dissymétriques Pas conseillé pour les comparaisons et pas simple à mettre en œuvre

Discrétisation par quantiles ou par effectif égaux

Objectif Méthodologie
Attribuer le même nombre d’unités géographique aux classes de la classe Simple à réaliser et adapté pour les cartes comparatives Valeurs extrêmes noyées dans des zones avec différents ordres de grandeur. Utile quand c’est négligeable.

Bien sûr, selon la méthode choisie, les résultats seront différents. Pour ne pas trop s’embêter, on utilise souvent la méthode de Jenks, qui discrétise selon la ressemblance/dissemblance entre les individus : par un jeu algorithmique, elle cherche à minimiser la variance intraclasse tout en maximisant celle extraclasse. Dit autrement, cette méthode recherche des valeurs homogènes à l’intérieur d’une classe : c’est donc une manière automatisée d’appliquer la méthode des seuils naturels. Néanmoins, bien que passe-partout, cette méthode ne permet pas de comparer les cartes entre elles : en effet, nos classes auront des bornes différentes.


Désolé si cette partie est peu trop mathématique, mais elle m’a semblé plus que nécessaire, l’idée étant juste vous donner quelques pistes pour traiter vos données avant de cartographier. Maintenant que nous avons acquis tout ce savoir théorique, pourquoi pas faire un petit exercice pratique ?

Synthèse
Synthèse