Problème de géostatitique - taille de l'effet

a marqué ce sujet comme résolu.

Hello,

Je viens vers vous parce que je suis confronté à un problème de statistiques spatiales:

J’ai une carte, j’applique un traitement dessus et cela me fournit un résultat binaire (eau / sol) en chaque point (sur base d’un seuil) et cela me donne un pourcentage total ("80% d’eau").
Afin de déterminer le seuil le plus adapté, j’ai pris un ensemble de points de référence (+200) et j’ai essayé d’optimiser la matrice de confusion dessus (en vrai, le problème est un poil plus complexe comme il y a beaucoup d’ombres, il y a 3 zones avec des seuils différents déterminés de manière plus que empirique). Ce processus est répété pour différentes années.

Ma question est: "Est-il possible de déterminer une sorte d’intervalle de confiance sur ces résultats ?"

Je me suis dit:

  • Avoir une approche variationnelle du seuil (voir comment le pourcentage varie si je rajoute 1%), mais c’est très compliqué.
  • Est-il possible d’exploiter ces matrices de confusion afin d’indiquer la "force" de la méthode ?

Je fais appel à vos connaissances en géomatique :'( Gawa

Salut,

C’est quel genre de carte ?

Ta source de données est une hypothèse de travail que tu ne peux pas changer ? Parce que déterminer la nature des surfaces (eau, sol, forêt, cultures…), c’est un problème plus général et qui est plus simple à résoudre quand on a les bonnes données (ça peut être notamment de l’imagerie multi-spectrale issue de satellites).

Salut,

Elles sont sous quel format tes vues aériennes ? Avoir de l’infrarouge serait très pratique. Et quel algorithme de traitement utilises-tu ?

Pour ces systèmes-là, normalement on utilise un outil de classification supervisée. À noter qu’il faut différencier les secteurs d’entrainement, qui servent à définir les seuils de classification, et les secteurs de vérification.

Par ailleurs, est-ce que tu es sûr que cette donnée n’existe pas déjà sur ton périmètre ? On a par exemple l’OCS GE qui classifie toute la France métropolitaine.

+0 -0

Hello Moté,

Pour être davantage complet, ce sont des vues orthonormées dans différentes gammes de fréquences (dont near-infra). Je ne peux pas être extrêmement précis sur le problème, mais dans l’idée; il y a un NDVI qui est calculé et je tente de définir le seuil le plus adapté sur base de mes points de références (200+) afin de minimiser le nombre de faux-positifs & faux-négatifs.

Je m’étais dit qu’appliquer une sorte de validation (k-cross fold ou one hot) pourrait me donner ces notions-là. Mais, je suis vraiment très peu familier avec les outils GIS sur l’automatisation d’un tel procédé => si c’était du ML, je pense que je me démerderais mieux. Je peux investiguer là-dessus. Je me demandais s’il y avait pas des habitudes statistiques autres sur ce genre de problèmes (du style Cohen’s Kappa) parce que je me dis que c’est assez "classique" comme problème.

C’est une toute nouvelle classification sur des données dont nous avons fait la collecte (et si quelque était responsable de ça, ce serait nous). Il est vrai que je peux demander à l’institut géographique national (de Belgique) des conseils.

Le fond du problème est que je veux exprimer un intervalle de confiance sur la valeur totale que j’obtiens pour mon cas d’étude (80% +/-2%). En montrant que les chiffres précédents étaient moins certains comme la matrice de confusion a plus de faux positifs et faux négatifs.

+0 -0

Salut,

Par défaut une image est en intensité (la plaque photo est sensible à la quantité de lumière reçue dans chaque fréquence). Il y a notamment une déviation vers le bleu due à l’atmosphère, qui est d’autant plus importante que la hauteur de vol est élevée. Donc idéalement il faudrait une calibration sur une surface que tu sais être blanche et qui se situe au niveau du sol (idéalement un truc fait exprès type spectralon, sinon de la neige ça fait l’affaire. Du sable sinon. Pas les nuages qui sont en altitudes). Ça permet d’avoir quelque chose qui reflète mieux les spectres de réflectance des différents matériaux. Après ça marchera aussi sans ça, si vraiment impossible.

Une fois que c’est fait, les ombres ne sont normalement pas un problème tant que la zone n’est pas sous-exposées : l’intensité totale est différentes du reste de la photo, mais les proportions entre les différentes fréquences du spectre restent les mêmes pour un matériaux donné. Par exemple si t’as un lac, les pixels situés à l’ombre auront le même spectre que ceux au soleil, à un facteur multiplicatif près. Donc si tu crée un indice basé sur la ratio entre les fréquences rediffusées et les fréquences absorbées, tu peux détecter ton eau. Au passage, il s’agit du NDWI. Le NDVI, c’est basé sur le spectre de la chlorophylle-a et ça sert à détecter la végétation, pas l’eau.

Ensuite tu peux définir ton seuil empiriquement : tu prends un échantillon de pixels, tu mets tous les pixels dont tu es sûr qu’ils contiennent de l’eau d’un côté et tu regarde ton ndwi min. Tu peux ensuite appliquer ce seuil à tous les pixels que tu as de disponibles.

Si ta photo est de bonne qualité et possède les bonnes bandes de fréquences, c’est assez fiable. Les ambiguïté devraient surtout se trouver sur les pixels qui contiennent à la fois de l’eau et autre chose, auquel cas les bandes de fréquences vont se moyenner. Pas vraiment des erreurs au final.

Pour déterminer ton intervalle de confiance, je ne sais pas exactement s’il y a une méthode canonique dans ce genre de cas. Une idée : prendre un autre échantillon de pixel qui n’a pas été utilisé pour calibrer ton indice et regarder ta matrice de confusion. Puis inférer sur l’ensemble du jeux de données. Comme pour un sondage.

C’est aussi du ML en fait. Tes données, ce sont des pixels échantillonnés sur l’ensemble des images, puis tu a un échantillon d’entraînement (pour calibrer ton indice), un échantillon de test (pour inférer ton intervalle de confiance). Et tu pourrais éventuellement créer des échantillons de validation, faire des boostraps, etc. Bon, à ma connaissance on s’embête rarement avec se genre de truc en photogrammétrie. Quoique je débute encore dans le domaine donc je peux me tromper.

La correction atmosphérique, c’est pour les images satellitaires, à ma connaissance on ne s’embête pas avec les photos aériennes à basse altitude.

Pour info également, l’IGN met à disposition son modèle IA pour la reconnaissance de l’occupation du sol, il est possible de le récupérer et de le ré-entrainer.

+0 -0

La correcrion atmosphérique, c’est pour les images satellitaires, à ma connaissance on ne s’embête pas avec les photos aériennes à basse altitude.

Oui, plus la couche d’atmosphère est importante plus l’effet va être prononcé. Effectivement s’il s’agit d’un drone qui a volé à 100 m de hauteur, ça n’as pas trop d’intérêt. Cela dit je serais incapable de te dire à partir de quelle altitude ça a un véritable impact sur la détection.

Connectez-vous pour pouvoir poster un message.
Connexion

Pas encore membre ?

Créez un compte en une minute pour profiter pleinement de toutes les fonctionnalités de Zeste de Savoir. Ici, tout est gratuit et sans publicité.
Créer un compte