[Résolu] Courbe de tendance sigmoïde sur Excel • Forum • Zeste de Savoir

Le Gigot, samedi 26 septembre 2015 à 22h00

Oui, je voulais dire obtenir une courbe lisse à partir de mes 10 points. Comment fonctionne l'inversion proposée par adndebanane ? (C'est juste par curiosité, parce que comme je l'ai mentionné, on peut aussi simplement dessiner la courbe à la main pour ce travail. C'est moi qui me suis compliqué la tâche pour rien.)

26/09/15 à 22h00

+0 -0

Goeland-croquant, samedi 26 septembre 2015 à 22h11

Arf, autant pour moi et désolé ! Mais normalement Excel fournit une courbe lissée justement ? Ou alors pour avoir la courbe la plus sigmoïde possible il faut passer par la méthode dont on parlait plus haut - faire apparaître sur le même graphique les points réels et la courbe modèle obtenu par "régression sigmoïde manuelle".

Du coup en reprenant la méthode d'évaluation des paramètres via le solveur, tu obtiens les valeurs des paramètres du modèle et tu t'en sers pour générer des points en balyant les valeurs de X entre les points extrêmes réels. Et après, tu peux superposer les graphiques pour faire ressortir le message : valeurs expérimentales, régression sigmoïde.

26/09/15 à 22h11

Petit goéland très cordial

+0 -0

adri1, samedi 26 septembre 2015 à 22h18

Je ne sais pas quel est l'agorithme exact utilisé par Excel (pour ça que je m'en sers pas d'ailleurs ), mais l'idée générale de ce genre d'algo est toujours la même. Je vais retenter une explication un peu différente de celle d'adndebanane.

Tu as certain nombre de données $(X_i, Y_i)$. Tu as une théorie qui te dit que tes données $(X_i, Y_i)$ sont représentables par une sigmoïde paramétrée par $\mathbf m=(a,b,c,d,e,f)$. $\mathbf m$ (appelé modèle) appartient donc à un espace à 6 dimensions, par exemple $\mathbb R^6$.

Le jeu va donc être de trouver le vecteur $\mathbf m$ de l'espace des modèles qui te permet d'avoir la sigmoïde qui colle le mieux à tes données. Pour savoir si une sigmoïde paramétrée par un vecteur $\mathbf m$ colle ou pas à tes données, on calcule la somme sur $i$ des écarts au carré entre $Y_i$ et le $Y_s$ qui serait prédit par la sigmoïde $s(\mathbf m)$ au point $X_i$. Plus la somme est faible, plus on considère que la sigmoïde colle aux données.

Excel contient un algo capable d'explorer l'espace des modèles de façon à trouver le vecteur $\mathbf m$ qui donne la meilleur sigmoïdes.

Évidemment, de manière générale dans ces problèmes d'inversion il n'y a pas une seule façon de se balader dans l'espace des modèles pour trouver le meilleur, ni une seule façon de calculer la distance entre la sigmoïde (ou de manière générale les prédicitions faite à partir d'un modèle) et les données que l'on a. Il y a même des méthodes d'inversion qui nous donnent en sortie des densités de probabilité associée à chaque sigmoïde que l'on peut obtenir en se baladant dans l'espace des modèles. Pour te dire, c'est carrément une branche des maths appelée "inverse problem".

26/09/15 à 22h18

I don’t mind that you think slowly, but I do mind that you are publishing faster. — W. Pauli

+1 -0

adndebanane, samedi 26 septembre 2015 à 22h52

La démarche usuelle et courante pour comprendre un phénomène naturel est de formuler des hypothèses à partir de ce que l'on sait, d'essayer de prédire le comportement dudit phénomène en accord avec ces hypothèses (en formalisant l'énoncé de l'hypothèse avec un modèle par exemple)

Attention, la formalisation des hypothèses, c'est la théorie (la formule de la sigmoïde par exemple). Le modèle, c'est la valeur des paramètres (un point dans le paysage de vallées et cols que tu décrivais plus haut).

Tu peux tout à fait t'inspirer de cette démarche ici. Tu as une théorie (ton cours) et tu essayes de la valider (ou de l'infirmer) par l'expérience (tes données obtenues en TP).

Là aussi, attention. En général, les données vont juste permettre d'infirmer ou confirmer un modèle précédent. Pour remettre en cause la théorie, c'est une autre paire de manche et ça se fait rarement avec des données seules. Il faut aussi venir avec une autre théorie qui a à la fois des justifications fondamentales et un pouvoir explicatif meilleur (ie la capacité à trouver des modèles plus robustes et permettant des prédictions plus proches des données).

adri1

Ce n'est pas le bon endroit pour discuter de ce que l'on entend par modélisation et par modèle mais sache que tes définitions un peu restrictives ne sont pas forcément partagées par tout le monde =)

Sinon, pour répondre à Le Gigot, ce qu'il faut que tu fasses c'est :

Sur ta feuille de calcul, entre tes données observées sur l'expérience dans deux colonnes X et Y.
Fait un graphique qui montre ce nuage de points
calcule la SCE et ajuste les paramètres de ta sigmoïde avec le solveur, comme on l'a discuté plus haut
dans une autre colonne, met une séquence de $X_t$ avec le pas de ton choix (genre 0.01) et calcule dans la colonne adjacente l'image de chacun de ces $X_t$ par la fonction sigmoïde avec les paramètres que tu viens d'ajuster par le solveur
ajoute ce nouveau nuage de point $(X_t, Y_t)$ sur le graph précédent - si tu as choisi un pas suffisamment petit, tu devrais obtenir une courbe théorique bien lisse

26/09/15 à 22h52

+1 -0

adri1, samedi 26 septembre 2015 à 23h04

Ce n'est pas le bon endroit pour discuter de ce que l'on entend par modélisation et par modèle mais sache que tes définitions un peu restrictives ne sont pas forcément partagées par tout le monde =)

Je pense surtout que ces définitions (ce ne sont pas juste les miennes mais celles des gens qui bossent sur les problèmes inverses) sont beaucoup moins restrictives que tu le penses. L'espace des modèles peut parfaitement contenir des sous-espaces qui contiennent des fonctions. Le formalisme apporté par les maths dans cette branche est hyper-puissant et souple, à un point qu'à peu près tout le monde à l'exception des biologistes l'utilise.

26/09/15 à 23h04

I don’t mind that you think slowly, but I do mind that you are publishing faster. — W. Pauli

+0 -0

Goeland-croquant, samedi 26 septembre 2015 à 23h14
Modifié

Le formalisme apporté par les maths dans cette branche est hyper-puissant et souple, à un point qu'à peu près tout le monde à l'exception des biologistes l'utilise.

Les géologues relancent la guerre biologie vs géologie o/

Plus sérieusement, peux-tu expliciter ce point ? Je vois pas ce que tu veux dire par là.

26/09/15 à 23h14
Modifié

Petit goéland très cordial

+0 -0

adri1, dimanche 27 septembre 2015 à 10h29
Modifié

Plus sérieusement, peux-tu expliciter ce point ? Je vois pas ce que tu veux dire par là.

Quel point ? Il n'y a pas grand chose à expliquer, c'est juste un fait. À peu près l'ensemble des scientifiques utilise le même formalisme pour traiter les problèmes inverses (simplement parce que ce formalisme est compris par tout le monde et est assez souple pour formaliser jusqu'au raisonnement scientifique dans son ensemble). La grosse exception, ce sont les biologistes. Ce n'est pas une question de guéguerre stérile, c'est un simple fait. Ça doit simplement venir de la faible mathématisation de la discipline.

27/09/15 à 10h29
Modifié

I don’t mind that you think slowly, but I do mind that you are publishing faster. — W. Pauli

+0 -0

Goeland-croquant, dimanche 27 septembre 2015 à 11h05

Si je posais la question c'est pas pour dire "je suis as d'accord prouve le" . Tantôt je suis d'accord pour dire qu'on a une faible mathématisation, que les seuls cours de maths que j'ai eu depuis la L3 se résument à un poly de stats avec des tests - et que je vois beaucoup de figures avec une "régression linéaire" qui n'est visiblement pas vraiment adaptée, tantôt quand je vois des articles sur des données de biophysique ou des trucs dans le genre, y'a des modèles plus ou moins complexes avec des calculs d'estimation de paramètres pour fitter les données.

27/09/15 à 11h05

Petit goéland très cordial

+0 -0

adri1, dimanche 27 septembre 2015 à 12h39

tantôt quand je vois des articles sur des données de biophysique ou des trucs dans le genre, y'a des modèles plus ou moins complexes avec des calculs d'estimation de paramètres pour fitter les données.

Et donc ? Je ne vois pas où tu veux en venir. Soit si ils utilisent un formalisme différent, ça illustre ce que je disais ; soit ça élargit encore la communauté qui emploie le formalisme en question (ce qui n'est vraiment pas un mal ).

27/09/15 à 12h39

I don’t mind that you think slowly, but I do mind that you are publishing faster. — W. Pauli

+0 -0

Goeland-croquant, dimanche 27 septembre 2015 à 12h52
Modifié

Là où je veux en venir, c'est qu'on ne peut pas aller plus loin que le « modèle 0 » (par exemple linéaire pour des grandeurs quantitatuves et on-off pour dans les autres cas) dans beaucoup de cas parce qu'on ne connaît encore aucune loi qui explique bien nos observations (de la taille de génome et nombre de gènes à la relation entre taille des organes sexuels et comportement sexuels).

Là effectivement, on fait pas grand chose. Mais pour reprendre ce dont tu parlais, c'est - à mon sens - plus lié à un manque de théorie pour partir sur des modèles complexes qui recourraient à tout ce tralala et on se cantonne pour l'instant à faire des jolis droites ; soit on est quand même déjà passé à ce formalisme quand on le pouvait (je donne quelques exemples qui me passe par la tête) :

ciinétique enzymatique : du michaélis-menten pour les cas simples à des cinétiques à 2 ou 3 substrats et cinétique allostérique –> extraction des grandeurs caractéristiques type constante de fixation et de vitesse + détermination de l'ordre de fixation dans les cas à plusieurs substrats
Mesure d'interactions protéines protéines RMN (et autres techniques de spectroscopies) qui viennent relier l'amplitude des pics à la constante d'associativité, la concentration de protéines et leurs substrats
en écologie, équations différentielles et consorts qui viennent prendre en compte la prédation et disponibilité en nourriture - pour prendre l'exemple le plus courant donc probablement le plus débile aussi mais l'idée est là - et prédire l'évolution du nombre d'individus. Le plus dur c'est de récupérer des données mais ça a le mérite d'être en développement
autres modèles de coopérativité qui reposent sur la statistique de Boltzmann pour expliquer certains comportements sigmoïdes (cf plus haut, je sais pas si ça rentre exactement dans ce moule mais y'a des chances) et permettent d'estimer les grandeurs énergétiques mises en jeu dans la coopérativité
résistance de la membrane lipidique, comportement de ces lipides et déformation

Dans tous ces cas, on vient faire des données expérimentales, utiliser des modèles dont l'expression est plus ou moins dégueu pour extraire les données caractéristiques et fitter les données. Je saurais pas dire si c'est exactement le formalisme dont tu parlais - d'où ma question à la base en fait - mais d'après ce que je vois, ça rejoint tout de même cette approche globale - dans le but d'extraire des grandeurs caractéristiques et de valider les modèles quand c'est possible.

27/09/15 à 12h52
Modifié

Petit goéland très cordial

+0 -0

adri1, dimanche 27 septembre 2015 à 13h04
Modifié

Hmmm, je pense qu'il y a malentendu. Ma remarque de base ne concernait pas le fait que les biologistes ne font pas d'inversion (alors qu'ils en font même de façon plutôt élaborée dans certains cas comme ceux que tu cites ; de toute façon sans inversion, pas de science, peu importe le formalisme qu'on lui donne derrière), mais concernait le fait que ce sont les rares à mélanger allègrement les termes de modèle et théorie. Et cette remarque concernait celle d'adndebanane sur le fait que les définitions que j'employais sont restricives et pas utilisées par tout le monde alors qu'elles sont au contraire souples et utilisées par presque tout le monde.