Comment fonctionne vraiment Auto-Tune ?

a marqué ce sujet comme résolu.

Tout le monde se secoue ! :D

J’ai commencé la rédaction d’un article au doux nom de « Comment fonctionne vraiment Auto-Tune ? » et j’ai pour objectif de proposer en validation un texte aux petits oignons. Je fais donc appel à votre bonté sans limites pour dénicher le moindre pépin, que ce soit à propos du fond ou de la forme. Vous pourrez consulter la bêta à votre guise à l’adresse suivante :

Merci !


Cet article a été écrit en un week-end, mais après plusieurs semaines de recherches détaillées. J’espère qu’il vous sera utile :)

+1 -0

hello deux coquilles que j’ai remarqué :
Toutes ces harmoniques ensembles forment une son
Le remplissage de la structure AEffect*, très reconnaissable, annoté par mes soinsLe remplissage de la structure AEffect*, très reconnaissable, annoté par mes soins
La description de l’image est présente deux fois.

+0 -0

Hello, j’ai lu ton article. Déjà, c’est un chouette choix de sujet, intéressant et rarement traité malgré l’omniprésence de l’autotune dans la musique.

Je pourrais faire pas mal de remarques, mais je vais me contenter de celle-ci car, pour moi, c’est de très loin la plus importante :

Je n’ai pas compris à qui s’adresse ton texte (son public cible), ni quel est le but du texte.

Je m’explique, et j’explique pourquoi pour moi c’est un problème majeur. Je ne sais pas exactement ce que tu cherchais à faire, mais en l’état j’ai l’impression de lire un article de type « encyclopédique »1 qu’un contenu de vulgarisation ; or, en lisant un contenu sur Zeste de Savoir, je m’attends plus à de la vulgarisation qu’à de l’encyclopédie.

En l’état, j’ai l’impression que tu as un peu trop pris à cœur tes semaines de recherches détaillées et que tu as tenu à les « rentabiliser » en essayant de mettre un maximum de ce que tu as appris pendant tes recherches dans un unique contenu. Le résultat, c’est un texte ultra-dense, ultra-complexe qui abordes des tonnes de notions qui n’ont pas grand-chose à voir les unes avec les autres et parfois qui n’ont pas vraiment de rapport avec le sujet. Je ne dis pas que c’est ce que tu as volontairement fait, mais c’est très clairement l’impression que me donne ce texte.

Toutes ces informations peuvent être intéressantes, mais de mon point de vue tu gagnerais beaucoup à découper ton sujet en plusieurs articles chacun ciblés sur un point précis – ou en un moyen-tuto avec des parties mieux séparées.

Le but pour le lecteur, c’est de savoir rapidement (à la fin de l’introduction) en ayant une idée de ce qu’on va apprendre et des prérequis nécessaires. Ça permet de déterminer rapidement si le contenu peut nous intéresser, et si on a les connaissances nécessaires pour le comprendre.

Le but pour l’auteur, c’est de fiabiliser sa transmission de connaissance : on va maximiser les chances que les lecteurs retiennent quelque chose d’utile du contenu.

Comme je l’ai dit, ici tu enchaines les notions les unes après les autres. Tu mélanges allègrement les notions assez pointues avec des redéfinitions très basiques, ce qui alourdit beaucoup le texte mais nécessite quand même des connaissances diverses et assez avancées pour bien comprendre.

Voici la liste des notions que tu abordes, dans l’ordre :

  • Physique de base (ce qu’est un son)
  • Psychoacoustique (sur notre perception du son)
  • Retour à de la physique un peu moins de base (les résonances)
  • Retour à la psychoacoustique.
  • Un passage sur ce qu’est une voyelle ou une consonne d’un point de vue sonore
  • Une section entière sur les domaines temporels et fréquentiels, avec :
    • De la visualisation du son et des représentations physiques
    • De la biologie sur la façon dont perçois les hauteurs de notes et les limites liées
    • Des mathématiques de traitement du signal avec la transformée de Fourier
    • Une mention informatique avec la FFT
    • … tout ça pour rien, puisque tu finis par nous expliquer que l’auto-tune n’utilise que le domaine temporel !
  • De la théorie de la musique occidentale, avec des raccourcis assez violents dont je ne suis vraiment pas sûr qu’ils apportent quelque chose au lecteur (je pense que @Nohar peut t’aider à fluidifier cette partie, si elle est vraiment indispensable au contenu)
  • Le retour de la psychoacoustique avec la notion de dB(A) (et la même toi tu dis que tu t’égares)
  • On arrive à un moment où j’apprends en même temps :
    1. Que ce que tu appelles « auto-tune » ça a l’air d’être un logiciel précis (pour moi c’était une catégorie de logiciels, comme « un logiciel de dessin vectoriel » (ou plus exactement une catégorie de plugins pour logiciels de son)
    2. À quoi ressemble l’interface d’un tel logiciel (pourquoi pas plus tôt ?)
    3. Une digression sur l’origine des noms latins des note en plein milieu de la légende de l’image précédent.
  • Une digression qui explique qu’on va analyser le brevet. OK, pourquoi pas.
  • Des statistiques avec l’autocorrélation.
  • Mélangées avec des considérations d’implémentation (les histoires de downsampling) et d’autres complètement annexes (l’explication de pourquoi 44100 Hz d’échantillonnage).
  • Une description très « technique » de ce que fait le brevet. En fait, pendant pas mal de paragraphe j’ai plus l’impression de lire une paraphrase du brevet avec quelques commentaires qu’une explication.
  • On passe à l’informatique avec les plugins VST
  • Visiblement pour les gens qui n’y connaissent rien en programmation, puisque tu redéfinis ce qu’est une bibliothèque logicielle.
  • Visiblement pour des gens qui s’y connaissent vraiment bien en programmation, puisque tu rentrent dans des considérations pour savoir qui dessine les fenêtres du plugins, puisque tu montres carrément des images de plugins décompilés !
  • Puis un passage sur les modes d’utilisation des VST.
  • Et pas de conclusion, mais à la place une citation intéressante sur l’usage créatif de ces outils, et une digression sur d’autres effets sonore (vocoder / phaser / flanger).

D’autre part, attention à tes attributions de licences. Par exemple, l’image « enveloppe d’une note » n’est pas « CC BY-SA Wikipedia » avec un lien vers la page « Enveloppe sonore », mais « CC BY-SA 3.0 Omegatron » avec un lien vers la page de l’image.

Ah, et un point « de détail » que je signale parce qu’il m’a complètement fait bugger. Après ta première représentation sonore, tu dis ceci :

Si vous êtes observateur, vous constatez que nous avons sur l’axe horizontal les secondes, et sur l’axe vertical la fréquence.

Sauf qu’on ne peut rien constater du tout : il n’y a aucune légende, pour aucun des axes comme pour le code couleur utilisé.


  1. Je serais même plus précis que ça : j’ai vraiment l’impression de lire l’un de ces articles techniques de Wikipédia que l’on connait tous, ceux où il y a une base de vulgarisation à peu près claire, qui a été noyée par une masse « d’experts » (réels ou non) qui ont chacun ajouté une précision sur un détail, parce que la précision est important. Ça fait un article très complet, très précis… et à peu près incompréhensible.

Déjà, c’est un chouette choix de sujet, intéressant et rarement traité malgré l’omniprésence de l’autotune dans la musique.

Tout à fait, peu d’information publique et complète disponible sur le sujet à part le brevet, les rares sources abordant l’aspect technique sont incomplètes et se contredisent.

Je n’ai pas compris à qui s’adresse ton texte (son public cible)

Les trois premiers quarts sont faits pour être accessibles à une personne avec un niveau basique à moyen en informatique. Le dernier quart ajoute des informations adressées aux personnes avec des connaissances plus avancées pour qui souhaiterait creuser davantage.

ni quel est le but du texte.

Fournir une vision globale du fonctionnement d’un plug-in de correction de hauteur (ici Auto-Tune d’Antares) en exposant les principes et les problématiques techniques qui ont mené à ses choix de conception.

Je ne sais pas exactement ce que tu cherchais à faire, mais en l’état j’ai l’impression de lire un article de type « encyclopédique » qu’un contenu de vulgarisation 

La règle d’écriture utilisée est de considérer l’ensemble des notions nécessaires qui ne sont probablement pas connues par une personne qui est externe au domaine de l’audio numérique en général (soit la plupart des gens qui sont susceptibles de s’intéresser au sujet) et de les expliquer dans l’ordre, en évitant d’employer une notion qui n’est probablement pas connue avant de la définir. Cela afin de permettre une lecture relativement linéaire.

Le fait de mettre les éléments plus avancés à la fin revêt du même objectif.

Les définitions sont écrites dans l’objectif d’être relativement succinctes/synthétiques/vulgarisées (si on compare à Wikipédia, je pense qu’elles le sont).

… tout ça pour rien, puisque tu finis par nous expliquer que l’auto-tune n’utilise que le domaine temporel !

Oui, c’est un hack et il me semble important de comprendre ce qui fait qu’une forme d’onde est une forme d’onde et jusqu’à quelle limite avant d’essayer d’effectuer du traitement dans le domaine temporel. Et pas mal de plug-ins concurrents utilisent une transformation de Fourier glissante avec utilisation de l’information de phase.

en lisant un contenu sur Zeste de Savoir, je m’attends plus à de la vulgarisation qu’à de l’encyclopédie.

Si ça ne correspond pas à la ligne éditoriale du site Ok

Toutes ces informations peuvent être intéressantes, mais de mon point de vue tu gagnerais beaucoup à découper ton sujet en plusieurs articles chacun ciblés sur un point précis – ou en un moyen-tuto avec des parties mieux séparées.

J’en avais commencé un ici https://zestedesavoir.com/forums/sujet/13811/la-synthese-sonore-de-zero/

ça a l’air d’être un logiciel précis (pour moi c’était une catégorie de logiciels, comme « un logiciel de dessin vectoriel » (ou plus exactement une catégorie de plugins pour logiciels de son)

C’est une marque déposée, il n’y en a qu’un seul qui porte ce nom

Ce qui me parait important dans ce que tu dis, c’est ces trois points :

Les trois premiers quarts sont faits pour être accessibles à une personne avec un niveau basique à moyen en informatique. Le dernier quart ajoute des informations adressées aux personnes avec des connaissances plus avancées pour qui souhaiterait creuser davantage.

Je trouve ça conceptuellement étrange d’avoir deux cibles aussi différentes sur un même contenu, parce que quelle que soit la personne qui va le lire, il va y avoir toute une partie qui ne va pas l’intéresser. De mon point de vue, mieux vaut avoir des contenus séparés (un pour chacun de ces points dans ton cas). Surtout qu’ici il y aurait assez peu de redite, tu peux te contenter d’en mettre un en prérequis de l’autre.

Fournir une vision globale du fonctionnement d’un plug-in de correction de hauteur (ici Auto-Tune d’Antares) en exposant les principes et les problématiques techniques qui ont mené à ses choix de conception.

J’ai l’impression que ta vision « globale » est plutôt une vision « complète », dans le sens où tu proposes de tout étudier en détail, au lieu de donner une vision d’ensemble puis (dans la suite ou dans un autre contenu) de focaliser sur des points précis.

De mon point de vue ça rends l’ensemble assez confus et indigeste, mais c’est à voir avec d’autres et avec la validation.

C’est une marque déposée, il n’y en a qu’un seul qui porte ce nom

Curieusement j’ai toujours entendu « autotune » utilisé comme un nom commun. Ce fait gagnerait à être remonté en début de tuto :)

Bon courage pour la suite !

Curieusement j’ai toujours entendu « autotune » utilisé comme un nom commun. Ce fait gagnerait à être remonté en début de tuto :)

Moi aussi, je vais l’ajouter

J’ai l’impression que ta vision « globale » est plutôt une vision « complète », dans le sens où tu proposes de tout étudier en détail, au lieu de donner une vision d’ensemble puis (dans la suite ou dans un autre contenu) de focaliser sur des points précis.

Oui, j’ai délibérément choisi d’appliquer une approche transversale puisque c’est ce que j’aurais voulu lire.

En fait, il m’a semblé normal de brancher le traitement de signal sur la psychoacoustique (parce qu’un outil mathématique appliqué à l’interprétation d’un signal audio n’est rien de plus qu’un gros jouet fait pour simuler un processus biologique) et la psychoacoustique sur la physique (parce que l’audition comme d’autres sens cherche à rendre interprétables des mécanismes physiques, globalement). Je ne me suis pas étendu sur la physique parce ce n’est pas mon domaine et que ça n’aurait plus tenu dans un article, mais en ne connaissant pas le sujet j’aurais été laissé sur ma faim si l’article ne parlait que de mathématiques (j’aurais eu l’impression de voir des choses sorties d’un chapeau sans pouvoir les relier à une logique formelle) ou que de psychoacoustique (ça n’expliquerait pas ce qui est fait, tout simplement).

C’est valable aussi pour d’autres sujets, je pense qu’un cours d’introduction à l’apprentissage machine qui ne parle que de mathématiques et qui name-drop des techniques, mais qui zappe les enjeux de base (on s’amuse à saturer les capacités computationnelles de nos GPU pour créer des gros graphes logiques d’opérations arithmétiques, qui ne sont au final rien de plus que des modèles statistiques complexes, dont on va réguler la formation par des éléments d’entrée et de sortie, et qu’on va éventuellement relier à d’autres formes d’heuristiques – favoriser la recherche de formes pour les réseaux convolutifs, etc.), c’est opaque et ça n’apprend rien.

Je retiens mieux une explication si je retiens ce qui est fait et pourquoi.

Je sais que l’article s’étend en longueur, mais j’ai essayé de le diluer avec beaucoup d’illustrations (je pense que c’est une manière tangible de faire comprendre à quelqu’un les différentes manières de se représenter un signal audio, que la voix ou la plupart des instruments sont faits d’harmoniques, etc. et que si on ne comprend pas ça on ne peut purement pas comprendre la suite) et des paragraphes courts, et pas trop jargonnants en dehors de ce qui est expliqué.

Je trouve ça conceptuellement étrange d’avoir deux cibles aussi différentes sur un même contenu, parce que quelle que soit la personne qui va le lire, il va y avoir toute une partie qui ne va pas l’intéresser.

Je suis peut-être un lectorat minoritaire mais moi, si on m’avais montré tout ça il y a deux ou trois ans, j’aurais été intéressé par tout. Ce n’est peut-être pas les règles ou les habitudes du site, mais il ne me semble pas rare de voir un contenu didactique se terminer par une section « Pour approfondir » ou plonger graduellement dans les détails au fur et à mesure qu’on s’y aventure.

Sauf qu’on ne peut rien constater du tout : il n’y a aucune légende, pour aucun des axes comme pour le code couleur utilisé.

C’est l’interface d’Audacity, et on peut le constater parce que je l’indique dans le texte. Je pourrais préciser les unités et les échelles de couleur dans le texte, ce n’est pas une mauvaise idée.

+0 -0

Je vois. Je pense que tu devrais consulter cette chaine Youtube, qui parle surtout de produire des vidéos mais dont beaucoup de conseils peuvent s’appliquer aussi à l’écriture de tutos.

Notamment celle-ci pour commencer :

D’autre part, à moins de faire un tuto sur l’utilisation avancée d’un logiciel, tu ne peux pas partir du principe que la personne qui te lit connais assez bien ce logiciel pour 1. l’identifier immédiatement et 2. sache interpréter ce qu’elle voit.

De mon point de vue ça rends l’ensemble assez confus et indigeste, mais c’est à voir avec d’autres et avec la validation.

Tu me coupes un peu l’herbe sous le pied (mais en bien ! :) ) puisque le tuto est déjà en validation (@r0anne, il est d’ailleurs préférable d’attendre un peu en beta avant d’envoyer) et je m’apprêtais à faire un retour similaire au tien. Le sujet est super et il y a beaucoup de choses très intéressantes qui sont abordées, mais c’est effectivement indigeste en l’état.


Vouloir tout condenser dans un seul tuto ne sert pas les thèmes que tu abordes. Tu dis vouloir faire une approche transversale, et c’est tout à ton honneur, mais en l’état tu cherches à faire passer tout un tas de concepts en même temps et c’est incompréhensible sans connaitre un minimum ce qui se passe. Pour faire quelque chose de transversal, il faut prendre beaucoup plus le temps de poser les choses. Tu ne peux pas connecter des notions complexes entre elles de façon claire si elles sont toutes exposées rapidement et un peu approximativement. Typiquement, je suis sûr que toute la physique des ondes que tu présentes passe au-dessus du lecteur qui n’a pas déjà un minimum de connaissances sur la physique du son. Pareil pour la psychoacoustique, surtout que la distinction avec la physique n’est pas toujours faite. Ça fait que tu mets des noms sur beaucoup de choses (parfois faux dans un soucis de simplicité comme dire que l’amplitude est une force ou qu’une fréquence est une vitesse…), mais le pouvoir explicatif du texte est relativement faible. Le summum de ça est quand tu parles de transformées de Fourier (outre le fait qu’on ne s’en sert pas).

Ok. Maintenant, tu vas nous parler d’Auto-Tune, qui est un programme informatique. Comment est-ce qu’un ordinateur fait la conversion entre le domaine fréquentiel et le domaine temporel ?

Eh bien, pour ça, on a tendance le plus souvent à utiliser une fonction mathématique qui s’appelle la transformation de Fourier.

La transformation de Fourier d’origine s’applique sur des grandeurs physiques, qui ont potentiellement une résolution infinie (ou plutôt, nous n’en percevons pas les limites, sauf avec des outils très avancés). En informatique, un son est forcément codé avec une quantité limitée de 0 et de 1, et donc une quantité finie de valeurs. C’est pour ça que la transformation de Fourier utilisée en informatique est la transformation de Fourier discrète, ou DFT (discrète = elle agit sur un nombre limité de valeurs).

OK, donc tu dis que pour passer du temporel au fréquentiel, on utilise la transformée de Fourier qui est un outil mathématique qui fait ce dont on a besoin. Cool, mais on a en fait rien appris de substantiel. On ne sait pas plus ce qu’est une transformée de Fourier ni comment ça marche, même dans les grandes lignes. Tu pars ensuite sur des considérations de signal discret vs signal continu qui ne parleront qu’à ceux qui ont déjà des notions de traitement du signal (et donc savent déjà tout ça).

Je pense que la question de SpaceFox de savoir à qui tu veux t’adresser est clé. Il n’y a pas de problème à avoir des pré-requis sur ton contenu (même si on préfère des choses accessibles aux débutants ici), mais il faut vraiment que tu te poses cette question de façon plus approfondie. Là ça part dans tous les sens parce que tu veux à la fois être bref et transversal. Ce n’est pas possible.

+4 -0

Bonjour,

Je comprends que le format ne te convienne pas. Pour ma part, j’apprécie de tomber sur des contenus qui présentent une certaine densité d’information – même si ça nécessite d’aller revérifier des notions à droite à gauche, même s’il faut déjà s’y être intéressé un peu pour aborder le sujet facilement… Avoir un aspect « pense-bête » avec pas mal de notions abordées sur peu d’espace (mais des phrases écrites dans un langage complet et cohérent, et un schéma d’ensemble qui permette d’avancer linéairement) permet de naviguer rapidement quand on fait des recherches sur un sujet, de se rafraîchir la mémoire ou encore de s’aligner sur les notions abordées par l’auteur. Globalement, les articles sur de nombreux de sujets techniques abordés sur la version anglophone de Wikipédia tendent à afficher ces qualités synthétiques (bien qu’il s’agisse de contenus encyclopédiques et non didactiques), ce qui n’est pas le cas d’autres types de contenus beaucoup plus verbeux (pas mal de livres en général).

Je l’ai donc écrit parce que je serais moi-même demandeur de ce genre de contenus.

Je comprends que les autres notions évoquées pourraient être abordées plus largement et plus en détail, mais je ne compte pas continuer dans l’immédiat le gros tutoriel que j’avais commencé. Si j’enlevais les notions survolées au début de l’article, ce serait essentiellement une synthèse du brevet, où le jargon ne serait plus expliqué, et il n’y aurait donc pas de vulgarisation. Si le format n’est pas adapté à la ligne éditoriale applicable aux articles du site, devrais-je en faire un billet ?

Bonne journée,

+0 -0

Comme tu le dis toi-même, un contenu "pense-bête" se rapproche plus d’un article encyclopédique et n’est pas ce qui correspond à la ligne éditoriale.

En faire un billet serait effectivement une solution puisque la seul nécessité devient de respecter la loi et les CGUs.

Au-delà de la question de la validation sur ZdS cela dit, j’ai l’impression que ton objectif premier est de partager ta connaissance. Et là, je pense vraiment qu’il y a un réel potentiel à ton contenu qui est un peu "gâché" par l’approche type "pense-bête" que tu prends. Évidemment, tu es complètement libre d’écrire ce que tu veux et il est normal que tu écrives ce que tu veux lire, donc ce que je dis est purement de l’ordre du conseil.

Pour revenir sur le point d’écrire ce que tu veux lire justement, j’ai l’impression qu’il est extrêmement important de se rappeler aussi de ne pas écrire que pour soi si le but final est effectivement de partager de la connaissance. Le danger d’un style "pense-bête" est d’aborder les choses sous un angle qui ne parle qu’à toi parce que tu as la quantité de détail qu’il te faut là où il faut pour pouvoir te rappeler de tes propres connaissances. Mis entre les mains de quelqu’un autre qui a sa propre approche, sa propre connaissance du domaine et ses propres intérêts, ça peut devenir quasiment inutile du fait que tout est présenté à travers un prisme qui te correspond.

Typiquement quand je lis ce tuto, je ne le trouve ni linéaire, ni cohérent, ni dense en information (tout en étant dense en concepts, ce qui est ironique), parce que les rappels qui te parlent à toi ne me parlent pas du tout. Il y a plein de branches qui partent dans tous les sens, de longueurs très variables, et sans feuille pour étancher mon appétit. Il y a même des tournures qui te parlent à toi mais qui me semblent extrêmement obscures voire tenir du hand-waving et qui me laissent juste penser "okay, là l’auteur n’en sait pas plus et essaye de se débarrasser du problème d’une façon semi-convaincante" (c’est particulièrement vrai pour les notions qui se raccrochent à la physique où on a tous les deux des attentes différentes en profondeur d’explications).

Pourtant, je raffole comme toi des contenus qui vont à l’essentiel tout en donnant du grain à moudre pour aller plus loin dans diverses directions. M’est avis que ce type de contenu est en fait très difficile à écrire, notamment parce que la question du "jusqu’où aller" mentionnée plus haut est difficile à doser pour paraître à la fois homogène dans le contenu et satisfaire des appétits variés.

Bref, ce commentaire sonne probablement assez dur alors qu’il y a de bonnes choses dans ce contenu, et je pense sincèrement que la question de faire attention à produire quelque chose d’utilisable par quelqu’un d’autre que toi est importante (on revient à la question de la cible du contenu).

+3 -0
Ce sujet est verrouillé.