ISO 8859-1 et le caractère €

spiritwhite, vendredi 13 juillet 2018 à 10h25

Bonjour à tous,

Je suis tombé sur un truc que je n’arrive pas totalement à comprendre.

Je travail sur une application en ISO-8859-1 (le passage en UTF-8 est exclu…) Normalement dans ce jeu de caractère le € n’est pas supporté. Pourtant lorsqu’un utilisateur rentre le € il est bien restitué plus tard à l’affichage.

Ma première hypothèse a était que le navigateur s’il ne sait pas afficher un caractère en dehors du charset utilisé utilise de cp1252 de windows. Hors en essayant sur une distribution linux le caractère est toujours bien affiché

Quelqu’un aurait une idée de ce qui ce passe exactement ? :'(

13/07/18 à 10h25

+0 -0

SpaceFox, vendredi 13 juillet 2018 à 10h44
Modifié

Je soupçonne que pour une raison ou une autre, c’est ISO 8859-15 qui est utilisée. Cf https://fr.wikipedia.org/wiki/ISO/CEI_8859-15#Différences_avec_ISO_8859-1

13/07/18 à 10h44
Modifié

Les textes de SpaceFox & Lisa Refur – Un Renard en Corée – Un renard au Japon – @spacefox@mastodon.spacefox.fr

+0 -0

spiritwhite, vendredi 13 juillet 2018 à 10h51

Justement non, on étudie la possibilité de passé en ISO-8859-15 mais ce n’est pas encore fait. L’intégralité de l’application est en ISO-8859-1… ça me rend fou ce truc :colere:

13/07/18 à 10h51

+0 -0

SpaceFox, vendredi 13 juillet 2018 à 10h58
Modifié

Je vois deux possibilités :

Soit une lib quelque part utilise ISO-8859-15 sans prévenir. Ça se teste en utilisant les caractères du lien ; crée une entrée avec les 16 caractères, et regarde ce qui sort. Si certains ont été modifiés, ça te donnera le jeu ISO utilisé.
Soit, et maintenant que j’y pense c’est sans doute le plus probable, tu as un double encodage : des octets Unicode enregistrés comme du ISO. Ça se vérifie en forçant l’affichage en ISO et/ou en regardant les données au niveau binaire. Cf https://www.fileformat.info/info/unicode/char/20ac/index.htm pour savoir quoi chercher.

Le point 2 était très courant à une époque : tu avais l’impression que tu manipulais de l’ISO, mais en fait c’était de l’Unicode (parce qu’une entrée te file des octets Unicode que tu traites sans conversion explicite). Ça se voit en BDD, les octets sont bien ceux d’unicode.

Le piège c’est que si ça donne l’impression que ça marche, en vrai ça casse plein de trucs (recherche, tailles des chaines de caractères, certains traitements plantent carrément…)

13/07/18 à 10h58
Modifié

Les textes de SpaceFox & Lisa Refur – Un Renard en Corée – Un renard au Japon – @spacefox@mastodon.spacefox.fr

+0 -0

Taurre, vendredi 13 juillet 2018 à 14h10

Salut,

Si la question se pose toujours après les réponses de SpaceFox, peux-tu nous donner un peu plus de détails ? Notamment :

Dans quel langage est conçu ton application ?
Fais-tu appel à des fonctions de localisation (setlocale() en C par exemple) ?
Par quel moyen l’utilisateur interagit-il avec ton application (terminal ou graphique, notamment) ?

13/07/18 à 14h10

#JeSuisArius

+0 -0

spiritwhite, vendredi 13 juillet 2018 à 17h28

Merci pour vos réponses.

L’hexadécimal du code stocké en base est : 0x80 (c’est du CP1252).

Je développe en Java. Java pour ses chaînes de caractère utilise uniquement de l’Unicode si j’ai bien compris. Les locales sont défini par un serveur d’application.

C’est une interface web.

13/07/18 à 17h28

+0 -0

SpaceFox, vendredi 13 juillet 2018 à 17h31
Modifié

L’hexadécimal du code stocké en base est : 0x80 (c’est du CP1252).

spiritwhite

Tu as donc ta réponse : vous utilisez le jeu de caractères Windows-1252 et pas ISO-8859-1. Le caractère 0x80 fait justement partie de ceux qui sont différents entre ces deux normes.

PS : ton premier message, et le titre du topic n’étaient pas clairs. Les jeux de caractères Windows-1525 et ISO-8858-1[5] ne sont pas interchangeables. De plus (dans ton premier message) :

Hors en essayant sur une distribution linux le caractère est toujours bien affiché

Pourquoi ne le serait-il pas si c’est une page web ? Les navigateurs sont tout à fait capables de gérer des tas d’encodages différents, et heureusement.

13/07/18 à 17h31
Modifié

Les textes de SpaceFox & Lisa Refur – Un Renard en Corée – Un renard au Japon – @spacefox@mastodon.spacefox.fr

+0 -0

cbourree, vendredi 13 juillet 2018 à 23h24
Modifié

C’est drôle par ce que hier j’ai fait une super blague :

[…] c’est presque aussi intéressant que de lire la norme iso 8559. https://fr.wikipedia.org/wiki/ISO/CEI_8859

En prenant cette norme totalement au hasard. Le destin ?

13/07/18 à 23h24
Modifié

Qui ne pète ni ne rote est voué à l’explosion.

+1 -0

spiritwhite, lundi 16 juillet 2018 à 09h26

On vient de trouver le problème. Les utilisateurs s’amusent à faire des copier-coller depuis des documents word ayant des caractères windows 1525… L’application est bien en ISO-8859–1 d’après l’encodage renseigné dans l’entête de requête HTML.

En tout cas merci

16/07/18 à 09h26

+0 -0

tleb, lundi 16 juillet 2018 à 09h58

Don’t trust user data.

16/07/18 à 09h58

Carte des membres

+2 -0

Pas encore membre ?