Retour sur une semaine compliquée pour Zeste de Savoir

Salut les agrumes !

Vous l'avez sans doute remarqué, mais la semaine passée a été compliquée sur Zeste de Savoir : lenteurs généralisées, site inaccessible, bugs dans tous les sens, etc. Maintenant que le gros de la tempête est passé, voici venir le temps du bilan…

L'état actuel du site
Mais comment en est-on arrivés là ?
La suite des événements

L'état actuel du site

Commençons par là, puisque c'est sans doute le plus important pour vous, visiteurs. La première chose que vous devez savoir, c'est ceci :

Toutes les données du mardi 18 août 2015, de 3h00 à minuit, heure de Paris, sont hélas définitivement perdues.

Toute l'équipe du site (moi le premier) vous présente ses excuses, en particulier à tous ceux qui ont perdu du travail dans cette histoire.

Quant au reste, le site est maintenant presque rétabli dans son état normal. « Presque » car il peut subsister quelques bizarreries. À la publication de cet article, deux sont connues :

L'envoi d'images au format JPEG dans les galeries ou ailleurs sur le site (notamment dans les avatars) ne fonctionne pas.
Le serveur n'a pas d'IPv6 et donc n'est accessible qu'en IPv4. Parce que mi 2015, un hébergeur lance de nouvelles offres sans cette technologie.

N'hésitez pas à nous signaler (par exemple dans les commentaires) toute étrangeté que vous croiseriez.

Mais comment en est-on arrivés là ?

En bref : par un épouvantable concours de malchances et de problèmes en tous genres.

Acte 1 : Un hébergement inadapté

Depuis son premier jour, Zeste de Savoir était hébergé sur un VPS Classic 3 2014. Cette offre avait pour principal intérêt son rapport puissance / prix, et deux inconvénients majeurs. Le premier, une technologie qui n'offrait aucune garantie de performances. Le second, qui découle du premier, c'est que OVH considérait que ces offres ne devaient servir qu'à des fins de tests[^tests].

Or donc avec la montée en charge de Zeste de Savoir, bien plus importante que dans nos prévisions initiales, cette offre a montré ses limites. On cherchait bien une solution de rechange depuis le mois d'avril, mais le marché est complexe et très vite très cher…

Et voilà donc que début août arrivent deux nouveaux protagonistes :

Notre serveur décide d'avoir des performances vraiment minables, alors que le trafic reste stable (nous sommes au cœur de l'été). D'ordinaire ce genre de ralentissement cesse en quelques heures, mais là l'hébergeur ne semble rien faire. Et des temps d'accès entre quelques secondes et plusieurs dizaines de secondes, c'est vraiment trop.
OVH sort une nouvelle offre VPS très intéressante, et surtout avec des garanties de performances.

Donc, décision est prise de commander un de ces nouveaux serveurs, de l'installer tranquillement et une fois stabilisé, de basculer.

Acte 2 : Quand les outils vous haïssent

Nous sommes donc mardi 18 août 2015 vers 21h17 quand votre serviteur a la console OVH ouverte sur 2 onglets, l'ancienne et la nouvelle prod, pour comparer les configurations. Le moment est venu d'installer l'OS. Je vérifie l'onglet, clique sur le bouton de formatage, vérifie encore que je suis sur le nouveau serveur, confirme… et là c'est la page de l'ancien serveur qui s'affiche. Horreur.

La nouvelle console OVH (obligatoire) ne supporte pas correctement le multi-onglet.

La prod est formatée.

Les données des utilisateurs sont perdues.

L'opération ne peut pas être annulée ou arrêtée.

Une seule solution : réinstaller le serveur dans son intégralité, et du coup sur la nouvelle machine… Heureusement, on a des sauvegardes ; hélas on ne peut pas se permettre mieux que des sauvegardes quotidiennes, les VPS sont déjà « naturellement » tolérants à toutes sortes de pannes sur une telle architecture. Mais ces sauvegardes sont faites à 3h00 du matin, et il est 21h00 passées, autant dire qu'on est dans le pire des cas : une journée presque complète est perdue !

Pendant la soirée, j'ai aussi constaté que cette console d'administration est globalement d'une fiabilité douteuse : interface de gestion des DNS qui ne correspond pas à la configurations sous-jacente (heureusement éditable en mode texte), messages d'erreurs plus ou moins aléatoires, …

Acte 3 : Bis repetitas ne placent pas toujours

Donc voilà, on réinstalle, tout se passe bien, on a hélas perdus des données et quelques heures de sommeil, fin de l'histoire.

Fin ? Non, parce que quelques grains de sable sont venus se rajouter à cette machine déjà passablement grippée.

Pour commencer, si les données étaient sauvegardées, ce n'était pas le cas des configurations générales (celles dans /etc).
« Pas grave, ce ne sont que des configurations, il faut les refaire, c'est long et chiant, mais c'est tout.
— Ha. Et le certificat SSL pour HTTPS, il se refait peut-être ?
— Ben oui. Il suffit de se connecter chez le fournisseur et de le régénérer.
— Et, comment on s'y connecte ?
— Il faut un certificat de connexion. Ça date d'avant l'association, on va devoir chercher, il faut trouver une solution en attendant.
— Un certificat auto-signé ?
— Oui… mais on a mis en place HSTS. Qui est précisément une protection contre ce genre de manœuvre. Donc tout membre qui s'est déjà connecté ne peut plus se connecter sauf à faire des manipulations compliquées.
— Bon, et ce certificat de connexion ?
— Ben… on l'a perdu. Personne dans l'asso ou le CA n'a pensé à le demander quand on a créé l'association…
— Et si on crée un autre compte, qu'on prouve qu'on est propriétaires du domaine et qu'on génère un autre certificat ?
— Ah, ça ne marche pas. Il détecte l'existence de l'ancien certificat. Il faut se connecter avec l'ancien compte pour pouvoir le résilier…
— Il n'y a plus le choix : allons voir un autre fournisseur.

Et c'est aussi quand on réinstalle le serveur que l'on découvre que l'ancien a vécu, a été modifié plein de fois, et que donc il existe des tas de détails de configuration à prendre en compte, et qui ne sont documentés nulle part.

La suite des événements

Bon, pour les bugs des outils tiers, on ne pourra pas faire grand-chose, si ce n'est minimiser les pertes en cas de catastrophe. Ce qui implique :

De sauvegarder les configurations qui vont bien
De s'assurer que l'association est bien propriétaire de tous les accès techniques liés au site
De documenter l'installation de production (la version actuelle est complètement obsolète)

Hélas, pour des raisons techniques et de coût, nous ne pourrons probablement jamais garantir une récupération de données garantie inférieure à une journée : ceci impliquerait une architecture haute disponibilité bien au-delà de nos moyens, à base de deux serveurs au moins synchronisés en permanence (je rappelle que les VPS sont très tolérants aux pannes).

Voilà, j'espère que tout ça est plus clair pour vous. N'hésitez pas si vous avez la moindre question !

Ce qui n'était pas clair au moment de l'achat et a été précisé par la suite. ↩

64 commentaires

elyppire, vendredi 21 août 2015 à 22h22

En tout cas, un grand merci à SpaceFox et à tous ceux qui ont beaucoup bossé ces derniers jours.

Vous zestes formidables !

21/08/15 à 22h22

Llama ◦ FAQ PHP ◦ Tuto WAMP

+43 -0

QuanticPotato, vendredi 21 août 2015 à 22h56

Bravo à l'équipe pour cette remise sur patte !

J'imagine que ça a dû demander beaucoup de boulot ..

21/08/15 à 22h56

+1 -0

Algue-Rythme, vendredi 21 août 2015 à 22h59

Merci les gars, vous avez du courage !

21/08/15 à 22h59

+0 -0

informaticienzero, vendredi 21 août 2015 à 23h13

Bravo les gars, vous avez réagis vite et bien. Grâce à vous, la meilleure des communautés est de nouveau accessible !

21/08/15 à 23h13

Apprendre le C++ moderne

+0 -0

mathiasm, vendredi 21 août 2015 à 23h19

Fichtre quelle aventure, merci d'avoir remis tout ça en route.

21/08/15 à 23h19

+1 -0

Eskimon, vendredi 21 août 2015 à 23h26

Merci les coupains pour le travail d'acharné ! Et merci Spacefox pour l'article de clarification sur les événements, c'est sympa de nous laisser au courant et ne pas nous enfumer dans l'obscurité d'une panne technique.

21/08/15 à 23h26

ZdS, le best du Zeste ! | Tuto Arduino, blog, etc

+6 -0

SpaceFox, vendredi 21 août 2015 à 23h28

Surtout que c'était un peu le bordel à expliquer et que du coup pendant l'incident le informations étaient assez partielles par manque de temps…

21/08/15 à 23h28

Les textes de SpaceFox & Lisa Refur – Un Renard en Corée – Un renard au Japon – @spacefox@mastodon.spacefox.fr

+0 -0

informaticienzero, vendredi 21 août 2015 à 23h32

ne pas nous enfumer dans l'obscurité d'une panne technique.

Eskimon

La SNCF et la RATP devraient en prendre de la graine.

21/08/15 à 23h32

Apprendre le C++ moderne

+16 -0

Andr0, vendredi 21 août 2015 à 23h34

D'abord, un grand bravo à l'équipe technique pour votre temps donné à tout remettre en place. Vous avez sacrifié beaucoup de votre temps libre (ou pas) pour faire revenir ZdS et c'est vraiment super !

J'aurais 2 questions suite à tout ça :

Est-ce que le nécessaire a été fait pour communiquer toutes les données critiques à l'association ?
Est-ce qu'on a déjà une idée du gain sur les performances avec le nouveau tout beau serveur ?

21/08/15 à 23h34

+4 -0

Gabbro, vendredi 21 août 2015 à 23h45

Je suis sidéré du coup de la console OVH qui ne fait pas son boulot.

Merci pour le rétablissement, et aussi de nous donner des nouvelles aussi claires que précises !

21/08/15 à 23h45

Il y a bien des façons de passer à l’acte. Se taire en est une. Attribué à Jean-Bertrand Pontalis

+0 -0

Sandhose, samedi 22 août 2015 à 00h04
Modifié

@Andr0: Perso je peux pas te répondre pour le point 1, mais pour le point 2, disons que les graphs de temps de chargement des pages parlent d'eux-même:

Pareil pour les stats CPU & load average: la charge serveur a globalement chutée

En gros, d'un point de vue utilisateur, c'est surtout un temps de génération de page beaucoup plus stable/constant, et divisé par deux

22/08/15 à 00h04
Modifié

"I also don’t trust Caribou anymore." —  Joss Whedon

+10 -0

Poliorcetics, samedi 22 août 2015 à 00h29

Bravo à tous !

(Je remarque au passage qu'on ne peut pas suivre un article ou un tutoriel sans être obligé de commenter)

22/08/15 à 00h29

Qu’est ce qu’une fanfiction ? | Python & Swift | Léger Apple-Addict sur les bords.

+0 -0

Situphen, samedi 22 août 2015 à 00h37

@Sandhose : Je pense que l'on a moins de visiteurs que sur l'ancien serveur (à cause des moments où le site n'était pas accessible) donc il faut relativiser un peu. Néanmoins, il y a eu une amélioration, c'est clair !

(Je remarque au passage qu'on ne peut pas suivre un article ou un tutoriel sans être obligé de commenter)

La ZEP 24 sur les notifications (qui est en cours de développement) résoudra ça !

22/08/15 à 00h37

Corruptible avec des crêpes au sirop d’érable

+0 -0

Sandhose, samedi 22 août 2015 à 01h04

@Situphen: Eh bien figure toi qu'on est déjà de retour "à la normale", vu le nombre de requêtes nginx !

22/08/15 à 01h04

"I also don’t trust Caribou anymore." —  Joss Whedon

+0 -0

Aabu, samedi 22 août 2015 à 09h23

Je vérifie l'onglet, clique sur le bouton de formatage, vérifie encore que je suis sur le nouveau serveur, confirme… et là c'est la page de l'ancien serveur qui s'affiche. Horreur.

La nouvelle console OVH (obligatoire) ne supporte pas correctement le multi-onglet.

La prod est formatée.

Les données des utilisateurs sont perdues.

L'opération ne peut pas être annulée ou arrêtée.

Ça me fait penser aux bons gros échecs de mise à jour de distribution, et qu'on ne répète jamais assez de faire de sauvegarde avant toute chose qui peut tourner mal (même si elle ne devrait pas) ! À vrai dire là, ça reste surprenant.

Enfin bon, l'équipe a gagné en expérience dans l'histoire, c'est cool.

22/08/15 à 09h23

+1 -0

Dominus Carnufex, samedi 22 août 2015 à 10h59

Chez OVH, ils sont pas chers, mais on sait pourquoi… :-°

22/08/15 à 10h59

#JeSuisGrimur #OnVautMieuxQueÇa

+2 -0

Taurre, samedi 22 août 2015 à 11h08
Modifié

Salut,

Par curiosité, pourquoi ne pas avoir choisi de l'auto-hébergement au moment de la mise en place du site ? S'agissait-il d'un problème de coût lié à l'achat/obtention du serveur ?

22/08/15 à 11h08
Modifié

#JeSuisArius

+0 -0

artragis, samedi 22 août 2015 à 11h37

L'association n'a pas de local.

22/08/15 à 11h37

+0 -0

Tristou, samedi 22 août 2015 à 11h43

Merci pour la transparence en tout cas et bravo à vous pour le boulot, ça n'a pas du être facile.

22/08/15 à 11h43

Est-ce que lors de votre formation “Je crée mon site en un jour” je peux faire un site comme Meetic ? (via @WebAgencyFAIL)

+3 -0

Holosmos, samedi 22 août 2015 à 13h23

Bon bah RIP les quelques heures de travail passées sur mes tutos :|.

Espérons que ça se reproduise pas … c'est super démoralisant :'(. Même si j'aurais du moi-même faire une sauvegarde, j'avais pas estimé ça important vu que c'était un tas de corrections et pas des ajouts massifs de texte.

22/08/15 à 13h23

+0 -0

Dominus Carnufex, samedi 22 août 2015 à 13h33

D'autant qu'avec le système de gestion de versions, on pense clairement pas à faire des sauvegardes intermédiaires de l'avancement du tuto. Peut-être qu'à l'avenir il ne serait pas inutile que cet aspect des choses soit géré sur un serveur différent ou quelque chose d'équivalent…

Grâce à Taurre qui avait (loué soit-il) conservé une copie de son message de remarques, j'ai réussi à me souvenir de tous les changements effectués mais c'est passé à pas grand chose : la sauvegarde automatique générale aurait eu lieu 2h plus tôt, je perdais tout mon boulot de la nuit…

22/08/15 à 13h33

#JeSuisGrimur #OnVautMieuxQueÇa

+0 -0

anonyme, samedi 22 août 2015 à 13h46
Modifié

On pourrais pas, par-exemple, toutes les heures, faire un rsync des dossiers Git. Si on fait ça, toutes les heures avec juste un rsync, ça devrait pas prendre des années à ce copier. On se sert de la bêta pour la sauvegarde de secours des tutoriels, dans un dossier crypté avec une clés que seul l'association a.

22/08/15 à 13h46
Modifié

+0 -0

artragis, samedi 22 août 2015 à 15h41

on pourrait aussi faire un simple clone de tous les dépôt gits et faire un cron qui pull toutes les heures. N'oublions pas que maintenant on a un second serveur qui peut tout à faire servir à ça.

22/08/15 à 15h41

+0 -0

pierre_24, samedi 22 août 2015 à 15h43

@Hugo et @artragis: ce serait relativement plus simple à mettre en place dans le cadre de la ZEP-08, dont l'effet est entre autre "d'ouvrir" les dépôts (de manière contrôlée, on se comprend) à des modifications externes. Ça serait aussi plus simple dans le cadre d'une API

(parce que on l'as vu, coder des solutions en vitesse, ça va bien un temps mais pas toujours, c'pas à vous deux que je vais le répéter )

22/08/15 à 15h43

#JeSuisToujoursArius • Docteur, mais en chimie ⚗️ • dev' quand il peut.

+0 -0

Quand ça ne veut pas, ben ça ne veut pas…

L'état actuel du site

Mais comment en est-on arrivés là ?

Acte 1 : Un hébergement inadapté

Acte 2 : Quand les outils vous haïssent

Acte 3 : Bis repetitas ne placent pas toujours

La suite des événements

64 commentaires

Pas encore membre ?