Retour dans le passé pour ZdS :(

Salut à tous, l'équipe technique au hautparleur.

Vous vous en êtes peut-être aperçu par le regain d'activité récent du côté technique, certaines choses bougent. Et ce n'est pas sans conséquence.

Des causes…
… et leurs conséquences
Never gonna let you down

Des causes…

Nous en reparlerons dans un article à venir, mais en deux mots, nous avons changé d'hébergeur et la direction technique du projet va changer de mains.

Le 9 juillet, le Conseil d'Administration de Zeste de Savoir a validé la migration de notre serveur de production, celui qui héberge donc le site que vous voyez en ce moment, d'OVH vers Gandi. Ce nouvel hébergeur était en test depuis fin mai.

Toutes ces transitions ne sont pas sans douleur ni tracas. Remettre les clés, faire le tour du propriétaire, transmettre les tâches, se les approprier, s'assurer que tout est au top. Beaucoup de travail, comme pour un album d'Astérix.

En plus de ça, une tuile nous est tombée dessus cet après-midi. Vers 14 h 30, une baie de disques (c.-à-d. un serveur responsable du stockage de données) a crashé chez Gandi. Pas de bol, un des clients impactés était Zeste de Savoir. Nous avons pu rétablir le service rapidement vers 15 heures et sommes retournés à nos tâches respectives. Tout semblait être revenu à la normale.

Le mot-clé est « semblait », car sous des dehors calmes paisibles, une terrible catastrophe couvait. Le fichier de données de la base MySQL avait été subtilement corrompu lors du crash de 14 h 30. Tout s'est donc passé normalement, jusqu'au moment où le serveur a tenté d'utiliser la partie endommagée du fichier… ce qui l'a définitivement abimé. Devant l'étendue des dégâts, le serveur MySQL a préféré rendre l'âme et cesser de fonctionner tant qu'on ne lui fournirait une version corrigée des données. Las ! Le problème était tel que, malgré quatre heures d'efforts conjointement menés par SpaceFox, gustavi et victor, rien ne put être sauvé.

Dans cette situation, nous aurions normalement dû restaurer la sauvegarde quotidienne de la base de données… sauf que cette sauvegarde n'existait pas. Pas plus que toutes celles qui auraient dû exister depuis plus d'un mois ! Heureusement, gustavi avait lancé une sauvegarde manuelle pour mettre à jour le serveur de bêta le 11 juillet vers 23 heures ; c'est donc ces données que nous avons pu rétablir. La raison de cette disparition des sauvegardes de la base de données est encore mystérieuse. Une étude rapide des logs montre qu'elle a été paramétrée et validée, puis que le logiciel de sauvegarde a purement et simplement été supprimé du serveur – sans que personne ne s'en rende compte, puisque les sauvegardes et leurs copies avaient été testées auparavant.

… et leurs conséquences

Commençons par la mauvaise nouvelle :

Tout ce qui a été enregistré en base de données entre le lundi 11 juillet 2016 23 h et le mercredi 13 juillet 2016 18 h 30 est définitivement perdu.

Ceci inclut :

Les forums (sujets, messages, pouces rouges et verts).
Les messages privés.
Les comptes et les données liées. Si vous vous êtes inscrits pendant la perte de données, je crains qu'il ne faille vous réinscrire.
Les notifications et suivis de sujets et forums activés pendant ces deux jours.
Les métadonnées des galeries d'images (mais pas les images elles-mêmes, cf. infra).

Ensuite, la bonne nouvelle (si l'on peut dire) :

Aucun contenu en rédaction n'a été perdu.

Cependant, à cause de la désynchronisation entre la base et les contenus sur le disque, il se peut que les interfaces d'éditions présentent des comportements étranges ; le cas échéant, manifestez-vous sur le forum Bugs et Suggestions.

Ceci concerne :

Les tutoriels.
Les articles.
Les images dans les galeries.

L'intégrité des contenus en rédaction est garantie par le stockage sous-jacent et a été vérifiée.

Never gonna let you down

Nous allons redoubler d'efforts pour que ça ne puisse plus se produire. S'il le faut, nous mettrons en place un système d'alerte qui surveillera que le système chargé d'alerter l'équipe technique quand le système chargé d'envoyer une alerte au cas où le monitoring du système d'alerte en cas de sauvegarde pas faite devait planter.

Plus sérieusement, nous allons surtout revoir notre système de sauvegarde. Une sauvegarde quotidienne ne suffit clairement plus à vous contenter, cher public toujours au rendez-vous, public précieux et exigeant. La stratégie mise en place fera également l'objet d'une mention dans une news/article à venir, mais est déjà effective sur certains points : la sauvegarde quotidienne a été remise en route, et le système de snapshots de Gandi a été activé. Le reste est en cours de réflexion. Le système actuel n'était là que pour pallier une défaillance des systèmes de stockage professionnels théoriquement très résilients ; hélas, la loi de Murphy fait que malgré les moult redondances et tolérances de pannes, c'est la seconde perte de données que subit Zeste de Savoir. Ce qui est une honte et deux de trop !

Nous, l'équipe technique de Zeste de Savoir, vous présentons nos excuses pour les importants désagréments engendrés. Nous en sommes conscients et ça nous peine. Nous ferons mieux.

gustavi, SpaceFox et victor

32 commentaires

SpaceFox, jeudi 14 juillet 2016 à 01h46

Le plus ironique ? C'est que le tout dernier message présent dans la sauvegarde de la base, c'est un test de gustavi qui dit ceci :

Bon bah tout fonctionne parfaitement !

14/07/16 à 01h46

Les textes de SpaceFox & Lisa Refur – Un Renard en Corée – Un renard au Japon – @spacefox@mastodon.spacefox.fr

+58 -0

anonyme, jeudi 14 juillet 2016 à 07h10

Félicitations à vous trois pour avoir géré cette situation de crise en tout cas et merci pour avoir ramené ZdS.

J'ai eu peur pour mon article en attente mais tout va bien !

14/07/16 à 07h10

+10 -0

Drulac, jeudi 14 juillet 2016 à 08h20

J'avais rédigé un sujet, est-ce qu'il y a une possibilité de récupérer le contenu textuel de ce sujet dans ce qui reste de la base de donnée corrompu ?

14/07/16 à 08h20

+0 -0

cepus, jeudi 14 juillet 2016 à 08h25

Drulac, non. MySQL flanque ses données dans un genre de format binaire. Une fois ce fichier corrompu, y'a plus d'espoir. C'est pas faute d'avoir essayé. Désolé.

14/07/16 à 08h25

Vous aimez le frontend ? Il y a un tas de petites tâches faciles si vous voulez contribuer à ZdS : https://github.com/zestedesavoir/zds-site/issues?q=is%3Aissue+is%3Aopen+label%3AC-Front

+1 -0

Drulac, jeudi 14 juillet 2016 à 08h39
Modifié

D'accord, j'avais fait une capture d'écran un peut avant d'avoir fini au pire

Il y a peut être une chance dans le cache de mon navigateur !

EDIT : Dans le cache de mon navigateur, j'ai la page en maintenance :/

14/07/16 à 08h39
Modifié

+0 -0

pierre_24, jeudi 14 juillet 2016 à 08h55

Bon, ça aurait pu être pire

(mais chaipas pourquoi, une si longue "maintenance", je sentais que c'était une tuile du genre)

14/07/16 à 08h55

#JeSuisToujoursArius • Docteur, mais en chimie ⚗️ • dev' quand il peut.

+0 -0

Drulac, jeudi 14 juillet 2016 à 08h59

Masqué par Drulac

14/07/16 à 08h59

cepus, jeudi 14 juillet 2016 à 09h36

Hier en rentrant du boulot j'étais tellement naze que je me suis dit, pour une fois je passe chercher une pizza au petit resto du coin au lieu de cuisiner.

J'arrive chez moi avec ma pizza merguez toute chaude, je check IRC machinalement tout en lançant un épisode d'une série, et là paf. La douche froide. Et la pizza froide, du coup, le temps de stopper l'hémorragie.

14/07/16 à 09h36

Vous aimez le frontend ? Il y a un tas de petites tâches faciles si vous voulez contribuer à ZdS : https://github.com/zestedesavoir/zds-site/issues?q=is%3Aissue+is%3Aopen+label%3AC-Front

+3 -0

Drulac, jeudi 14 juillet 2016 à 09h39

Ca fait chier la pizza froide :/

Si vous avez besoins de récupérer du contenu, on peut récupérer un sujet via le cache google

14/07/16 à 09h39

+0 -0

anonyme, jeudi 14 juillet 2016 à 10h12

Sinon faudrait trouver un moyen pour que les membres participent à la sauvegarde. Un flux de données basé sur du versioning en temps réel et stockant un à un les nouveaux changements sur le disque dur. Je ne sais pas si c'est envisageable - c'est une proposition comme ça. Mais ça permettrait de reconstituer l'intégralité de la base de données sans souci, un membre fournirait la dernière version active du site.

14/07/16 à 10h12

+0 -0

artragis, jeudi 14 juillet 2016 à 10h17

On a déjà des sauvegardes régulières avec des systèmes simples et éprouvés.

14/07/16 à 10h17

+0 -0

gustavi, jeudi 14 juillet 2016 à 10h31

@Yarflam : c'est bien trop compliqué à mettre en place et surtout pas possible car il y a du contenu qui n'est pas accessible à tous et qui ne doit pas l'être (forums privés, messages privés, etc).

14/07/16 à 10h31

"I think that it’s extraordinarily important that we in computer science keep fun in computing." — Alan J. Perlis

+3 -0

anonyme, jeudi 14 juillet 2016 à 10h53

@Gustavi : on peut toujours chiffrer les données. Mais j'en conviens que ce n'est pas facile à développer.

14/07/16 à 10h53

+0 -0

Fumble, jeudi 14 juillet 2016 à 10h54

Et surtout, ça violerait le contenu de la déclaration effectuée auprès de la CNIL par l'asso.

14/07/16 à 10h54

Ex-Secrétaire de Zeste de Savoir - Sharleen - Áfram Ísland ! - Commander Shepard true fan

+4 -0

pierre_24, jeudi 14 juillet 2016 à 11h00

Puis quand bien même, on parle de plusieurs Gio de données.

14/07/16 à 11h00

#JeSuisToujoursArius • Docteur, mais en chimie ⚗️ • dev' quand il peut.

+0 -0

Gabbro, jeudi 14 juillet 2016 à 11h10
Modifié

J'ai la liste des sujets créés entre depuis lundi (flux rss), si ça intéresse quelqu'un.

Une sauvegarde quotidienne ne suffit clairement plus à vous contenter

Une sauvegarde par jour, ce n'est pas forcément trop peu, encore faut-il qu'elle marche !

Si gustavi n'avait pas lancé une sauvegarde lundi soir, que ce serait-il passé ?

Édit : pour les messages perdus, personne n'est abonné aux flux « Derniers messages » du forum ? Il y a toute les données dedans.

14/07/16 à 11h10
Modifié

Il y a bien des façons de passer à l’acte. Se taire en est une. Attribué à Jean-Bertrand Pontalis

+2 -0

gustavi, jeudi 14 juillet 2016 à 11h14

Mieux vaut ne pas y penser.

En tous cas nous avons pris des mesures directement pour pas que ça se reproduise. Sans rentrer dans les détails (nous ferons un sujet pour tout expliquer dans le forum) nous avons maintenant 2 systèmes de sauvegarde différents à deux endroits différents.

14/07/16 à 11h14

"I think that it’s extraordinarily important that we in computer science keep fun in computing." — Alan J. Perlis

+2 -0

firm1, jeudi 14 juillet 2016 à 11h16

Ouch décidément les problèmes d'infra arrivent souvent en été.

Heuresement que pour le coup on a eu une MEP récemment qui a fait faire a gustavi une sauvegarde manuelle.

Maintenant va falloir que je remette a jour mes posts perdus

14/07/16 à 11h16

Tuto: Réussir un entretien | Articles : le Big Data / Elasticsearch / Continuous Delivery | Projet : Zest Writer

+0 -0

WinXaito, jeudi 14 juillet 2016 à 11h18

Si gustavi n'avait pas lancé une sauvegarde lundi soir, que ce serait-il passé ?

La réponse va sans doute faire peur à mon humble avis..

14/07/16 à 11h18

+2 -0

Arius, jeudi 14 juillet 2016 à 11h53

Et surtout, ça violerait le contenu de la déclaration effectuée auprès de la CNIL par l'asso.

Fumble

Clairement.

Merci les gars.

14/07/16 à 11h53

"Throw me to the wolves and I will return leading the pack." — Seneca

+0 -0

SpaceFox, jeudi 14 juillet 2016 à 12h03
Modifié

Le flux des derniers messages est tellement verbeux que je crains que personne ne l'utilise…

Par contre j'ai le flux des derniers sujets (publics), neuf d'entre eux ont disparu :

Que pensez vous de mon architecture? dans Programmation par Necros211
D'ou viennent les infos des whois ? dans Site Web par arglow
Permettre à l'administrateur d'ajouter un article dans plusieurs langage dans Site Web par taoufik07
GeekTycoon dans Vos projets par Drulac
Astuceseo - Améliorez la visibilité de votre site sur le web dans Vos projets par Astuceseo (edit : l'utilisateur est lui aussi perdu)
Usurpation d'identité sur des mails dans Systèmes et Matériels par abrahan
Quelle est la ressource partagée ? dans Programmation par Lern-X
fabrication d'un drone dans Systèmes et Matériels par yannpoissenot
Cperime dans Vos projets par Asue

Je préviens leurs auteurs par MP.

14/07/16 à 12h03
Modifié

Les textes de SpaceFox & Lisa Refur – Un Renard en Corée – Un renard au Japon – @spacefox@mastodon.spacefox.fr

+3 -0

rockisnotdead, jeudi 14 juillet 2016 à 12h06

Merci pour ce retour (et j'ai bien aimé la référence à Stupeflip )

14/07/16 à 12h06

Dans le doute, reboot.

+2 -0

Gabbro, jeudi 14 juillet 2016 à 12h17

Le flux des derniers messages est tellement verbeux que je crains que personne ne l'utilise…

Trop, ou pas assez ! Je ne l'utilise pas parce qu'il est restreint aux 10 derniers messages, et quand j'allume mon PC le soir, c'est toujours plus de 10 messages qui ont été écrits, ce qui le rend inutile.

14/07/16 à 12h17

Il y a bien des façons de passer à l’acte. Se taire en est une. Attribué à Jean-Bertrand Pontalis

+0 -0

Roipoussiere, jeudi 14 juillet 2016 à 12h21

Merci beaucoup pour de vos efforts pour avoir remis le site en place le plus rapidement possible. Pour ma part à part quelques MPs je n'ai rien perdu.

Hier en rentrant du boulot j'étais tellement naze que je me suis dit, pour une fois je passe chercher une pizza au petit resto du coin au lieu de cuisiner.

Donnes ton adresse, je te commande un pizza chaude.

14/07/16 à 12h21

"Il faut commencer par du rêve. Et les choses deviennent réelles à un moment ou un autre." - Kenny Todd, directeur des opérations pour l’ISS.

+3 -0

yoch, jeudi 14 juillet 2016 à 12h34
Modifié

Par contre j'ai le flux des derniers sujets (publics), neuf d'entre eux ont disparu :

…

Quelle est la ressource partagée ? dans Programmation par Lern-X

SpaceFox

Pour celui-ci j'ai la copie de l’intégralité des messages dans mon cache si ça intéresse.

EDIT: et pour les autres sujets perdus, le cache google pourrait servir, mais il faudrait sans doute l'exploiter avant qu'il ne soit rafraîchi.

14/07/16 à 12h34
Modifié

+0 -0

On aurait préféré revenir vers le futur, mais Murphy ne nous a pas trop laissé le choix de la destination…

Des causes…

… et leurs conséquences

Commençons par la mauvaise nouvelle :

Ensuite, la bonne nouvelle (si l'on peut dire) :

Never gonna let you down

32 commentaires

Pas encore membre ?