Informations sur les pannes à répétition sur Zeste de Savoir

gustavi, mardi 17 mai 2016 à 19h59
Modifié par SpaceFox

Bonjour,

Si vous lisez ce message c'est que Zeste de Savoir fonctionne, ouf ! Comme vous avez pu le constater ces dernières heures et plus généralement ces dernières semaines, le site subit régulièrement des coupures et vous avez le droit à des erreurs 500. Aujourd'hui fut la pire journée avec une coupure d'environ une demi-heure vers 12h40 et une coupure d'une heure trente vers 15h30 (contre 5 à 10 minutes habituellement).

Toute l'équipe de Zeste de Savoir tient à s'excuser pour ces coupures et fait le nécessaire pour que cela n'arrive plus.

Quelques explications s'imposent : pour une raison inconnue, il arrive que le disque du serveur devienne inaccessible pendant plus de 120s ce qui fait planter MySQL et par la même occasion l'instance du site puis tout le serveur. Après diverses investigations qui sont encore en cours il semblerait que cela vienne de notre fournisseur de VPS, OVH, car nous ne sommes pas les seuls à avoir ces erreurs. Nous sommes en train de voir avec eux ce qui ne va pas.

De plus, nous faisons des tests sur chez Gandi qui accepte de nous aider en nous offrant des services pour voir si la solution qu'ils proposent convient à Zeste de Savoir.

Nous vous tiendrons au courant lorsque nous auront plus d'informations,

L'équipe technique de Zeste de Savoir

–

EDIT (17 mai) : un ticket est ouvert chez OVH, nous attendons une réponse.

EDIT (18 mai) : une réponse est arrivée, cf ce message. On attend de voir si ça résous vraiment le problème.

17/05/16 à 19h59
Modifié

"I think that it’s extraordinarily important that we in computer science keep fun in computing." — Alan J. Perlis

+33 -0

mehdidou99, mardi 17 mai 2016 à 20h05

Pas de soucis, bonne chance pour la migration vers Gandi, j'espère que ça conviendra.

17/05/16 à 20h05

Plus on apprend, et, euh… Plus on apprend. | Apprendre le C++ moderne

+0 -0

anonyme, mardi 17 mai 2016 à 20h13

Merci pour l'explication, j'apprécie la transparence. Par curiosité, comment on sait que le disque dur se bloque ?

17/05/16 à 20h13

+1 -0

gustavi, mardi 17 mai 2016 à 20h23

On a un ensemble d'outils qui supervisent le serveur afin qu'on soit alerté du moindre disfonctionnement.

17/05/16 à 20h23

"I think that it’s extraordinarily important that we in computer science keep fun in computing." — Alan J. Perlis

+0 -0

Poliorcetics, mardi 17 mai 2016 à 20h29

On a un ensemble d'outils qui supervisent le serveur afin qu'on soit alerté du moindre disfonctionnement.

gustavi

Big Brother is watching ZdS.

17/05/16 à 20h29

Qu’est ce qu’une fanfiction ? | Python & Swift | Léger Apple-Addict sur les bords.

+4 -0

victorlevasseur, mardi 17 mai 2016 à 20h36
Modifié

C'est juste une question comme ça : pourquoi changer directement d'hébergeur dès qu'il y a un soucis ?

Sinon, bonne chance pour la migration.

17/05/16 à 20h36
Modifié

+0 -0

gustavi, mardi 17 mai 2016 à 20h41

Les deux ne sont pas vraiment liés. Nous avons fait la demande à Gandi il y a un an et nous n'avons eu une réponse que récemment (notre demande s'était un peu perdue). Disons simplement que ça tombe au bon moment. La qualité de service qu'on a aujourd'hui est vraiment limite et le changement de fournisseur était à l'ordre du jour de ces derniers temps.

17/05/16 à 20h41

"I think that it’s extraordinarily important that we in computer science keep fun in computing." — Alan J. Perlis

+0 -0

artragis, mardi 17 mai 2016 à 20h43

Pour vous dire cela, nous utilisons deux éléments de statistiques :

la latence du disque : elle nous indique combien de temps en moyenne le disque dur met à répondre à une requête de lecture ou d'écriture. Dans notre cas, il indique que le temps moyen de réponse est de 3s lors du pic de cet aprem.
l'utilisation du processeur. Ce dernier peut faire plusieurs type d'opération : faire tourner l'OS, faire tourner un process, attendre le disque, dormir… Le pic violet qu'on observe dans ces image montre qu'un coeur sur deux était occupé à attendre des nouvelles du disque dur durant les indisponibilités.

Quand le site va bien, nous avons d'autres statistiques telles que le nombre de requête à la seconde, le temps pour fournir une page (on a même une alerte quand on dépasse un seuil), le nombre de messages postés, les tutos en rédaction/publiés, le nombre de requêtes SQL longues à exécuter…

17/05/16 à 20h43

+5 -0

LudoBike, mardi 17 mai 2016 à 21h08

Merci pour les infos

17/05/16 à 21h08

« La Nature est un livre écrit en langage mathématique », Galilée

+0 -0

Kje, mardi 17 mai 2016 à 21h52

Après là ce ne sont pas les premiers problèmes, ça fait des mois qu'il y a des problèmes lié à OVH. Techniquement sur Gandi pour le moment ce ne sera qu'un test, on ne sait pas encore quels offres chiffrés ils pourront nous faire. Donc rien n'est décidé.

17/05/16 à 21h52

+1 -0

Eskimon, mardi 17 mai 2016 à 22h45

J'vais répéter ce qu'à dit le fantôme ci-dessus en reformulant.

Au début de ZdS, on avait une offre "pas trop cher mais pas d'entrée de gamme" qui offrait des performances qui suffisait mais sans garantie de service (grosso modo OVH se dédouanait en disant "ces VPS ne sont pas prévu pour de la prod'). Du coup on est passé sur une offre un peu mieux sensé être prévu pour de la prod'. Ca a augmenté les perf' et bien marché pour un temps, mais on voit bien que finalement c'est pas garanti non plus…

Dans le même temps, on avait aussi démarché Gandi pour participer à leur programme d'aides aux associations. On a cru à un échec mais finalement depuis peu un retournement de situation a eu lieu et Gandi nous offre de quoi faire des tests pendant quelques temps puis en même temps on chiffre ce dont on a besoin (techniquement) et peut se permettre (financièrement) pour peut-être partir avec eux si l'ensemble est possible (en tout cas ils ont l'air sympa ).¹

Je laisse le soin aux plus habitués du fofo de retrouver/poster les liens de cette aventure :) ↩

17/05/16 à 22h45

ZdS, le best du Zeste ! | Tuto Arduino, blog, etc

+0 -0

Gabbro, mardi 17 mai 2016 à 22h51

Je laisse le soin aux plus habitués du fofo de retrouver/poster les liens de cette aventure

La recherche n'est pas toujours exceptionnelle, mais si on entre Gandi et OVH, elle est quand même capable de nous sortir les sujets :

17/05/16 à 22h51

Il y a bien des façons de passer à l’acte. Se taire en est une. Attribué à Jean-Bertrand Pontalis

+1 -0

Arius, mardi 17 mai 2016 à 22h54
Modifié

Merci les gars

En espérant que cela se passera mieux chez Gandi qui ont répondu à pile, je dois dire. Après, je me fais pas spécialement de pépin pour la qualité du service. Ils ont une assez bonne réputation et j'apprécie le programme d'aide aux assos.

17/05/16 à 22h54
Modifié

"Throw me to the wolves and I will return leading the pack." — Seneca

+2 -1

Eskimon, mardi 17 mai 2016 à 22h57

Bon j'avoue, j'avais la flemme de chercher :ninja: Merci à toi l'oiseau !

17/05/16 à 22h57

ZdS, le best du Zeste ! | Tuto Arduino, blog, etc

+0 -0

qwerty, mardi 17 mai 2016 à 23h07

Merci pour le retour, vous assurez !

17/05/16 à 23h07

La tero estas nur unu lando | Géographe de service | Cliquez 👍 pour dire merci

+0 -0

SpaceFox, mardi 17 mai 2016 à 23h34

Pour info, j'ai ouvert un incident chez OVH, en essayant de me protéger de ce genre de réponse (on a la même erreur).

Leur site indique un taux de garanti de service de 99,99 % sur notre serveur. J'ai songé à parler de ça, mais j'ai été vérifier leurs CGV, et j'ai bien fait, parce que leur notion de « interruption de service » est franchement… étrange :

OVH s’engage à assurer, pour un Serveur Privé Virtuel de la gamme Cloud, un Taux de disponibilité mensuelle de 99,99% .

Par « taux de disponibilité mensuelle », il convient d’entendre : le nombre total de minutes du mois considéré déduction faite du nombre de minutes d’Indisponibilité du mois concerné, le tout divisé par le nombre total de minutes du mois considéré.
Par « indisponibilité », il convient d’entendre la perte, pendant plus de trois (3) minutes consécutives à compter de l’ouverture du ticket Incident, de l’accès au Serveur Privé Virtuel du Client, sans possibilité pour le Client de relancer ledit Serveur Privé Virtuel.

Les CGV OVH pour les offres VPS 2016

(Alors que sur la page de la console, on a le monitoring SLA, le trafic, l'occupation CPU, mémoire, etc…)

17/05/16 à 23h34

Les textes de SpaceFox & Lisa Refur – Un Renard en Corée – Un renard au Japon – @spacefox@mastodon.spacefox.fr

+0 -0

anonyme, mardi 17 mai 2016 à 23h58
Modifié

Ouais donc si j'ai bien compris, ils garantissent que 99.99% du mois, leur console permet de redémarrer le serveur, c'est ça ? Utile.

C'est bizarre qu'il y ait d'autres personnes avec le même souci, ça veut dire qu'ils mettent nawak comme disques durs du coup ?

17/05/16 à 23h58
Modifié

+0 -0

Prechan, mercredi 18 mai 2016 à 10h56

Par curiosité (ça pourrait m'être utile ), vous utilisez quel soft pour le monitoring du VPS ?

18/05/16 à 10h56

Alea Jacta Zeste !

+0 -0

artragis, mercredi 18 mai 2016 à 11h00

Pour les stats : munin.

18/05/16 à 11h00

+1 -0

Kje, mercredi 18 mai 2016 à 11h00

Il doit y avoir un munin et un sentry de mémoire

18/05/16 à 11h00

+1 -0

gustavi, mercredi 18 mai 2016 à 11h16

C'est exact. Munin nous sert à avoir des graphes et des alertes (je ne suis même pas sûr que ce soit configuré pour les alertes) sur le serveur en général et certains services (MySQL par exemple). Sentry nous sert à détecter les erreurs 500 lié au code de Zeste de Savoir avec pas mal d'informations pour reproduire.

On a aussi OVH qui a des graphes.

18/05/16 à 11h16

"I think that it’s extraordinarily important that we in computer science keep fun in computing." — Alan J. Perlis

+1 -0

Quelques explication

Pas encore membre ?