Informations sur les pannes à répétition sur Zeste de Savoir

Quelques explication

a marqué ce sujet comme résolu.

Bonjour,

Si vous lisez ce message c'est que Zeste de Savoir fonctionne, ouf ! Comme vous avez pu le constater ces dernières heures et plus généralement ces dernières semaines, le site subit régulièrement des coupures et vous avez le droit à des erreurs 500. Aujourd'hui fut la pire journée avec une coupure d'environ une demi-heure vers 12h40 et une coupure d'une heure trente vers 15h30 (contre 5 à 10 minutes habituellement).

Toute l'équipe de Zeste de Savoir tient à s'excuser pour ces coupures et fait le nécessaire pour que cela n'arrive plus.

Quelques explications s'imposent : pour une raison inconnue, il arrive que le disque du serveur devienne inaccessible pendant plus de 120s ce qui fait planter MySQL et par la même occasion l'instance du site puis tout le serveur. Après diverses investigations qui sont encore en cours il semblerait que cela vienne de notre fournisseur de VPS, OVH, car nous ne sommes pas les seuls à avoir ces erreurs. Nous sommes en train de voir avec eux ce qui ne va pas.

De plus, nous faisons des tests sur chez Gandi qui accepte de nous aider en nous offrant des services pour voir si la solution qu'ils proposent convient à Zeste de Savoir.

Nous vous tiendrons au courant lorsque nous auront plus d'informations,

L'équipe technique de Zeste de Savoir

EDIT (17 mai) : un ticket est ouvert chez OVH, nous attendons une réponse.

EDIT (18 mai) : une réponse est arrivée, cf ce message. On attend de voir si ça résous vraiment le problème.

+33 -0

Les deux ne sont pas vraiment liés. Nous avons fait la demande à Gandi il y a un an et nous n'avons eu une réponse que récemment (notre demande s'était un peu perdue). Disons simplement que ça tombe au bon moment. La qualité de service qu'on a aujourd'hui est vraiment limite et le changement de fournisseur était à l'ordre du jour de ces derniers temps.

+0 -0

Pour vous dire cela, nous utilisons deux éléments de statistiques :

  • la latence du disque : elle nous indique combien de temps en moyenne le disque dur met à répondre à une requête de lecture ou d'écriture. Dans notre cas, il indique que le temps moyen de réponse est de 3s lors du pic de cet aprem. latence
  • l'utilisation du processeur. Ce dernier peut faire plusieurs type d'opération : faire tourner l'OS, faire tourner un process, attendre le disque, dormir… Le pic violet qu'on observe dans ces image montre qu'un coeur sur deux était occupé à attendre des nouvelles du disque dur durant les indisponibilités.cpu

Quand le site va bien, nous avons d'autres statistiques telles que le nombre de requête à la seconde, le temps pour fournir une page (on a même une alerte quand on dépasse un seuil), le nombre de messages postés, les tutos en rédaction/publiés, le nombre de requêtes SQL longues à exécuter…

Après là ce ne sont pas les premiers problèmes, ça fait des mois qu'il y a des problèmes lié à OVH. Techniquement sur Gandi pour le moment ce ne sera qu'un test, on ne sait pas encore quels offres chiffrés ils pourront nous faire. Donc rien n'est décidé.

C'est juste une question comme ça : pourquoi changer directement d'hébergeur dès qu'il y a un soucis ?

Sinon, bonne chance pour la migration. :)

victorlevasseur

J'vais répéter ce qu'à dit le fantôme ci-dessus en reformulant.

Au début de ZdS, on avait une offre "pas trop cher mais pas d'entrée de gamme" qui offrait des performances qui suffisait mais sans garantie de service (grosso modo OVH se dédouanait en disant "ces VPS ne sont pas prévu pour de la prod'). Du coup on est passé sur une offre un peu mieux sensé être prévu pour de la prod'. Ca a augmenté les perf' et bien marché pour un temps, mais on voit bien que finalement c'est pas garanti non plus…

Dans le même temps, on avait aussi démarché Gandi pour participer à leur programme d'aides aux associations. On a cru à un échec mais finalement depuis peu un retournement de situation a eu lieu et Gandi nous offre de quoi faire des tests pendant quelques temps puis en même temps on chiffre ce dont on a besoin (techniquement) et peut se permettre (financièrement) pour peut-être partir avec eux si l'ensemble est possible (en tout cas ils ont l'air sympa :) ).1


  1. Je laisse le soin aux plus habitués du fofo de retrouver/poster les liens de cette aventure :) 

+0 -0

Merci les gars :)

En espérant que cela se passera mieux chez Gandi qui ont répondu à pile, je dois dire. Après, je me fais pas spécialement de pépin pour la qualité du service. Ils ont une assez bonne réputation et j'apprécie le programme d'aide aux assos.

+2 -1

Je laisse le soin aux plus habitués du fofo de retrouver/poster les liens de cette aventure

La recherche n'est pas toujours exceptionnelle, mais si on entre Gandi et OVH, elle est quand même capable de nous sortir les sujets :

:D

Gabbro

Bon j'avoue, j'avais la flemme de chercher :ninja: Merci à toi l'oiseau !

+0 -0

Pour info, j'ai ouvert un incident chez OVH, en essayant de me protéger de ce genre de réponse (on a la même erreur).

Leur site indique un taux de garanti de service de 99,99 % sur notre serveur. J'ai songé à parler de ça, mais j'ai été vérifier leurs CGV, et j'ai bien fait, parce que leur notion de « interruption de service » est franchement… étrange :

OVH s’engage à assurer, pour un Serveur Privé Virtuel de la gamme Cloud, un Taux de disponibilité mensuelle de 99,99% .

Par « taux de disponibilité mensuelle », il convient d’entendre : le nombre total de minutes du mois considéré déduction faite du nombre de minutes d’Indisponibilité du mois concerné, le tout divisé par le nombre total de minutes du mois considéré.
Par « indisponibilité », il convient d’entendre la perte, pendant plus de trois (3) minutes consécutives à compter de l’ouverture du ticket Incident, de l’accès au Serveur Privé Virtuel du Client, sans possibilité pour le Client de relancer ledit Serveur Privé Virtuel.

Les CGV OVH pour les offres VPS 2016

(Alors que sur la page de la console, on a le monitoring SLA, le trafic, l'occupation CPU, mémoire, etc…)

Ouais donc si j'ai bien compris, ils garantissent que 99.99% du mois, leur console permet de redémarrer le serveur, c'est ça ? Utile.

C'est bizarre qu'il y ait d'autres personnes avec le même souci, ça veut dire qu'ils mettent nawak comme disques durs du coup ?

+0 -0

C'est exact. Munin nous sert à avoir des graphes et des alertes (je ne suis même pas sûr que ce soit configuré pour les alertes) sur le serveur en général et certains services (MySQL par exemple). Sentry nous sert à détecter les erreurs 500 lié au code de Zeste de Savoir avec pas mal d'informations pour reproduire.

On a aussi OVH qui a des graphes.

+1 -0
Connectez-vous pour pouvoir poster un message.
Connexion

Pas encore membre ?

Créez un compte en une minute pour profiter pleinement de toutes les fonctionnalités de Zeste de Savoir. Ici, tout est gratuit et sans publicité.
Créer un compte