Moyen terme : steal important sur la prod

a marqué ce sujet comme résolu.

Bonjour,

Actuellement, on a beaucoup de steal sur la prod.

C'est quoi steal ? C'est quand on est dans un environnement virtualisé, qu'on veut consommer du CPU mais que la VM nous répond "attends, j'ai pas de processeur physique de disponible là". C'est virtuellement du processeur "perdu" pour la VM.

À l'heure actuelle, en charge, il faut compter 1 steal pour 2 consommés, ce qui est monstrueux. Ca veut dire que si c'est linéaire, nos 3 vCores ne sont utilisables que comme 2 vCores…

Le vrai problème, c'est qu'on a aucun contrôle là-dessus : c'est le serveur physique qui est trop chargé par rapport à ce que le fournisseur a vendu.

À moyen terme, si on grossit trop, ça peut impliquer de changer de plate-forme pour un serveur physique (qui par nature n'a pas ce genre de problèmes).

OK, alors concrètement sur ce genre de problème, il faut :

  • Qu'on caractérise le problème, en gros, qu'il commence à se présenter pour de vrai ou bien qu'on puisse avoir un graphe ou une estimation qui la fait apparaître de façon quantifiable,

  • Le cas échéant qu'on regarde les offres, et que je puisse transmettre le comparatif de ce qui nous semble le plus pertinent au CA de l'association pour qu'ils prennent une décision.

+2 -0

Le cas échéant qu'on regarde les offres, et que je puisse transmettre le comparatif de ce qui nous semble le plus pertinent à l'AG de l'association pour qu'ils prennent une décision.

Notez que réunir une AG extraordinaire c'est possible, c'est le genre de chose où seul le CA peut suffire je pense, mais ça demande de prévenir tout le monde un peu avant (statuts, toussa toussa) donc prévoir un petit battement.

Je me demande si on ne peut pas déjà prévoir une assemblée extraordinaire pour les environ du lancement public histoire de faire un pré-bilan, accueillir les nouveaux membres de l'asso et éventuellement parler de ce genre de détails.

Ça ne sert à rien de réunir le CA si on ne sait pas s'il y a besoin qu'il prenne une décision et tant qu'on n'a pas d'éléments à lui faire discuter, hein. Essayons déjà de caractériser ou d'estimer quand le problème sera bloquant d'une part, et d'étudier les solutions qui pourraient y répondre d'autre part, et seulement à ce moment là on saura s'il y a effectivement besoin de soumettre le problème au CA.

+0 -0

ET il y a une grosse différence de prix entre un VPS et un vrai dédié ?

Eskimon

Avant d'envisager de passer sur du dédié il faut déjà se poser la question de la qualité de l'offre VPS amha.

Parce passer d'un VPS low cost à un dédié low cost, ça risque juste de transformer les problèmes que vous connaissez maintenant en d'autres problèmes (les problèmes qui sont intrinsèquement liés au low cost).

Pour moi il vaut mieux un VPS plus qualitatif qu'un dédié low cost. J'ai pas testé, mais je me demande même si le plus souvent un mutualisé un peu qualitatif type alwaysdata peut pas être préférable à la majorité des VPS et dédiés low cost.

EDIT : Si vous voulez des exemples d'offres vps qui pourraient être de meilleure qualité, j'ai gandi.net en tête par exemple si vous voulez rester dans les boites françaises.

+1 -0

Yop !

J'ai du mal à concevoir qu'on tape autant dans le proco déjà. J'ai un 2vCore, et franchement c'est relativement puissant pour du VPS je trouve.

Niveau tarif, le VPS sera moins cher (même si on a un vCore de moins que vendu de dispo) par rapport à du dédié (dit "bare metal").

A la limite, ce que je propose c'est d'augmenter le nombre de vCore au fur et à mesure des besoins. Et quand on sera au max de l'offre, passer sur un vrai VPS dans le cloud.

Le type d'offre qu'on a est celui-ci : https://www.ovh.com/fr/vps/vps-classic.xml

Or, on aurait besoin de ça : https://www.ovh.com/fr/vps/vps-cloud.xml

C'est plus vraiment la même gamme de prix, c'est pour ça qu'on avait choisi le type "Classique" (moins cher, moins de garanties, etc).

J'ai du mal à concevoir qu'on tape autant dans le proco déjà. J'ai un 2vCore, et franchement c'est relativement puissant pour du VPS je trouve.

Alex-D

Qu'est-ce que tu entends par là ?

Je ne parle jamais de la consommation absolue dans ce post, uniquement du rapport entre notre consommation et le steal.

Notre pic de charge est à 67% d'un cœur dans l'outil de surveillance, avec 34% de steal au même instant. C'est beaucoup pour l'habitué de Java que je suis, mais vue la charge qu'on se prends, ça me paraît pas excessif.

A la limite, ce que je propose c'est d'augmenter le nombre de vCore au fur et à mesure des besoins. Et quand on sera au max de l'offre, passer sur un vrai VPS dans le cloud.

Le type d'offre qu'on a est celui-ci : https://www.ovh.com/fr/vps/vps-classic.xml

Or, on aurait besoin de ça : https://www.ovh.com/fr/vps/vps-cloud.xml

C'est plus vraiment la même gamme de prix, c'est pour ça qu'on avait choisi le type "Classique" (moins cher, moins de garanties, etc).

Alex-D

Le "cloud" n'est qu'un terme marketing sans réelle signification (et d'ailleurs qui commence à devenir obsolète. La vraie différence entre les deux offres, c'est la technologie de virtualisation utilisée, et ce qu'elles impliquent en terme de performances, isolation des serveurs les uns par rapport aux autres, etc.

Pour le reste, c'est du moyen voire long terme : il faudra déterminer l'offre qui nous est la plus adaptée au moment où on en aura besoin. Si ça se trouve, on sera obligés de migrer sur encore autre chose parce qu'on aura besoin de plus d'espace disque.

Le principal message de mon post, ça reste que ce moment risque d'arriver plus vite que prévu si le CPU est l'élément bloquant.

Moi je suis plutot de l'avis de nohar

OK, alors concrètement sur ce genre de problème, il faut :

  • Qu'on caractérise le problème, en gros, qu'il commence à se présenter pour de vrai ou bien qu'on puisse avoir un graphe ou une estimation qui la fait apparaître de façon quantifiable,

  • Le cas échéant qu'on regarde les offres, et que je puisse transmettre le comparatif de ce qui nous semble le plus pertinent au CA de l'association pour qu'ils prennent une décision.

nohar

Je déterre salement ce sujet pour dire que depuis le 31 décembre vers minuit, on avait des temps de réponse moyen-moyens et des stats CPU déclaraient des centaines de millier de pourcent de steal (edit : jusqu'à plus de 5 000 000 000 % en fait) (!).

J'ai redémarré la VM (ça au moins c'est ultra rapide) et tout semble revenu dans l'ordre.

Connectez-vous pour pouvoir poster un message.
Connexion

Pas encore membre ?

Créez un compte en une minute pour profiter pleinement de toutes les fonctionnalités de Zeste de Savoir. Ici, tout est gratuit et sans publicité.
Créer un compte