Choix base de données pour objets connectés

Le problème exposé dans ce sujet a été résolu.

Bonjour à tous !

Je commence à travailler sur un projet personnel d’objets connectés, consistant à en stocker des données pour ensuite en tirer des prédictions.

Pour ce projet, j’ai environ 1300 points de données à enregistrer chaque minute. Par conséquent, j’ai besoin de stocker environ 2 millions de lignes par jour.

Naïvement, j’ai commencé à initialiser mon projet Django avec postgreSQL mais je me rends bien compte que sur le long terme, ce ne sera pas tenable.

Par conséquent, je voulais savoir si vous auriez des recommandations à me faire pour choisir une base de données (a priori, noSQL), qui réponde aux critères suivants :

  1. Capable d’absorber 2 millions de lignes par jour. J’envisage d’archiver les données tous les ans donc environ 700 millions de lignes
  2. Managée. C’est un projet perso, je n’ai pas envie de passer du temps à galérer avec les configurations serveur

Quelqu’un aurait-il déjà été face à une problématique de ce genre ? Merci d’avance pour votre expertise !

+0 -0

Merci SpaceFox,

Désolé, je me suis très mal exprimé. C’est plutôt du stockage de données dans un premier temps, pour ensuite en tirer des prévisions (je vais modifier le titre en conséquence).

Du coup, je ne pense pas que Prometheus soit le plus adapté dans mon cas, mais je vais quand même creuser !

Merci pour ton aide en tout cas.

Hello,

Clairement ce qui semble le plus indiqué dans ton cas est une base de données time series, ce sont des bases de données, en général distribuées, spécialisées dans l’absorption et le stockage de grande quantités de données temporelles, et optimisées pour l’analyse et la consolidation de ces données, ce qui te permet entre autres d’en extraire des prédictions, voire des projections.

Les bases de données de ce type les plus connues sont OpenTSDB et Prometheus. Personnellement j’ai utilisé dans le cadre d’un projet professionnel la base Warp10, pour enregistrer des dizaines de millions de points et en faire des projections. C’est tout à fait adapté à ton usage à mon avis.

Si tu cherches ce genre de solution sous forme managée, tu peux regarder par exemple ici : https://www.ovh.com/fr/data-platforms/metrics/. Ce produit te permet de pousser et de requêter tes données dans le protocole de ton choix et de créer des dashboards dans une interface web.

Bonne journée ! ;)

Merci pour ta réponse. Je suis allé voir les solutions que tu proposes @Society et effectivement ça a l’air pas mal.

A côté de ça, je me suis rendu compte que dans un premier temps, je n’avais pas besoin d’afficher ces données (je vais faire de l’analyse dessus), donc elles sont pour l’instant stockées sous forme de CSV.

Une fois que j’en aurai suffisamment, je verrai alors entre toutes tes propositions celle qui semble le plus adaptée à ingérer ce CSV (qui pèsera tout de même, au bout d’une an, 42 Go…).

Merci pour votre aide !

Connectez-vous pour pouvoir poster un message.
Connexion

Pas encore membre ?

Créez un compte en une minute pour profiter pleinement de toutes les fonctionnalités de Zeste de Savoir. Ici, tout est gratuit et sans publicité.
Créer un compte