Scala et le machine learning

a marqué ce sujet comme résolu.

Salut !

J’ai appris que beaucoup d’entreprises utilisent Scala et Spark pour des tâches de machine learning.

J’aimerai bien avoir plusieurs informations, notamment :

  • Pour qu’elle tâche utiliser Scala au lieu de Python au vu de son écosystème et son implantation dans le monde de la data ?
  • Qu’est ce que Spark en réalité par rapport à des libs comme matplotlib, pytoch, seaborn, scikit-learn, numpy, etc.
  • Y’a t’il une si grande proportion d’entreprise l’utilisant ? (Je le vois très souvent, donc j’ai l’impression qu’il a une place assez prédominante)

Auriez-vous des bonnes ressources pour apprendre Scala et Spark afin de rajouter une corde à mon arc ?

Merci d’avance !

+0 -0

Spark est pour faire du traitement sur de gros volumes de données (big data). Scikit est pour du machine learning et utilise matplotlib (comme son nom l’indique pour faire des graphiques) et numpy (pour du calcul matriciel), pytorch est pour faire du deep Learning.

Pour connaître leurs utilisations en entreprise, un bon proxy serait d’obtenir le nombre d’offres sur des aggrégateurs / méta moteurs de recherche d’emploi type Google jobs, mais je n’ai trouvé de scrappers qui permette de l’obtenir.

+1 -0

Il y a méprise. Spark c’est fait pour les analyses de données à grande échelles (tu collectes plein de données et tu veux les analyser en détail pour détecter des entrées anormales, calculer des corrélations, etc., et tu as besoin de distribuer ces calculs sur plusieurs machines pour que ça se fasse en un temps raisonnable), pas spécifiquement pour le machine learning au sens de PyTorch ou même scikit-learn. C’est des outils et des besoins assez séparés.

Un intérêt de travailler avec Scala plutôt que Python est que le langage est nettement plus rapide — la JVM est quand même un assez beau modèle d’ingéniérie, là où l’implémentation Python standard est plutôt moyenne en termes de performance. Pour des problèmes qu’on peut globalement déléguer à du code non-python (comme une multiplication de matrices ou les trucs qu’on sait décharger au GPU) ce n’est pas grave, mais pour écrire dans le langage des routines d’analyses de grosses quantités de données ça pique un peu.

Auriez-vous des bonnes ressources pour apprendre Scala et Spark afin de rajouter une corde à mon arc ?

Pour Scala, chercher "Mooc Scala" dans ton moteur de recherche favori. Ensuite, pour Spark, lire la documentation officielle.

Connectez-vous pour pouvoir poster un message.
Connexion

Pas encore membre ?

Créez un compte en une minute pour profiter pleinement de toutes les fonctionnalités de Zeste de Savoir. Ici, tout est gratuit et sans publicité.
Créer un compte