L’équipe Canonical Data Fabric vient d’annoncer la première version bêta de Charmed Spark, sa solution pour Apache Spark. Quel intérêt pour exécuter des tâches Spark sur Kubernetes ?
De quoi on parle ?
Apache Spark est un logiciel libre et open source permettant de développer des tâches de traitement parallèle distribué. Il est populaire auprès des ingénieurs et des data scientists pour le traitement des données à l’échelle, à la fois en mode batch et en mode continu. Les ingénieurs peuvent écrire du code Python ou Scala pour développer des tâches Spark pour l’ETL, l’analytique et l’apprentissage automatique.
La solution de Canonical
Canonical construit une solution packagée et prise en charge pour exécuter des tâches Spark sur Kubernetes. La version preview est la première étape vers la construction d’une solution complète pour les utilisateurs de Spark.
Charmed Spark fait partie de Canonical Data Fabric, un ensemble de solutions pour le traitement des données (d’autres solutions seront annoncées prochainemen)t. La version bêta comprend des fonctionnalités pour :
- Soumettre des tâches au cluster
- Gestion de la configuration des tâches
- Le maintien de la sécurité des images de conteneurs
- Un opérateur logiciel pour déployer et faire fonctionner le serveur d’historique Spark
Installer Charmed Spark beta
Les utilisateurs peuvent désormais déployer Charmed Spark sur MicroK8s, Charmed Kubernetes et AWS Elastic Kubernetes Service (EKS). Le guide d’architecture de référence vient d’être mis en ligne.
Pour commencer, rendez-vous sur les pages de documentation de Charmed Spark et installez le snap spark-client.