Unifier Apache Spark et Apache Hadoop

Cloudera a contribué au développement de Spark en fournissant plus de 370 correctifs et 43 000 lignes de code. Spark est un composant profondément intégré et très largement utilisé de la plate-forme Hadoop de Cloudera.

En intégrant étroitement Spark à la plate-forme, dans des domaines couvrant l’administration, la sécurité, l’évolutivité et le streaming, « One Platform » entend favoriser la création de ce que l’éditeur appelle une «nouvelle génération d’applications analytiques».

La sécurité de Spark a déjà été améliorée, notamment via l’intégration de Kerberos pour l’authentification et de HDFS Sync et Apache Sentry pour le contrôle d’accès basé sur les rôles. L’initiative « One Platform » s’attachera à garantir que Spark «répond à l’ensemble des contraintes réglementaires et intègre parfaitement les fonctions de sécurité d’Hadoop», selon l’éditeur.

« One Platform » contribuera à garantir la capacité de Spark à prendre en charge des jobs à travers des dizaines de milliers de nœuds dans des clusters multi-tenant, ce qui nécessite des niveaux supérieurs de fiabilité, de stabilité et de performance.

Administrer Spark

Faciliter l’administration de Spark est essentiel. Cloudera a mené des efforts en ce sens pour intégrer Spark avec Hadoop YARN pour la gestion des ressources partagées, en le connectant avec d’autres environnements Hadoop comme Impala et Apache Solr, et en ajoutant des indicateurs utiles pour les diagnostics. L’initiative annoncée cette semaine veut poursuivre cette amélioration del’administration de Spark à travers des configurations automatiques ; l’amélioration du caractère multi-tenant, des performances et de la facilité d’utilisation de Spark-on-YARN ; une visibilité accrue sur l’utilisation des ressources ; et un processus d’installation enrichi de PySpark pour un accès via Python.

Pour en savoir plus, vous pouvez participer au Webinar « Unifying Spark and Hadoop: The One Platform Initiative » le 24 septembre à 19h (heure de Paris).