C’est un geste rare dans l’industrie. Lors du KubeCon + CloudNativeCon Europe 2026 à Amsterdam, NVIDIA a annoncé officiellement le don de son pilote Dynamic Resource Allocation (DRA) pour GPU au projet Kubernetes, transférant la gouvernance d’un composant clé de l’infrastructure IA d’un fournisseur unique à la communauté open source au sein de la Cloud Native Computing Foundation.
La proposition avait été soumise en février par Kevin Klues, ingénieur émérite chez NVIDIA, sur la liste de diffusion des développeurs Kubernetes. Le pilote passe sous la tutelle du SIG-Node au sein de l’organisation Kubernetes.
Le code source est disponible sur GitHub sous licence Apache 2.0.
Ce que DRA change concrètement pour les GPU
Jusqu’ici, Kubernetes traitait les GPU comme de simples ressources comptables – vous en demandez un, vous en obtenez un. DRA va beaucoup plus loin : il permet aux charges de travail d’effectuer des demandes structurées basées sur des attributs, en spécifiant les exigences en mémoire, les partitions de calcul ou les contraintes de topologie. En pratique, le pilote prend en charge le partage dynamique de GPU, le partitionnement Multi-Instance GPU (MIG) statique et dynamique, et le service multi-processus (MPS) de NVIDIA.
La fonctionnalité la plus stratégique est l’abstraction ComputeDomains : elle fournit une isolation sécurisée pour le partage de mémoire GPU-à-GPU à large bande passante via des connexions Multi-Node NVLink, une capacité essentielle pour l’entraînement de modèles d’IA de grande envergure. Le pilote cible Kubernetes 1.32 et versions ultérieures, et DRA a atteint la disponibilité générale dans Kubernetes 1.34.
Un soutien unanime de l’écosystème
La réception a été immédiate et unanime. Sergey Kanzhelev, responsable du SIG-Node, s’est déclaré « extrêmement enthousiaste » et a encouragé d’autres fournisseurs à rejoindre le projet pour en assurer la stabilité à long terme. Microsoft collabore aux travaux en amont, notamment en intégrant DRA avec les cartes réseau Azure RDMA. Amazon Web Services a rendu DRA généralement disponible sur EKS à partir de Kubernetes 1.33. Google Cloud l’adopte comme primitive de planification pour les GPU et les TPU sur GKE. Red Hat l’a intégré dans OpenShift dans le cadre d’AI Factory with NVIDIA. SUSE y voit un accélérateur pour « l’ensemble de l’industrie » en plaçant « un composant essentiel pour la gestion d’infrastructures IA haute performance directement entre les mains de la communauté« .
