Le comité technique de la Cloud Native Computing Foundation, le TOC, a approuvé l’entrée en incubation de KServe, une plateforme d’inférence unifiée pour modèles prédictifs et génératifs construite pour Kubernetes. Ce passage à l’étape supérieure confirme la montée en puissance d’un outil devenu incontournable pour déployer des charges IA à grande échelle dans des environnements multi-cloud.
Initialement né en 2019 au sein du projet Kubeflow, KServe a été développé conjointement par Google, IBM, Bloomberg, NVIDIA et Seldon. Le projet a ensuite été confié à la fondation LF AI & Data en 2022 avant de poursuivre sa route en tant que projet autonome. Sa nouvelle étape, l’entrée en incubation CNCF, marque son intégration officielle dans l’écosystème dit cloud-native.
KServe se présente comme un socle distribué, capable d’unifier l’inférence de modèles prédictifs traditionnels et de modèles génératifs modernes. Il repose sur un ensemble de ressources personnalisées Kubernetes et s’appuie sur une architecture suffisamment simple pour des déploiements rapides, mais assez robuste pour absorber les charges IA complexes.
Le projet est compatible avec une large palette de moteurs d’inférence, depuis TensorFlow et PyTorch jusqu’aux modèles ONNX, XGBoost ou scikit-learn. L’évolution récente de l’écosystème a conduit ses mainteneurs à renforcer le support des modèles génératifs, notamment grâce aux optimisations apportées au backend vLLM et à l’introduction de la ressource LLMInferenceService.

Cette approche s’accompagne d’un travail important sur la standardisation. KServe utilise ainsi l’Open Inference Protocol pour décrire les échanges entre moteurs d’inférence et runtimes, un élément clé pour uniformiser les déploiements dans des architectures hétérogènes. La plateforme s’intègre naturellement avec une longue liste d’outils cloud-native, qu’il s’agisse de Kubernetes lui-même, d’Envoy via l’AI Gateway, d’Istio pour la gestion maillée du trafic ou de Knative pour permettre un passage automatisé entre zéro, quelques instances ou des grappes entières de serveurs selon la charge.
Un projet mûri par des années d’adoption en production
Derrière l’annonce de la CNCF se cache un projet qui a déjà une longue histoire en production. De grands noms comme Bloomberg, Red Hat, Cloudera, SAP, CyberAgent, Nutanix ou NVIDIA s’appuient sur KServe pour opérer des centaines, parfois des milliers de modèles dans des environnements multi-cloud. Certaines plateformes internes l’utilisent pour servir des modèles génératifs à haute intensité GPU, tandis que d’autres l’intègrent dans des environnements plus classiques pour orchestrer des modèles prédictifs à large volume.
Le socle ModelMesh, l’un des composants structurants de KServe, a joué un rôle clé dans cette adoption. Il permet de gérer à la volée de vastes catalogues de modèles, en optimisant densité, latence et disponibilité. L’architecture modulaire facilite en outre l’intégration avec des projets émergents comme llm-d ou LMCache, conçus pour réduire les coûts de calcul et améliorer la cohérence des réponses des modèles.
