Logo de l'entreprise Databricks écrit en lettres sombres, précédé de son symbole en forme de couches superposées orange, sur un fond clair parsemé de triangles et de ronds orange.

Databricks déploie la mise en cache automatique des invites pour accélérer l’inférence des modèles open source

La plateforme de données Databricks vient d’étendre la mise en cache automatique des invites (prompt caching) aux grands modèles de langage open source hébergés sur son infrastructure. Cette capacité d’optimisation, jusqu’alors réservée aux modèles propriétaires des géants de la tech, devient accessible sans surcoût ni configuration technique pour les entreprises exploitant des architectures à poids ouverts.

La prolifération des applications d’intelligence artificielle générative met en lumière un goulot d’étranglement majeur lors de la phase d’inférence. Les applications d’entreprise soumettent fréquemment les mêmes instructions système, chartes de modération ou contextes volumineux propres à un domaine pour des milliers de requêtes consécutives. Recalculer intégralement ces préfixes textuels identiques à chaque appel consomme inutilement des cycles de calcul de processeurs graphiques (GPU), gonfle la latence et fait grimper les coûts d’exploitation. Databricks annonce avoir la solution et cela passe par une mise en cache automatique. On vous explique comment ça marche !

Supprimer l’étape de pré-remplissage

La mise en cache des invites élimine cette redondance en réutilisant intelligemment les caches de paires Clé-Valeur (KV cache) des requêtes précédentes. Lorsqu’une correspondance est trouvée dans la mémoire de la plateforme, le système ignore complètement l’étape de pré-remplissage (prefill), ce qui réduit drastiquement le temps de calcul et permet de traiter un volume de jetons bien supérieur par unité de modèle.

🦋 L’actualité de l’open source dans votre flux. Suivez Goodtech sur Bluesky (ou vos applications AT Protocol préférées) grâce à notre bot officiel. Suivez, partagez, abonnez-vous à @goodtech.info !

Cette optimisation permet d’améliorer la pertinence d’un modèle dans des contextes métiers spécialisés sans pour autant sacrifier le débit global. Les requêtes peuvent partager une invite système très dense et volumineuse, le coût informatique de ce préfixe partagé étant ainsi amorti sur l’ensemble des flux de requêtes.

La fonctionnalité s’applique de manière transparente à l’ensemble de l’écosystème de Databricks, qu’il s’agisse de l’inférence par lots (batch), des charges de travail facturées au jeton ou des déploiements à débit provisionné. Elle irrigue également les services de plus haut niveau développés par la plateforme, à l’image des agents connectés Agent Bricks, de l’assistant Genie et des fonctions analytiques AI Functions.

Performances doublées en production

Les premiers retours d’expérience sur les infrastructures de production démontrent des gains d’efficacité particulièrement nets. Déployée initialement sur la famille de modèles internes GPT-OSS, cette optimisation a permis à un pipeline d’inférence par lots à grande échelle de multiplier par 2,5 le débit de jetons d’entrée par réplique. Parallèlement, la latence moyenne (P50) a été divisée par trois, alors même que le taux de succès du cache (cache hit ratio) se cantonnait à un niveau modeste de 30 %.

L’activation de cette mise en cache automatique couvre dès à présent un large spectre de modèles populaires de l’écosystème open source :

  • Les configurations massives GPT-OSS 20B et 120B.

  • Le modèle récent Gemma 3 12B développé par Google.

  • Les architectures phares de Meta, à savoir Llama 3.1 8B et Llama 3.3 70B.

  • Les variantes affinées de Llama 3.1 8B déployées via les services d’ajustement PEFT.

Du côté de la sécurité et de la confidentialité, un aspect crucial pour les déploiements industriels, Databricks précise que ces caches de prompts sont strictement isolés par client. Ils résident exclusivement au sein de la mémoire volatile de l’infrastructure et ne sont jamais persistés sur un stockage physique, éliminant ainsi les risques de fuite de données. L’entreprise prévoit de continuer le déploiement de cette optimisation transparente sur l’ensemble des autres modèles à poids ouverts de son catalogue.

Retour en haut