Cloudflare Workers AI : Kimi K2.5, le premier modèle géant arrive

Cloudflare annonce l’intégration de Kimi K2.5 de Moonshot AI dans Workers AI. C’est une étape quasi symbolique pour la plateforme, car elle accueille pour la première fois un modèle open source de niveau « frontier ». Cette mise à jour permet aux développeurs de concevoir des agents autonomes capables de gérer des tâches complexes, de l’inférence à l’exécution, sans quitter l’écosystème Cloudflare.

Publié par le laboratoire chinois Moonshot AI, Kimi K2.5 n’est pas un modèle ordinaire. Il s’agit d’une architecture multimodale de type « Mixture-of-Experts » (MoE) affichant un billion (1 000 milliards) de paramètres au total, dont 32 milliards sont activés par requête. Ce modèle se distingue par sa fenêtre de contexte massive de 256 000 tokens et sa capacité à gérer des appels d’outils multi-tours. Ces caractéristiques le destinent naturellement aux charges de travail liées à l’IA agentique, un domaine où la fluidité et la mémoire du contexte sont essentielles pour la pertinence des réponses.

Une réduction de coûts radicale pour les agents IA

L’intérêt de ce déploiement ne réside pas seulement dans la puissance brute, mais aussi dans l’efficacité économique. Cloudflare a testé Kimi K2.5 en interne pour des revues de code automatisées traitant plus de 7 milliards de tokens par jour. Selon les données de l’entreprise, le passage d’un modèle propriétaire de milieu de gamme à Kimi K2.5 sur Workers AI a permis de réduire les coûts de 77 %. L’exécution de cet agent sur une solution tierce aurait coûté environ 2,4 millions de dollars (environ 2,27 millions d’euros) par an, car le volume d’inférence nécessaire pour de telles tâches est colossal.

Bloc de code curl illustrant l'utilisation de l'en-tête x-session-affinity avec le modèle Kimi K2.5 sur l'API Cloudflare Workers AI. — L’en-tête x-session-affinity peut être configuré manuellement ou via le SDK Agents pour optimiser le cache des sessions.

Des optimisations pour des conversations plus fluides

Parallèlement à l’arrivée de ce modèle, Cloudflare introduit des fonctionnalités techniques pour optimiser les performances des agents. Un nouvel en-tête x-session-affinity permet désormais de router les requêtes d’une même conversation vers la même instance de modèle, ce qui améliore les taux de réussite du cache. Le système d’inférence asynchrone a également été repensé pour traiter les requêtes en file d’attente selon la capacité disponible.

Cette offensive place Cloudflare en concurrence directe avec les fournisseurs spécialisés. Si les tarifs annoncés de 0,60 $(environ 0,57 €) par million de tokens en entrée et 3,00$ (environ 2,84 €) en sortie sont plus élevés que certaines alternatives, l’intégration native dans l’infrastructure de bord reste un avantage majeur.

Vous pouvez retrouver tous les détails techniques sur le changelog officiel de Cloudflare.

Cloudflare Workers AI : un premier modèle « frontier » pour piloter vos agents IA

Une réduction de coûts radicale pour les agents IA

Des optimisations pour des conversations plus fluides

J’aime ça :

Articles similaires

Cloudflare Workers AI : un premier modèle « frontier » pour piloter vos agents IA

Une réduction de coûts radicale pour les agents IA

Des optimisations pour des conversations plus fluides

Partager :

J’aime ça :

Articles similaires

Must Read