Cloudflare annonce l’intégration de Kimi K2.5 de Moonshot AI dans Workers AI. C’est une étape quasi symbolique pour la plateforme, car elle accueille pour la première fois un modèle open source de niveau « frontier ». Cette mise à jour permet aux développeurs de concevoir des agents autonomes capables de gérer des tâches complexes, de l’inférence à l’exécution, sans quitter l’écosystème Cloudflare.
Publié par le laboratoire chinois Moonshot AI, Kimi K2.5 n’est pas un modèle ordinaire. Il s’agit d’une architecture multimodale de type « Mixture-of-Experts » (MoE) affichant un billion (1 000 milliards) de paramètres au total, dont 32 milliards sont activés par requête. Ce modèle se distingue par sa fenêtre de contexte massive de 256 000 tokens et sa capacité à gérer des appels d’outils multi-tours. Ces caractéristiques le destinent naturellement aux charges de travail liées à l’IA agentique, un domaine où la fluidité et la mémoire du contexte sont essentielles pour la pertinence des réponses.
Une réduction de coûts radicale pour les agents IA
L’intérêt de ce déploiement ne réside pas seulement dans la puissance brute, mais aussi dans l’efficacité économique. Cloudflare a testé Kimi K2.5 en interne pour des revues de code automatisées traitant plus de 7 milliards de tokens par jour. Selon les données de l’entreprise, le passage d’un modèle propriétaire de milieu de gamme à Kimi K2.5 sur Workers AI a permis de réduire les coûts de 77 %. L’exécution de cet agent sur une solution tierce aurait coûté environ 2,4 millions de dollars (environ 2,27 millions d’euros) par an, car le volume d’inférence nécessaire pour de telles tâches est colossal.

Des optimisations pour des conversations plus fluides
Parallèlement à l’arrivée de ce modèle, Cloudflare introduit des fonctionnalités techniques pour optimiser les performances des agents. Un nouvel en-tête x-session-affinity permet désormais de router les requêtes d’une même conversation vers la même instance de modèle, ce qui améliore les taux de réussite du cache. Le système d’inférence asynchrone a également été repensé pour traiter les requêtes en file d’attente selon la capacité disponible.
Cette offensive place Cloudflare en concurrence directe avec les fournisseurs spécialisés. Si les tarifs annoncés de 0,60 $(environ 0,57 €) par million de tokens en entrée et 3,00$ (environ 2,84 €) en sortie sont plus élevés que certaines alternatives, l’intégration native dans l’infrastructure de bord reste un avantage majeur.
Vous pouvez retrouver tous les détails techniques sur le changelog officiel de Cloudflare.
