GLM-4.7-Flash : le nouveau monstre du codage local est arrivé !

Le 19 janvier 2026, l’entreprise chinoise Z.ai (anciennement Zhipu AI) a frappé un grand coup dans l’écosystème de l’IA ouverte. Elle vient de publier en open source GLM-4.7-Flash, un modèle de langage conçu spécifiquement pour offrir des performances de pointe en programmation directement sur du matériel grand public.

Cette sortie confirme la domination de Z.ai, dont le grand frère avait déjà marqué les esprits fin 2025 : rappelez-vous, GLM-4.7 pulvérisait alors les records mondiaux de codage.

La puissance du MoE dans votre GPU

D’une taille de 30 milliards de paramètres, GLM-4.7-Flash utilise une architecture Mixture-of-Experts (MoE). Sa particularité ? Il n’active qu’environ trois milliards de paramètres par jeton lors de l’exécution.

Cette efficacité redoutable permet au modèle de s’envoler sur des machines locales :

Vitesse : jusqu’à 82 jetons par seconde sur un MacBook Pro M4 Max.
Accessibilité : fonctionne sur des GPU grand public comme la RTX 3090 grâce à des versions quantifiées (4-bit et 8-bit) déjà disponibles sur Hugging Face.
Contexte : supporte jusqu’à 200 000 jetons, idéal pour analyser des bases de code entières.

Des performances qui font trembler les géants

Sur le terrain des performances, avec le benchmark SWE-bench Verified, qui teste la capacité à résoudre de vrais bugs GitHub, GLM-4.7-Flash affiche un score impressionnant de 59,2 %. À titre de comparaison, il devance nettement des modèles comme Qwen3-30B (22 %) ou gpt-oss-20b (34 %).

Z.ai a optimisé ce modèle avec le mécanisme Multi-Head Latent Attention (MLA), réduisant la charge computationnelle sans sacrifier la précision. Résultat : un assistant capable de rivaliser avec des modèles bien plus massifs tout en restant « instantané » dans sa réponse.

L’adoption par la communauté a été immédiate. Quelques heures après le lancement, le framework vLLM annonçait déjà son support, suivi de près par LM Studio. Le modèle est disponible sous licence MIT, offrant une liberté totale aux développeurs.

IA : Z.ai libère GLM-4.7-Flash, le nouveau champion du codage local

La puissance du MoE dans votre GPU

Des performances qui font trembler les géants

J’aime ça :

Articles similaires

IA : Z.ai libère GLM-4.7-Flash, le nouveau champion du codage local

La puissance du MoE dans votre GPU

Des performances qui font trembler les géants

Partager :

J’aime ça :

Articles similaires

Must Read