Le 19 janvier 2026, l’entreprise chinoise Z.ai (anciennement Zhipu AI) a frappĂ© un grand coup dans l’Ă©cosystème de l’IA ouverte. Elle vient de publier en open source GLM-4.7-Flash, un modèle de langage conçu spĂ©cifiquement pour offrir des performances de pointe en programmation directement sur du matĂ©riel grand public.
Cette sortie confirme la domination de Z.ai, dont le grand frère avait déjà marqué les esprits fin 2025 : rappelez-vous, GLM-4.7 pulvérisait alors les records mondiaux de codage.
La puissance du MoE dans votre GPU
D’une taille de 30 milliards de paramètres, GLM-4.7-Flash utilise une architecture Mixture-of-Experts (MoE). Sa particularitĂ© ? Il n’active qu’environ trois milliards de paramètres par jeton lors de l’exĂ©cution.
Cette efficacitĂ© redoutable permet au modèle de s’envoler sur des machines locales :
-
Vitesse : jusqu’Ă 82 jetons par seconde sur un MacBook Pro M4 Max.
-
Accessibilité : fonctionne sur des GPU grand public comme la RTX 3090 grâce à des versions quantifiées (4-bit et 8-bit) déjà disponibles sur Hugging Face.
-
Contexte : supporte jusqu’Ă 200 000 jetons, idĂ©al pour analyser des bases de code entières.
Des performances qui font trembler les géants
Sur le terrain des performances, avec le benchmark SWE-bench Verified, qui teste la capacité à résoudre de vrais bugs GitHub, GLM-4.7-Flash affiche un score impressionnant de 59,2 %. À titre de comparaison, il devance nettement des modèles comme Qwen3-30B (22 %) ou gpt-oss-20b (34 %).
Z.ai a optimisé ce modèle avec le mécanisme Multi-Head Latent Attention (MLA), réduisant la charge computationnelle sans sacrifier la précision. Résultat : un assistant capable de rivaliser avec des modèles bien plus massifs tout en restant « instantané » dans sa réponse.
L’adoption par la communautĂ© a Ă©tĂ© immĂ©diate. Quelques heures après le lancement, le framework vLLM annonçait dĂ©jĂ son support, suivi de près par LM Studio. Le modèle est disponible sous licence MIT, offrant une libertĂ© totale aux dĂ©veloppeurs.
