GLM-4.7-Flash : le nouveau standard de l'IA de codage pour matériel grand public.

IA : Z.ai libère GLM-4.7-Flash, le nouveau champion du codage local

Le 19 janvier 2026, l’entreprise chinoise Z.ai (anciennement Zhipu AI) a frappĂ© un grand coup dans l’Ă©cosystème de l’IA ouverte. Elle vient de publier en open source GLM-4.7-Flash, un modèle de langage conçu spĂ©cifiquement pour offrir des performances de pointe en programmation directement sur du matĂ©riel grand public.

Cette sortie confirme la domination de Z.ai, dont le grand frère avait déjà marqué les esprits fin 2025 : rappelez-vous, GLM-4.7 pulvérisait alors les records mondiaux de codage.

La puissance du MoE dans votre GPU

D’une taille de 30 milliards de paramètres, GLM-4.7-Flash utilise une architecture Mixture-of-Experts (MoE). Sa particularitĂ© ? Il n’active qu’environ trois milliards de paramètres par jeton lors de l’exĂ©cution.

Cette efficacitĂ© redoutable permet au modèle de s’envoler sur des machines locales :

  • Vitesse : jusqu’Ă  82 jetons par seconde sur un MacBook Pro M4 Max.

  • AccessibilitĂ© : fonctionne sur des GPU grand public comme la RTX 3090 grâce Ă  des versions quantifiĂ©es (4-bit et 8-bit) dĂ©jĂ  disponibles sur Hugging Face.

  • Contexte : supporte jusqu’Ă  200 000 jetons, idĂ©al pour analyser des bases de code entières.

Des performances qui font trembler les géants

Sur le terrain des performances, avec le benchmark SWE-bench Verified, qui teste la capacité à résoudre de vrais bugs GitHub, GLM-4.7-Flash affiche un score impressionnant de 59,2 %. À titre de comparaison, il devance nettement des modèles comme Qwen3-30B (22 %) ou gpt-oss-20b (34 %).

Z.ai a optimisé ce modèle avec le mécanisme Multi-Head Latent Attention (MLA), réduisant la charge computationnelle sans sacrifier la précision. Résultat : un assistant capable de rivaliser avec des modèles bien plus massifs tout en restant « instantané » dans sa réponse.

L’adoption par la communautĂ© a Ă©tĂ© immĂ©diate. Quelques heures après le lancement, le framework vLLM annonçait dĂ©jĂ  son support, suivi de près par LM Studio. Le modèle est disponible sous licence MIT, offrant une libertĂ© totale aux dĂ©veloppeurs.

Retour en haut