Alibaba vient de publier trois nouveaux modèles de sa série Qwen 3.5 sous licence Apache 2.0, disponibles sur Hugging Face et ModelScope. L’affirmation centrale est audacieuse : des modèles dotés de bien moins de paramètres que leurs prédécesseurs les surpasseraient sur les benchmarks de langage, vision, codage et agents. Moins gros, mais plus intelligents.
Cette sortie intervient une dizaine de jours après le lancement du modèle phare Qwen 3.5 – un mastodonte de 397 milliards de paramètres de type mixture-of-experts – et s’inscrit dans une concurrence intense entre Alibaba, ByteDance (Doubao) et DeepSeek sur le marché chinois de l’IA.
🚀 Introducing the Qwen 3.5 Medium Model Series
Qwen3.5-Flash · Qwen3.5-35B-A3B · Qwen3.5-122B-A10B · Qwen3.5-27B✨ More intelligence, less compute.
• Qwen3.5-35B-A3B now surpasses Qwen3-235B-A22B-2507 and Qwen3-VL-235B-A22B — a reminder that better architecture, data quality,… pic.twitter.com/ZWPibMn6at— Qwen (@Alibaba_Qwen) February 24, 2026
Trois modèles, une même philosophie
Le Qwen3.5-35B-A3B est la vedette de la série. Malgré 35 milliards de paramètres au total, il n’en active que 3 milliards par passage d’inférence. L’équipe Qwen affirme qu’il surpasse désormais le Qwen3-235B-A22B et l’ancien modèle phare vision-langage Qwen3-VL-235B-A22B. Le message est clair : l’amélioration de l’architecture, de la qualité des données et de l’apprentissage par renforcement font avancer l’intelligence – pas seulement l’augmentation du nombre de paramètres.
Le Qwen3.5-122B-A10B (122 milliards de paramètres, 10 milliards actifs par token) affiche les scores bruts les plus élevés des trois sur les tâches exigeantes en connaissances et en vision, avec notamment un score GPQA Diamond de 86,6.
Le Qwen3.5-27B est un modèle dense – tous ses 27 milliards de paramètres sont actifs – qui tient sur un seul GPU, supporte 201 langues et offre une fenêtre de contexte native de 262 144 tokens, extensible à environ 1 million de tokens.
Une architecture commune et un modèle hébergé
Les trois modèles partagent l’architecture hybride Gated DeltaNet, combinant attention linéaire et mixture-of-experts épars pour réduire la charge de calcul sur les contextes longs.
Alibaba propose également Qwen3.5-Flash, une version hébergée de production basée sur le modèle 35B-A3B, avec une fenêtre de contexte par défaut d’1 million de tokens, accessible via Alibaba Cloud au prix d’environ 0,10 $ (environ 0,09 €) par million de tokens d’entrée.
