Qwen-Image, le nouveau modèle génératif d’Alibaba, pourrait bien changer la donne dans l’univers de l’IA visuelle. Là où DALL·E et consorts peinent encore à écrire correctement « bonjour » ou « fromage » dans une image, Qwen-Image réussit à rendre des paragraphes entiers, en anglais, en chinois… ou même les deux en même temps. Et le tout, sous licence Apache 2.0 : open source, modifiable, réutilisable, même dans un projet commercial.
Dévoilé le 4 août 2025, Qwen-Image s’appuie sur une architecture baptisée MMDiT (Multimodal Masked Diffusion Transformer) de 20 milliards de paramètres. Il ne s’agit pas seulement d’un générateur d’images ; c’est un modèle fondamental, conçu dès le départ pour comprendre et produire du texte dans l’image, avec une fidélité qui dépasse tous les modèles existants selon les benchmarks publics.
Sur GitHub, Alibaba fournit tout ce qu’il faut pour tester, intégrer ou améliorer Qwen-Image. Une démo publique permet d’expérimenter directement la génération d’affiches, de scènes complexes ou de slides de présentation contenant du texte. Sur Hugging Face, les modèles sont téléchargeables et prêts à l’emploi.

Là où Qwen-Image impressionne le plus, c’est dans le rendu typographique précis — de la signalétique à la calligraphie, des citations en petits caractères aux longues légendes structurées. Il gère les effets de style, les mises en page complexes, et respecte même la disposition verticale des caractères dans les distiques chinois. Mais ce n’est pas qu’un modèle pour esthètes de la typo : il sait aussi générer des images cohérentes, réalistes, dans des styles variés (anime, sci-fi, aquarelle…). Et surtout, il permet une édition d’image fine : retouches, ajouts, suppressions d’éléments, changements de pose… directement en langage naturel.
Autre avantage : il tourne sur une carte graphique grand public, comme une NVIDIA RTX 3090, grâce à des techniques de quantification comme DFloat11 et du déchargement vers le CPU. On est donc loin des modèles fermés ultra-gourmands et réservés aux hyperscalers.
En clair, comme le communiqué le précise, Qwen-Image n’est pas un jouet, mais une brique technologique sérieuse pour celles et ceux qui veulent créer des visuels porteurs de sens, dans plusieurs langues, et sans compromis sur la qualité ou la liberté d’usage. À l’heure où l’IA visuelle devient centrale pour la création de contenus, c’est une proposition rafraîchissante — et open source, surtout.
