Baidu annonce ERNIE-Image et ERNIE-Image-Turbo, deux modèles open source de génération d’images à partir de texte qui réussissent là où DALL-E, Midjourney et Stable Diffusion échouent systématiquement : le rendu parfait du texte dans les images. Avec seulement 8 milliards de paramètres, ces modèles tournent sur un GPU grand public équipé de 24 Go de VRAM, comme une Nvidia RTX 4090, et affichent des scores de benchmark impressionnants.
Les modèles, construits sur une architecture Diffusion Transformer à flux unique avec 8 milliards de paramètres, sont publiés sous la licence Apache 2.0, avec les poids disponibles sur Hugging Face. La variante standard ERNIE-Image génère des images en environ 50 étapes d’inférence, tandis que la version Turbo, distillée à l’aide de DMD et de l’apprentissage par renforcement, produit des images en seulement 8 étapes, ce qui la rend environ six fois plus rapide.
En ciblant le seuil de 24 Go de VRAM, courant sur des cartes comme la Nvidia RTX 4090, Baidu positionne ERNIE-Image pour un déploiement local par des développeurs individuels et des petites équipes, plutôt que de réserver l’accès aux API cloud. Une approche qui contraste radicalement avec les générateurs d’images commerciaux fermés qui ne fonctionnent que via des appels API payants.
Le rendu de texte parfait, talon d’Achille de DALL-E et Midjourney
L’équipe de Baidu a rapporté des scores de benchmarks incluant un total GenEval de 0,8856 et un score LongTextBench de 0,9733, positionnant le modèle comme l’état de l’art open source pour le rendu de texte. Un domaine où DALL-E 3, Midjourney V6 et même Stable Diffusion 3 produisent encore régulièrement des lettres déformées, des mots mal orthographiés ou des textes totalement illisibles.
ERNIE-Image performe particulièrement bien sur du texte dense, long et sensible à la mise en page, ce qui en fait un choix solide pour les affiches, infographies, interfaces utilisateur et autres contenus visuels riches en texte. Le modèle prend en charge des prompts bilingues en anglais et en chinois, et est conçu pour des sorties visuelles structurées telles que des affiches, des bandes dessinées et des mises en page multi-panneaux.
Malgré sa taille compacte de 8 milliards de paramètres, ERNIE-Image reste hautement compétitif face à des modèles open weight considérablement plus larges sur une gamme de benchmarks. Le modèle suit également les instructions complexes impliquant plusieurs objets, des relations détaillées et des descriptions riches en connaissances avec une forte fiabilité.
Version Turbo 6 fois plus rapide avec seulement 8 étapes
La version Turbo d’ERNIE-Image représente une avancée majeure en termes de vitesse d’inférence. Distillée à l’aide de DMD (Diffusion Model Distillation) et de l’apprentissage par renforcement, elle produit des images en seulement 8 étapes d’inférence contre 50 pour la version standard, soit une accélération d’environ six fois.
Cette rapidité rend le modèle utilisable en quasi-temps réel sur du matériel grand public, ouvrant la porte à des applications interactives qui seraient impossibles avec des générateurs nécessitant des dizaines d’étapes d’inférence. Les modèles s’intègrent aux outils populaires tels que ComfyUI et la bibliothèque Diffusers, et un schéma de quantification GGUF développé avec Unsloth abaisse encore davantage la barrière au déploiement.
Améliorateur de prompts intégré pour éviter l’ingénierie complexe
Une fonctionnalité distinctive est un Améliorateur de Prompts léger qui développe automatiquement les saisies courtes des utilisateurs en descriptions plus structurées et détaillées, améliorant ainsi la qualité des résultats sans que les utilisateurs aient besoin de rédiger eux-mêmes des prompts élaborés.
Cela résout un point de friction courant avec les générateurs d’images, où la qualité des résultats dépend souvent fortement des compétences en ingénierie de prompts. Au lieu de devoir écrire « Un portrait photoréaliste d’une femme dans la trentaine aux cheveux auburn, portant une robe bleue, debout dans un jardin ensoleillé avec des roses, photographié avec un Canon 5D Mark IV et un objectif 85mm à f/1.4 », l’utilisateur peut simplement écrire « femme dans un jardin » et laisser l’améliorateur enrichir le prompt.
Le modèle supporte également une large couverture stylistique : photographie réaliste, imagerie orientée design et esthétiques stylisées distinctives, ce qui le rend polyvalent pour différents cas d’usage créatifs.
Code ouvert et compatible ComfyUI
L’approche en poids ouverts (open weight) donne aux développeurs un contrôle total sur le fine-tuning et la personnalisation, ce qui contraste avec les générateurs d’images commerciaux fermés. La licence Apache 2.0 permet une utilisation commerciale sans restriction, et le code source complet est disponible sur GitHub.
La publication s’inscrit dans la dynamique open source plus large de Baidu, lancée avec la famille de modèles ERNIE 4.5 à la mi-2025. Cette stratégie d’ouverture radicale fait écho à celle observée avec les modèles de langage chinois comme Qwen d’Alibaba et DeepSeek, qui dominent désormais les classements d’utilisation mondiale sur des plateformes comme OpenRouter.
ERNIE-Image est particulièrement efficace pour les tâches visuelles structurées telles que les affiches, les bandes dessinées, les storyboards et les compositions multi-panneaux. Les développeurs peuvent télécharger les modèles depuis Hugging Face pour la version standard et ERNIE-Image-Turbo pour la version rapide.
