Ce qu’il faut savoir sur Wan2.1-VACE, la nouvelle IA de création vidéo d’Alibaba

Alibaba Cloud vient de dévoiler Wan2.1-VACE, un modèle d’IA open source conçu pour transformer la création et l’édition vidéo. Ce modèle tout-en-un, présenté comme une première dans le secteur, regroupe en une seule interface toutes les fonctions essentielles de la vidéo générative, accessibles via des entrées multimodales (texte, image, vidéo).

Avec Wan2.1-VACE, il est possible de générer des vidéos à partir d’images fixes, de modifier des zones spécifiques sans affecter le reste de la séquence, ou encore de transférer des poses et contrôler des mouvements. Le modèle permet aussi d’étendre une image verticale en vidéo horizontale et de remplacer des objets par référence. Il intègre également des fonctions d’effets comme la recoloration, le contrôle de profondeur ou la synchronisation spatio-temporelle.

Techniquement, Wan2.1-VACE s’appuie sur une interface unifiée appelée Video Condition Unit (VCU) et une structure innovante d’adaptateur de contexte, capable de gérer les dimensions spatiales et temporelles de manière flexible. Le modèle cible des cas d’usage variés, de la production de vidéos pour les réseaux sociaux et le marketing à la postproduction cinématographique, en passant par la formation.

Alibaba met à disposition deux versions open source de son modèle : une version 1,3 milliard de paramètres disponible sur Hugging Face, et une version 14 milliards de paramètres à télécharger via Modelscope et le dépôt officiel sur GitHub.

Avec plus de 3,3 millions de téléchargements pour la série Wan 2.1 depuis février 2025, Alibaba s’impose comme l’un des acteurs majeurs de l’IA open source dans le domaine vidéo, face notamment à Google et à OpenAI.

Retour en haut