Interface de l'application Happy Horse 1.0 montrant les réglages de modèle et un prompt décrivant un paysage urbain futuriste.

Séisme dans l’IA vidéo : le modèle open source HappyHorse-1.0 prend la tête du classement mondial 🐎

C’est l’invité inattendu de ce début de mois d’avril 2026. Un modèle d’IA vidéo encore inconnu il y a quelques jours, baptisé HappyHorse-1.0, vient de s’emparer de la première place sur l’Artificial Analysis Video Arena. En pulvérisant les scores de ByteDance, Kuaishou et OpenAI dans des tests à l’aveugle, ce projet « open source » devient le nouveau standard de l’industrie.

L’annonce a été officialisée le 7 avril : le mystérieux HappyHorse domine désormais les catégories Texte-vers-Vidéo et Image-vers-Vidéo. Mais derrière ce nom facétieux se cache une équipe de vétérans bien connus du secteur. Il fallait s’en douter !

Un classement dominé par un « Outsider » de génie

Dans le format de l’Arena, les utilisateurs comparent deux vidéos sans connaître leur origine. Les résultats parlent d’eux-mêmes : avec un score Elo de 1 386, HappyHorse-1.0 distance de plus de 100 points les modèles les plus performants de la Silicon Valley.

Rang Créateur Modèle Score Elo Sortie
1 Alibaba-ATH HappyHorse-1.0 1 386 Avril 2026
2 ByteDance Seed Dreamina Seedance 2.0 1 273 Mars 2026
3 Skywork AI SkyReels V4 1 244 Mars 2026
4 KlingAI Kling 3.0 1080p (Pro) 1 242 Février 2026
10 Google Veo 3 1 219 Juillet 2025

Le pedigree : l’héritier secret de Kling AI

Le mystère sur l’origine du modèle s’est rapidement dissipé. HappyHorse est le fruit d’une équipe indépendante issue du Future Life Laboratory (groupe Taotian d’Alibaba), sous la houlette de Zhang Di. Pour les initiés, ce nom est synonyme de révolution : il s’agit de l’ancien vice-président de Kuaishou et l’architecte technique derrière le célèbre Kling AI.

Sur le plan technique, la bête en a sous le sabot avec ses 15 milliards de paramètres et son Transformer monoflux unifié de 40 couches. Cette architecture permet une génération native où l’image et le son synchronisé sont créés simultanément en une seule passe d’inférence, évitant ainsi les décalages audio-vidéo chroniques des autres modèles. La performance est au rendez-vous puisque le système produit des vidéos natives en 1080p en seulement 38 secondes sur un seul GPU NVIDIA H100, une prouesse rendue possible par l’utilisation de la technique de distillation DMD-2.

Open source ou « Coming Soon » ?

L’annonce a fait grand bruit car le modèle est présenté sous licence Apache 2.0. Cependant, une petite mise au point s’impose : bien que la page Hugging Face soit référencée aux quatre coins de la toile, la page 404 est tout ce que l’on voit actuellement (à l’heure où nous écrivons ces lignes). Les poids du modèle et le code d’inférence complet sont encore marqués « coming soon » ou inaccessibles au téléchargement direct.

Tableau du Text to Video Leaderboard d'Artificial Analysis montrant HappyHorse-1.0 en première position avec 1 386 points Elo.
HappyHorse-1.0 prend la tête du classement mondial, devançant ByteDance de plus de 100 points Elo.

L’équipe promet une libération totale des poids (modèle de base, version distillée et module de super-résolution) dans les jours à venir. En attendant, les curieux peuvent tester la puissance du modèle via un essai gratuit sur le site officiel (disponible en français, d’ailleurs !).

Retour en haut