Stepfun

StepFun et Geely Auto publient leur IA en open source

La startup d’IA StepFun, établie à Shanghai, et le constructeur automobile chinois Geely Auto viennent d’annoncer la mise en libre accès de deux modèles d’intelligence artificielle multimodaux à destination des développeurs… du monde entier.

Selon ChinaDaily, cette démarche s’inscrit dans la vague d’initiatives open source chinoises visant à promouvoir l’innovation et la coopération internationale dans le domaine des grands modèles de langage.

À première vue, l’implication d’un constructeur automobile peut surprendre. Pourtant, Geely Auto dispose d’un vaste écosystème technologique et collabore étroitement avec StepFun.

Leur partenariat repose sur une répartition des rôles : StepFun apporte son expertise en algorithmes IA et en calcul intensif, tandis que Geely fournit des cas d’usage et des scénarios de test à grande échelle (industrie, mobilité connectée, etc.). Les deux modèles open source, désormais disponibles, illustrent les fruits de cette alliance.

Step-Video-T2V pour la vidéo

Le premier modèle, Step-Video-T2V, publié sur Github sous licence MIT, se veut la plus imposante solution open source pour la génération vidéo. Avec 30 milliards de paramètres, il peut produire des vidéos en résolution 540p, jusqu’à 204 frames, tout en assurant un résultat plus cohérent d’un point de vue du mouvement et de la fluidité.

StepFun a d’ailleurs publié un nouveau jeu de tests, Step-Video-T2V-Eval, qui comprend 128 requêtes issues de diverses catégories (paysages, mouvements complexes, surréalisme, etc.) pour évaluer la qualité des séquences générées. Le modèle se distingue par sa capacité à gérer des actions dynamiques (p. ex. le mouvement d’un panda en skateboard sur un plan incliné) et à suivre les lois physiques de manière réaliste — un vrai défi pour la génération vidéo par IA.

Step-Audio : un modèle vocal

Le deuxième modèle, Step-Audio, publié lui sous licence Apache sur Github, se présente comme la première IA vocale open source « au niveau produit ». Il prend en charge une large gamme d’émotions, de dialectes et de styles d’élocution (chant, rap, etc.), permettant des interactions plus naturelles dans des domaines variés (cinéma, divertissement, sociabilité ou jeux vidéo).

StepFun affirme que Step-Audio surpasse d’autres modèles open source dans plusieurs tests de référence, notamment sur la compréhension du chinois (HSK-6). Le modèle se montre également capable de générer un rap rythmé et cohérent, démontrant une sensibilité avancée au tempo et à la structure musicale.

Pour évaluer ses performances, StepFun propose un cadre de test baptisé StepEval-Audio-360, qui analyse neuf dimensions : raisonnement logique, génération de contenu, créativité, suivi d’instructions, etc. L’objectif est de fournir un benchmark plus complet pour la synthèse vocale, un domaine où manquaient jusqu’à présent des solutions d’évaluation comparables.

Un engagement open source chinois en pleine effervescence

Cette initiative de StepFun et Geely s’ajoute à la récente série d’annonces menées par d’autres acteurs chinois, dont DeepSeek-R1, visant à rivaliser avec les grands modèles occidentaux. En libérant ces modèles vidéo et audio, StepFun et Geely misent sur la coopération internationale pour stimuler l’innovation et consolider la présence de la Chine dans le paysage de l’IA open source.

Retour en haut