Le doublage cinématographique par IA, c’est l’un de ces problèmes qui semblent simples jusqu’à ce qu’on les regarde de près. Synchroniser précisément les lèvres, conserver le timbre vocal du personnage, transmettre la bonne émotion dans une scène de dialogue à plusieurs locuteurs, même quand un visage est hors champ : autant de défis que les modèles existants résolvaient à moitié. C’est ici qu’intervient Fun-CineForge (vous l’aurez compris).
Le Tongyi Lab d’Alibaba vient ainsi de publier Fun-CineForge en open source le 16 mars, en revendiquant une première mondiale : le premier grand modèle multimodal capable de doublage de qualité cinématographique dans des scénarios complexes.
Quatre modalités d’entrée et une nouveauté : le contrôle temporel
Fun-CineForge fusionne quatre types d’informations pour générer le doublage : les données visuelles (mouvements des lèvres et expressions faciales), le texte (dialogues et indices émotionnels), l’audio (voix de référence du personnage), et une quatrième modalité inédite que Tongyi Lab appelle « modalité temporelle ». Ce dernier élément contrôle précisément quand chaque prise de parole doit apparaître et quel personnage parle – une avancée qui permet de maintenir la synchronisation même quand le visage d’un locuteur est occulté ou hors champ.

Le modèle s’appuie sur CosyVoice3, le système de synthèse vocale du même laboratoire, et a été évalué sur le jeu de données CineDub, construit à partir de plus de 350 films et séries télévisées chinois et anglais. Les taux d’erreur de transcription atteignent 1 à 2 % pour le chinois et l’anglais, et les erreurs de séparation des locuteurs tombent à 1,2 %. Sur les benchmarks face aux modèles concurrents DeepDubber-V1 et InstructDubber, Fun-CineForge affiche de meilleures performances en naturel de la parole, expression émotionnelle, similarité du timbre et précision de la synchronisation labiale.
Fun-CineForge est actuellement limité aux clips de moins de 30 secondes. Les travaux en cours visent l’extension multilingue et interculturelle, ainsi que des architectures de doublage en temps réel sur appareil.
Le code est sur GitHub et le modèle sur Hugging Face.
