Le géant du streaming vient de frapper un grand coup dans l’écosystème de l’IA. Pour sa première contribution publique majeure, Netflix a dévoilé VOID, un cadre de travail (framework) capable non seulement d’effacer des objets dans une séquence vidéo, mais surtout de recalculer la physique de la scène comme si l’objet n’avait jamais existé. Un outil désormais accessible à tous en open source.
La suppression d’objet (inpainting) n’est pas nouvelle, mais elle se heurtait jusqu’ici à un mur : la physique. Si vous supprimez une voiture d’un crash, les débris flottent encore dans l’air. Si vous effacez un plongeur, l’eau éclabousse le vide.
VOID (Video Object and Interaction Deletion) change la donne. Grâce à ce modèle, Netflix permet de générer des scénarios contrefactuels plausibles. Deux exemples. Une collision ? Vous upprimez un véhicule d’un impact, et la voiture restante poursuit sa route sans dommages, les débris disparaissant au profit d’un bitume propre. Autre scénario, des interactions fluides : en effaçant une personne plongeant dans une piscine, la surface de l’eau reste parfaitement lisse, sans remous ni éclaboussures résiduelles.
Une architecture multimodale
Pour réussir ce tour de force, les chercheurs de Netflix (épaulés par l’INSAIT) ont mis au point un pipeline complexe qui s’appuie sur le meilleur de l’IA actuelle :
-
Analyse de scène : Gemini 3 Pro de Google identifie les régions affectées par l’objet (ombres, réflexions, impacts).
-
Segmentation : SAM2 de Meta gère le détourage précis de l’objet à supprimer.
-
Génération : Le modèle de diffusion CogVideoX sert de base pour reconstruire les pixels manquants, affiné avec des jeux de données synthétiques (Kubric et HUMOTO) spécialisés dans la physique des interactions.
Lors de tests comparatifs, VOID a été préféré par les utilisateurs dans 64,8 % des cas, loin devant des solutions comme Runway (18,4 %).

Succès open source
Contrairement à beaucoup de ses concurrents, Netflix a choisi la voie de l’ouverture totale. Le projet est disponible sous licence Apache 2.0, permettant un usage commercial sans restriction :
-
Compte GitHub pour accéder à la base de code complète.
-
Hugging Face pour télécharger les poids du modèle et tester la démo.
Attention toutefois, la « magie » a un coût matériel. Pour faire tourner VOID localement, il vous faudra un GPU solide avec au moins 40 Go de VRAM. Si Netflix n’a pas encore intégré l’outil dans ses propres pipelines de production, la mise à disposition de VOID pourrait transformer radicalement le travail des studios de post-production indépendants.
