Démonstration de l'interface de Molmo 2 : l'IA analyse une vidéo de cuisine en temps réel et génère automatiquement une recette étape par étape (faire fondre le beurre, couper la baguette) à partir des actions visuelles.

ChatGPT et Gemini dépassés : cette IA gratuite open source, 10 fois plus petite, les bat en vidéo !

Le choc Molmo 2 : l’IA vidéo qui humilie les GAFAM. Gratuit, open source et plus intelligent que GPT-5 sur le terrain. L’Allen Institute change les règles du jeu.

Oui, décidément, l’Allen Institute for AI (Ai2) a décidé de ne laisser aucun répit aux géants de la Tech cette semaine. Après avoir promis de libérer la francophonie du joug de la tokenisation anglaise avec Bolmo, l’institut s’attaque maintenant au « Saint Graal » de l’IA : la compréhension vidéo. Cette semaine, ils ont également dévoilé Molmo 2. Et les chiffres sont formels : ce modèle open source met une claque technique aux solutions propriétaires ultra-chères comme GPT-5 et Gemini 2.5 Pro.

Ce qui choque dans cette annonce, c’est l’efficacité insolente de Molmo 2. Le modèle ne pèse que 8 milliards de paramètres (8B). C’est minuscule comparé aux monstres de l’industrie. Pourtant, sur des benchmarks critiques comme VideoPoint (qui teste la précision temporelle et spatiale), il surpasse les modèles fermés d’OpenAI et de Google.

Comment est-ce possible ? Ai2 a misé sur la qualité plutôt que la quantité. Là où d’autres modèles se gavent de 72 millions de vidéos, Molmo 2 a été entraîné sur « seulement » 9,19 millions de vidéos triées sur le volet. Résultat : une IA plus intelligente, moins gourmande et surtout… accessible à tous.

Voici la démonstration de ses capacités en vidéo :

L’ère de l’« IA physique »

Molmo 2 ne se limite plus à une simple description passive d’images fixes, il marque l’entrée dans l’ère de l’« IA physique » en devenant capable de percevoir, de comprendre et de raisonner sur le monde réel en mouvement. Concrètement, le modèle possède la faculté de pointer avec une précision chirurgicale l’endroit exact où se déroule une action et de suivre simultanément de multiples objets au cœur de scènes visuelles complexes. Cette intelligence temporelle lui permet également de relier chaque action à une chronologie précise au niveau de l’image, ouvrant ainsi la voie à un référencement temporel inédit.

Cette avancée représente un bond de géant pour la robotique de demain. Ranjay Krishna, responsable de la recherche en vision par ordinateur chez Ai2, confirme d’ailleurs que cette technologie servira prochainement de cerveau à MolmoAct. Ce futur modèle exploitera ces capacités de conscience spatiale et de suivi pour permettre aux robots de naviguer physiquement dans notre environnement quotidien de manière fluide, sans risque de collision.

Tout est gratuit (vraiment) et ouvert

C’est la différence fondamentale avec les GAFAM. Ali Farhadi, le PDG d’Ai2, l’affirme : « Molmo 2 va encore plus loin en apportant ces capacités aux vidéos et aux domaines temporels » tout en restant ouvert. Le rapport technique est accessible.

Les modèles (4B, 7B et 8B), les 9 millions de données d’entraînement et les outils sont disponibles dès maintenant sur GitHub et Hugging Face.

Côté licences, Molmo 2 est distribué sous la licence libre Apache 2.0. Il est toutefois important de noter que le modèle a été entraîné sur des jeux de données tiers dont l’usage est strictement limité à la recherche académique et non commerciale.

Retour en haut