Entraîner un robot uniquement en simulation, puis le lâcher dans le monde réel sans aucune adaptation : c’est le pari que l’Allen Institute for AI vient de tenir avec MolmoBot. Et les résultats sont troublants : 79,2 % de taux de réussite sur un test de manipulation standard, contre 39,2 % pour un modèle concurrent entraîné sur des données réelles. L’intégralité de l’écosystème – pipelines d’entraînement, outils de simulation, modèles pré-entraînés et jeux de données de référence – est publié en open source.
C’est la troisième publication majeure d’Ai2 dans la famille Molmo, après SERA, ses agents de programmation open source et BolMo, son modèle multilingue favorable au français. Ai2 confirme ici une ligne cohérente : publier des recherches de pointe accessibles à tous, y compris aux laboratoires qui n’ont pas les moyens de Google ou d’OpenAI.
1,8 million de trajectoires robotiques générées sans toucher un seul objet réel
Au cœur du système se trouve MolmoSpaces, une plateforme de simulation ouverte contenant plus de 230 000 environnements intérieurs, 130 000 ressources d’objets et 42 millions de points de préhension annotés. La clé : une randomisation de domaine intensive qui fait varier en permanence les formes, couleurs, éclairages, angles de caméra et paramètres physiques, forçant le modèle à généraliser plutôt qu’à mémoriser.
Résultat : 1,8 million de trajectoires de manipulation générées sur 100 GPU NVIDIA A100, produisant plus de 130 heures d’expérience robotique par heure de temps réel. MolmoBot, construit sur la base vision-langage Molmo2, apprend par clonage comportemental à partir de ces données entièrement synthétiques, puis prédit les actions du robot à partir d’images caméra et d’instructions en langage naturel.
Trois architectures, un seul jeu de données
La suite MolmoBot propose trois variantes entraînées sur les mêmes données synthétiques : MolmoBot (l’architecture principale, la plus performante, basée sur Molmo2), MolmoBot-SPOC (transformeur léger, adapté aux environnements à ressources limitées) et MolmoBot-Pi0 (basé sur PaliGemma, conçu pour des comparaisons directes avec l’architecture π0 de Physical Intelligence).
Les tests en conditions réelles ont été conduits sur deux plateformes robotiques : le bras Franka FR3 et le manipulateur mobile Rainbow Robotics RB-Y1. Préhension et placement d’objets, ouverture de tiroirs, ouverture de portes d’armoire : tout ça sans une seule donnée d’entraînement physique. La corrélation simulation-réel mesurée atteint R = 0,96. MolmoSpaces est agnostique au simulateur et prend en charge MuJoCo, NVIDIA Isaac Sim et ManiSkill.
En rendant tout cela accessible en open source, Ai2 ouvre la recherche avancée en robotique aux petits laboratoires, universités et développeurs indépendants qui ne disposent pas des ressources pour collecter des données physiques à grande échelle. Un bien commun de l’humanité, littéralement.
