EntraĂ®ner un robot uniquement en simulation, puis le lâcher dans le monde rĂ©el sans aucune adaptation : c’est le pari que l’Allen Institute for AI vient de tenir avec MolmoBot. Et les rĂ©sultats sont troublants : 79,2 % de taux de rĂ©ussite sur un test de manipulation standard, contre 39,2 % pour un modèle concurrent entraĂ®nĂ© sur des donnĂ©es rĂ©elles. L’intĂ©gralitĂ© de l’Ă©cosystème – pipelines d’entraĂ®nement, outils de simulation, modèles prĂ©-entraĂ®nĂ©s et jeux de donnĂ©es de rĂ©fĂ©rence – est publiĂ© en open source.
C’est la troisième publication majeure d’Ai2 dans la famille Molmo, après SERA, ses agents de programmation open source et BolMo, son modèle multilingue favorable au français. Ai2 confirme ici une ligne cohĂ©rente : publier des recherches de pointe accessibles Ă tous, y compris aux laboratoires qui n’ont pas les moyens de Google ou d’OpenAI.
1,8 million de trajectoires robotiques générées sans toucher un seul objet réel
Au cĹ“ur du système se trouve MolmoSpaces, une plateforme de simulation ouverte contenant plus de 230 000 environnements intĂ©rieurs, 130 000 ressources d’objets et 42 millions de points de prĂ©hension annotĂ©s. La clĂ© : une randomisation de domaine intensive qui fait varier en permanence les formes, couleurs, Ă©clairages, angles de camĂ©ra et paramètres physiques, forçant le modèle Ă gĂ©nĂ©raliser plutĂ´t qu’Ă mĂ©moriser.
RĂ©sultat : 1,8 million de trajectoires de manipulation gĂ©nĂ©rĂ©es sur 100 GPU NVIDIA A100, produisant plus de 130 heures d’expĂ©rience robotique par heure de temps rĂ©el. MolmoBot, construit sur la base vision-langage Molmo2, apprend par clonage comportemental Ă partir de ces donnĂ©es entièrement synthĂ©tiques, puis prĂ©dit les actions du robot Ă partir d’images camĂ©ra et d’instructions en langage naturel.
Trois architectures, un seul jeu de données
La suite MolmoBot propose trois variantes entraĂ®nĂ©es sur les mĂŞmes donnĂ©es synthĂ©tiques : MolmoBot (l’architecture principale, la plus performante, basĂ©e sur Molmo2), MolmoBot-SPOC (transformeur lĂ©ger, adaptĂ© aux environnements Ă ressources limitĂ©es) et MolmoBot-Pi0 (basĂ© sur PaliGemma, conçu pour des comparaisons directes avec l’architecture Ď€0 de Physical Intelligence).
Les tests en conditions rĂ©elles ont Ă©tĂ© conduits sur deux plateformes robotiques : le bras Franka FR3 et le manipulateur mobile Rainbow Robotics RB-Y1. PrĂ©hension et placement d’objets, ouverture de tiroirs, ouverture de portes d’armoire : tout ça sans une seule donnĂ©e d’entraĂ®nement physique. La corrĂ©lation simulation-rĂ©el mesurĂ©e atteint R = 0,96. MolmoSpaces est agnostique au simulateur et prend en charge MuJoCo, NVIDIA Isaac Sim et ManiSkill.
En rendant tout cela accessible en open source, Ai2 ouvre la recherche avancĂ©e en robotique aux petits laboratoires, universitĂ©s et dĂ©veloppeurs indĂ©pendants qui ne disposent pas des ressources pour collecter des donnĂ©es physiques Ă grande Ă©chelle. Un bien commun de l’humanitĂ©, littĂ©ralement.
